DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities

论文概览 论文标题:DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities 主要贡献:提出了一个专门评估大语言模型长文本推理能力的新基准 数据规模:100个专家级问答问题,涵盖5个现实领域 ...

2025年04月06日 · 6 分钟 · 2955 字 · ZhaoYang

FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

论文概览 论文标题:FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models 数据规模:820条精心设计的指令,涵盖50+个NLP任务 核心创新:首创多层级细粒度约束遵循评估框架 ...

2025年03月27日 · 9 分钟 · 4458 字 · ZhaoYang

WritingBench: A Comprehensive Benchmark for Generative Writing

论文概览 论文标题:WritingBench: A Comprehensive Benchmark for Generative Writing 数据规模:1,239个精心设计的查询,跨越6大核心领域100个子领域 核心创新:首创查询依赖评估框架,动态生成实例特定标准 ...

2025年03月27日 · 7 分钟 · 3213 字 · ZhaoYang

LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm

论文概览 论文标题:LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm 研究机构:Multiple institutions 数据规模:166份跨三大领域的真实长文本样本 核心创新:首创双范式长文本生成评估框架(直接生成 vs 规划生成) ...

2025年03月25日 · 12 分钟 · 5563 字 · ZhaoYang