Benchmark

DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities

论文概览论文标题：DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities 主要贡献：提出了一个专门评估大语言模型长文本推理能力的新基准数据规模：100个专家级问答问题，涵盖5个现实领域 ...

FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

论文概览论文标题：FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models 数据规模：820条精心设计的指令，涵盖50+个NLP任务核心创新：首创多层级细粒度约束遵循评估框架 ...

WritingBench: A Comprehensive Benchmark for Generative Writing

论文概览论文标题：WritingBench: A Comprehensive Benchmark for Generative Writing 数据规模：1,239个精心设计的查询，跨越6大核心领域100个子领域核心创新：首创查询依赖评估框架，动态生成实例特定标准 ...

LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm

论文概览论文标题：LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm 研究机构：Multiple institutions 数据规模：166份跨三大领域的真实长文本样本核心创新：首创双范式长文本生成评估框架（直接生成 vs 规划生成） ...