DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities

论文概览 论文标题:DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities 主要贡献:提出了一个专门评估大语言模型长文本推理能力的新基准 数据规模:100个专家级问答问题,涵盖5个现实领域 ...

2025年04月06日 · 6 分钟 · 2955 字 · ZhaoYang

LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm

论文概览 论文标题:LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm 研究机构:Multiple institutions 数据规模:166份跨三大领域的真实长文本样本 核心创新:首创双范式长文本生成评估框架(直接生成 vs 规划生成) ...

2025年03月25日 · 12 分钟 · 5563 字 · ZhaoYang