单位: SJTU
代码:https://github.com/GAIR-NLP/LIMO
基座模型: Qwen2.5-32B-Instruct
原文地址:https://arxiv.org/pdf/2502.03387
主要贡献
提出LIMO假设:研究者提出了LIMO(Limited Input, Maximum Output)假设,证明通过少量的数据集(几百个例子),可以通过在预训练模型中利用丰富的数学知识和详细的推理链来激发复杂的推理能力。这意味着即便是有限的数据也能有效地进行深度推理任务。
挑战当前的推理任务scaling laws假设:论文提供了系统的实证证据,挑战了现有关于推理任务中scaling laws的假设。研究表明,通过适当的方法,推理能力不仅可以应对大规模数据集,还能够推广到分布外的问题,表明模型获得的推理能力是真正的推理能力,而非仅仅是表面上的模式匹配。
识别有效推理激发的关键因素:研究还发现,推理的有效激发依赖于几个关键因素,特别是预训练知识的基础和测试时计算扩展之间的协同作用。通过理解这些因素,研究者提供了如何结合这些进展来实现卓越推理性能的洞察,即使只有极少的微调数据。
发布开源资源:论文的最后,研究者发布了一个综合的开源套件,包含微调后的模型、评估管道、训练代码以及精心策划的数据集,这些数据集具有不同的质量水平。这个套件不仅便于系统地研究数据效率在复杂推理中的作用,也为未来研究提供了重要的可重现性和资源。
主要内容:
LIMO 假设
我们将“少即是多推理”(LIMO)假设形式化如下:在基础模型中,当领域知识在预训练过程中被全面编码时,通过最小但精确安排的认知过程展示,可以引发复杂的推理能力。该假设基于两个基本前提:
模型参数空间中潜在存在着必备的知识。
推理链的质量能够精确地将复杂问题分解成详细且合乎逻辑的步骤,使得认知过程变得显式且可追溯。
数据集构建
问题选择
我们假设高质量的问题 q∈Qq \in Qq∈Q 应该能够自然地引发扩展的推理过程。我们的选择标准包括以下几个方面:
难度级别:我们优先选择具有挑战性的问题,这些问题能够促进复杂的推理链、多样的思维过程和知识整合,从而使大规模语言模型能够有效地利用预训练知识进行高质量推理。
普适性:与模型训练分布偏离较大的问题更能挑战其固有的思维模式,鼓励探索新的推理方法,从而扩展推理搜索空间。
知识多样性:所选问题应涵盖各种数学领域和概念,要求模型在解题过程中整合和连接远离的知识。
首先从多个已建立的数据集中汇集了大量候选问题:NuminaMath-CoT,包含从高中到高级竞赛水平的精心标注问题;AIME历史考试问题,以其极具挑战性和综合性的问题而闻名,涉及多个数学领域;MATH(Hendrycks等,2021),涵盖了来自著名竞赛的各种数学问题;以及其他多个数学问题来源。
从这一丰富的初步集合中,我们采用了系统的多阶段筛选过程。首先,基于Qwen2.5-Math-7BInstruct(Yang等,2024)模型,我们应用了基线难度筛选,剔除了该模型能够在少量尝试中正确解答的问题。此过程帮助确定了初步的难度阈值。随后,我们使用包括R1、DeepSeek-R1-Distill-Qwen32B(Guo等,2025)和Huang等(2024)模型在内的最先进推理模型对剩余问题进行了更严格的评估,保留了这些最强模型在多次采样迭代中成功率低于某一阈值的问题。
最后,为了保持语料库的多样性,我们采用了战略性抽样技术,平衡了各数学领域和复杂度水平的代表性,同时避免了概念上的冗余。经过这一精细的筛选过程,最终从初始数千万个候选问题中挑选出了817个精心整理的问题,这些问题满足了我们严格的质量标准,同时涵盖了丰富的数学推理挑战。
推理链构建
为了整理高质量的解决方案,我们采用了综合选择策略。
我们首先收集了官方解决方案(如果有的话),并补充了由人类专家和AI专家撰写的解决方案。
此外,我们还利用最先进的推理模型,包括DeepSeek R1、DeepSeekR1-Distill-Qwen-32B(Guo等,2025)和Qwen2.5-32b-Instruct,生成了多样化的解决方案方法。进一步地,按照O1-Journey-Part2(Huang等,2024)中提出的方法,我们利用基于Qwen2.5-32b-Instruct的自蒸馏技术创建了额外的模型变体,这些变体随后被用来生成额外的题目解答。然后,根据答案的正确性对这些响应进行了筛选,建立了一个有效解决方案的基准集合。随后,所有作者通过协作审查对这些筛选后的解决方案进行了全面分析。通过仔细观察和系统回顾,我们识别出了区分高质量推理链的几个关键特征:
最优结构化组织:解决方案展示了清晰且良好组织的结构格式,步骤分解时采用了自适应粒度。特别是在关键推理节点处,分配了更多的标记和详细的阐述,而对简单步骤保持简洁表达。这种自适应的步骤粒度方法确保了复杂的过渡能够得到适当的关注,同时避免了在简单推理中出现不必要的冗长。
有效的认知支架:高质量的解决方案通过精心结构化的解释逐步建立理解,提供战略性的教育支持。这包括渐进的概念引入、在关键点清晰表达重要见解,以及细致地弥合概念间的鸿沟,使得复杂的推理过程变得更易于理解和学习。
严谨的验证:高质量的解决方案在整个推理过程中包含了频繁的验证步骤。这包括验证中间结果、交叉检查假设并确认每个推理的逻辑一致性,从而确保最终答案的可靠性。
基于这些特征,我们开发了一种结合基于规则的过滤和LLM辅助整理的混合方法,为前面章节中识别的每个问题选择高质量的解决方案。这个系统化过程确保了每个选定的解决方案都遵循我们的质量标准,同时保持数据集的一致性。**通过专注于最小而精心整理的推理链集合,我们体现了“少即是多”的核心原则:高质量的展示,而非单纯的数据量,是解锁复杂推理能力的关键。**最终生成的数据集 $$$$ 包含了精心整理的三元组 $$(q,r,a$$,其中每个推理链 $$$$ 都满足我们的质量标准。通过保持这些严格的标准并限制数据集大小 |D|,我们旨在证明高质量的展示,而非大量的训练数据,对于解锁复杂推理能力至关重要。
Methodology
Training Protocol
我们使用监督微调在LIMO数据集上对Qwen2.5-32B-Instruct进行微调。训练过程采用全参数微调,结合DeepSpeed ZeRO-3优化(Rajbhandari等,2020)和FlashAttention2(Dao,2023),序列长度限制为16,384个标记。
论文翻译:https://dppemvhuzp.feishu.cn/docx/ECnGdqPhUo9t0QxBRPAcCIfanvf?from=from_copylink