论文概览

论文标题:Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

核心主题:从普通LLM到大型推理模型的演进之路

关键洞察:OpenAI o1系列标志着AI推理能力的重大突破

技术维度:训练时扩展 + 测试时扩展 = 推理能力飞跃

核心技术:强化学习、过程监督、搜索算法、数据构建

重要发现:推理能力可以通过更多的"思考时间"持续提升

引言:推理AI的新时代

语言一直被视为人类推理的重要工具。随着大型语言模型的突破性发展,我们见证了一个激动人心的转变:从简单的文本生成到复杂的推理思考

从"快思考"到"慢思考"

传统的LLM就像人类的"系统1思维"——快速、直觉、自动化。但真正的推理往往需要"系统2思维"——深思熟虑、逐步分析、反复思考。

关键创新

  • “思维"概念:推理过程中的中间步骤序列
  • 强化学习:通过试错自动生成高质量推理轨迹
  • 测试时扩展:更多思考时间带来更好的推理结果

OpenAI o1:里程碑式的突破

OpenAI o1系列的出现标志着这一研究方向的重要里程碑,展示了"慢思考"AI的巨大潜力。

技术背景:三大训练阶段

预训练:奠定推理基础

预训练阶段培养LLM的基础推理能力:

关键要素

  • 代码数据:逻辑思维的训练素材
  • 数学内容:抽象推理的练习场
  • 合成数据:专门设计的推理增强数据

核心挑战:平衡通用语言能力与专业推理能力

微调:激发推理潜力

监督微调通过精心设计的指令数据优化模型输出:

链式思维(CoT)

  • 明确展示中间推理步骤
  • 显著提升复杂问题解决能力
  • 增强推理过程的可解释性

数据策略

  • 从先进模型中提取高质量推理数据
  • 构建多样化的指令数据集
  • 注重推理过程而非仅仅结果

对齐:塑造推理风格

对齐阶段通过强化学习引导模型产生更好的推理:

技术路径

  • RLHF:基于人类反馈的强化学习
  • DPO:直接偏好优化,简化训练流程
  • 过程监督:对推理步骤进行细粒度反馈

数据构建:从人工标注到AI自动化

人工标注:质量的黄金标准

优势

  • ✅ 高质量、精确性强
  • ✅ 适应新场景的能力
  • ✅ 处理模糊数据的经验

挑战

  • ❌ 成本极高,难以规模化
  • ❌ 标注速度慢
  • ❌ 无法满足大规模数据需求

LLM自动化标注:效率的革命

结果标注

利用LLM强大的指令遵循能力:

  • 任务多样化:从问答提取到复杂分析
  • 上下文处理:10万+标记的长文本处理
  • 自动学习:通过少量示例快速适应

过程标注:细粒度监督

更强LLM标注

外部强模型 → 评估中间步骤 → 生成过程标注

蒙特卡罗模拟

中间步骤 → 多次随机推理 → 平均结果评估

MCTS优化

树搜索策略 → 高质量叶节点 → 共享计算资源

学习推理:从监督到强化微调

监督微调:基础能力构建

经典方法

  • 标注数据驱动的任务适应
  • 保留预训练知识的同时专业化
  • 链式思维的集成训练

局限性

  • 依赖高质量标注数据
  • 可能导致灾难性遗忘
  • 计算成本高昂

强化学习:智能体式训练

经典强化学习

RLHF核心流程

策略模型 ↔ 奖励模型 ↔ 人类偏好数据

关键突破

  • ReFT:将PPO应用于推理任务
  • VinePPO:解决信用分配问题
  • Constitutional AI:通过原则而非反馈训练

直接偏好优化(DPO)

核心优势

  • 无需显式奖励模型
  • 使用成对偏好比较
  • 更稳定、更高效

多步推理优化

结果奖励模型(ORM)

特点

  • 只在最终结果获得反馈
  • 面临信用分配难题
  • 需要蒙特卡洛方法估计价值

过程奖励模型(PRM)

核心价值

  • 每个推理步骤都有奖励
  • 细粒度的推理指导
  • 显著提升数学推理能力

应用案例

  • MATH-SHEPHERD:自动化过程监督
  • DeepSeekMath:组相对策略优化
  • ArCHer:分层强化学习

测试时扩展:从CoT到PRM引导搜索

结构化提示:唤醒深度思考

核心方法

逐步推理

  • 链式思维:展示中间推理步骤
  • 自我一致性:多路径推理投票
  • 自动CoT:自动化生成推理链

多路径探索

  • 思维树:树状结构的推理路径
  • 思维图:更灵活的图结构推理
  • ReAct:推理与行动交织

问题分解

  • 从少到多:复杂问题逐步分解
  • 计划求解:战略性问题处理

PRM引导搜索:智能搜索策略

搜索算法对比

多数投票

多条推理路径 → 投票选择 → 最优答案

树搜索(MCTS)

选择 → 扩展 → 模拟 → 反向传播

束搜索

保留Top-K路径 → 逐步扩展 → 最优序列

前瞻搜索

当前步骤 → k步模拟 → PRM评分 → 最优决策

通向大型推理模型之路

OpenAI o1系列:突破性进展

核心能力突破

知识整合

  • 竞争性编程成功率:83.3%
  • 跨领域知识应用能力
  • 结构化分析思维

问题分解

  • 荷兰数学B考试:接近满分
  • 系统化解题步骤
  • 一致性推理表现

复杂推理

  • PlanBench评估优异表现
  • 长周期任务推理连贯性
  • 动态约束处理能力

新的扩展定律

训练时扩展

大规模强化学习 → "思维链"学习 → 高效思考

测试时扩展

更多思考时间 → 更好推理结果 → 持续性能提升

开源探索:百花齐放

四大开源项目

OpenR

  • 首个开源o1复现框架
  • 构建逐步推理数据
  • 训练过程奖励模型

Rest-MCTS

  • 策略模型与PRM协同训练
  • 自训练循环优化
  • MCTS算法集成

o1复制之旅

  • 专注训练策略设计
  • 试错反思回溯机制
  • 深层因果推理构建

LLaMA-Berry

  • 推理阶段优化专家
  • SR-MCTS自我优化
  • 成对偏好奖励模型

其他测试时增强技术

语言强化搜索(VRS)

个体代理

数学发现

  • 组合问题的程序化解决
  • 符号回归的迭代优化
  • 科学假设的验证循环

启发式优化

  • 反思驱动的策略生成
  • 自适应超启发式算法
  • 跨领域泛化能力

多代理系统

协作推理

  • 自然语言通信协调
  • 共享推理空间探索
  • 异构网络元结构发现

因果发现

  • 协作辩论机制
  • 统计与语言交互
  • 准确因果图生成

具身代理

实验自动化

  • 化学实验设计执行
  • 机器人液体处理
  • 反应优化迭代

记忆增强推理

经验学习

REMEMBERER

  • 观察-行动对存储
  • Q学习价值更新
  • 检索式少样本学习

记忆共享

  • 多代理并发执行
  • 集体记忆池构建
  • 高质量经验传递

反思学习

Reflexion

  • 成功失败语义反思
  • 指导原则提取总结
  • 决策能力迭代提升

ExpeL

  • 模仿与反思结合
  • 成功模式识别
  • 对比分析洞察

概念学习

Agent-Pro

  • 环境信念建立
  • 一致性评估优化
  • 策略迭代演进

Self-Evolving GPT

  • 记忆机制启发
  • 自主学习框架
  • 通用经验抽取

代理系统搜索

三层搜索架构

提示层

  • 验证修正迭代
  • 进化提示优化
  • 元提示生成

模块层

  • 标准接口设计
  • 功能模块重组
  • 性能评估驱动

代理层

  • Python代码定义
  • 多代理协作搜索
  • 图优化增强

评估基准:推理能力的试金石

数学推理基准

难度梯度

基础级:MATH-401、MultiArith、AddSub 进阶级:GSM8K、MATH 竞赛级:CHAMP、ARB、FIMO

专业方向

几何推理:Geometry3K、GEOQA、UniGEO 定理证明:MINIF2F、LeanDojo、THEOREMQA 跨模态:MATHVISTA、CHARTQA、TABMWP

逻辑推理基准

三大类型

演绎推理:ProofWriter、FOLIO、PrOntoQA 归纳推理:BigBench、CLUTTR 溯因推理:NLI、AbductionRule、ARCT

其他专业基准

常识推理:CommonsenseQA、SocialIQA、PIQA 代码生成:HumanEval、MBPP、SWE-bench 智能体:WebArena、AgentBench、AgentGym

技术展望与开放挑战

后训练缩放定律

新的发现

  • 训练阶段缩放遇到瓶颈
  • 后训练阶段展现新潜力
  • 测试时计算带来持续提升

关键问题

  • LLM代理是否存在类似缩放定律?
  • 指令遵循能力与推理能力的关系?
  • 如何平衡效率与性能?

高质量数据生成

核心洞察

  • 数据质量比数量更重要
  • 搜索算法生成优质推理数据
  • 过程监督数据的关键作用

技术方向

  • MCTS驱动的数据构建
  • 自动化高质量标注
  • 多模态推理数据融合

慢思维理论研究

理论挑战

  • 人类认知机制的深度借鉴
  • LLM推理过程的理论分析
  • 任务自适应推理机制

应用前景

  • 城市规划、物流调度等复杂任务
  • 验证快但求解难的问题类型
  • 多领域协同推理能力

结论

大型推理模型的发展代表了AI能力的质的飞跃。通过训练时和测试时的双重扩展,我们正在见证AI从"快思考"向"慢思考"的演进。

核心贡献

  1. 技术突破:强化学习 + 过程监督 + 搜索算法的完美结合
  2. 范式转变:从结果导向到过程导向的训练理念
  3. 能力提升:在数学、逻辑、编程等领域的显著进步
  4. 应用前景:为复杂现实问题提供了新的解决方案

未来方向

  • 更深入的理论理解
  • 更高效的算法设计
  • 更广泛的应用拓展
  • 更智能的人机协作

这一激动人心的研究领域正在重塑我们对AI推理能力的认知,并为构建真正智能的AI系统铺平道路。

论文翻译:https://dppemvhuzp.feishu.cn/docx/D0Dhdw5DNoYGeqxqXDycTK6inAd?from=from_copylink