Demystifying Long Chain-of-Thought Reasoning in LLMs
ArXiv ID: 2502.03373
作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
发布日期: 2025-02-05
摘要
扩展推理计算能够增强大语言模型(LLM)的推理能力,长链思维(CoT)使回溯和错误纠正等策略成为可能。本文系统研究了长链思维推理的机制,揭示了四个主要发现:(1)监督微调(SFT)简化训练并缓解强化学习中的奖励攻击问题;(2)推理能力随着训练和推理阶段计算量的增加而涌现;(3)扩展可验证的奖励信号对于强化学习解锁长链思维推理至关重要;(4)错误纠正等核心能力存在于基础模型中,但需要适当的训练才能激活。我们的发现为训练长形式推理的大语言模型提供了洞察,并展示了训练和推理时的计算扩展如何共同促进增强的推理能力。
主要贡献
- 系统研究长链思维(Long CoT)推理的训练机制和涌现规律
- 发现监督微调(SFT)能够简化训练过程并防止强化学习中的奖励攻击
- 揭示推理能力与计算量的关系:在训练和推理阶段增加计算均能提升推理
- 证明可验证奖励信号的规模是强化学习成功的关键因素
- 发现错误纠正等核心推理能力已存在于基础模型,需训练激活
- 提供开源代码和实验框架 github.com/eddycmu/demystify-long-cot
方法概述
本文采用系统化的实验方法研究长链思维推理:
实验设计:
- 使用监督微调(SFT)和强化学习(RL)两种训练范式
- 控制变量:计算量、奖励信号规模、训练数据量
- 评估长推理链(包含回溯、错误纠正等高级策略)的生成质量
训练流程:
- 阶段1-监督微调: 在标注的推理轨迹上训练模型,建立基础推理能力
- 阶段2-强化学习: 使用可验证的奖励信号(如数学问题的正确答案)优化推理路径
- 对比不同训练策略对长链思维涌现的影响
关键发现验证:
- 发现1验证: 对比纯RL vs SFT+RL,测量奖励攻击率和训练稳定性
- 发现2验证: 系统性地扩展训练和推理计算,测量推理能力的涌现拐点
- 发现3验证: 改变可验证奖励的数量和质量,观察对RL效果的影响
- 发现4验证: 在基础模型上测试错误纠正能力,对比训练前后的激活程度
评估指标:
- 推理准确率(在数学、代码等可验证任务上)
- 推理链长度和复杂度
- 回溯和错误纠正策略的出现频率
- 训练效率和稳定性
开源贡献: 发布完整的训练代码、模型检查点和实验配置,支持社区复现和扩展研究
个人评价
这是一篇深入研究长链思维推理机制的重要论文:
优势:
- 研究深度: 不仅验证长CoT有效,更深入揭示其训练机制和涌现规律,填补了理论空白
- 系统性: 四个核心发现相互关联,构成完整的长推理链训练理论框架
- 实用价值: SFT缓解奖励攻击的发现对RL训练有直接指导意义,可降低训练成本
- 可复现性: 提供GitHub开源代码,支持社区验证和扩展研究
- 计算洞察: 揭示训练和推理双阶段计算扩展的协同作用,指导资源分配策略
- 能力激活发现: 证明基础模型已具备推理能力但需训练激活,改变了对模型能力的认知
局限:
- 主要聚焦可验证任务(数学、代码),对开放域推理的适用性待验证
- 未详细分析不同模型规模下的规律差异
- 对推理链长度的极限和边际效益缺少深入探讨
适用场景:
- 训练需要复杂推理的大语言模型
- 优化强化学习训练流程,避免奖励攻击
- 理解推理能力的涌现规律和计算-性能关系
- 开发需要错误纠正和回溯能力的AI系统
推荐理由: 这篇论文不仅验证了长链思维的有效性,更重要的是系统揭示了其训练机制,为高效训练长推理模型提供了理论基础和实践指导。SFT+RL的训练范式和可验证奖励扩展的洞察具有重要的工程价值。
评分: 4.2/5.0
代码仓库: GitHub