论文信息
- 标题: Chain-of-Thought Reasoning Without Prompting
- 作者: Xuezhi Wang, Denny Zhou
- 机构: Google DeepMind
- 发表: arXiv preprint
- 链接: arXiv | PDF
核心贡献
本文揭示CoT推理路径其实隐含在预训练模型中,无需特殊prompt即可通过改变解码策略触发。通过分析top-k候选token,发现CoT路径频繁出现在高概率分支中。这一发现挑战了”prompting是必需的”的传统观念,为理解模型的内在推理能力提供新视角。
核心洞察
传统观点的挑战
传统认知:
CoT推理需要特殊的prompt触发:
1 | "Let's think step by step" → 模型生成推理 |
本文发现:
CoT路径其实一直存在,只是被贪心解码”掩盖”了:
1 | 贪心解码: 选最高概率token → 直接答案路径 |
含义:
- 预训练已经赋予模型推理能力
- Prompting只是”激活”而非”注入”这种能力
- 解码策略比prompt更本质
方法详解
方法设计
Alternative Token分析
核心算法:
1 | def find_cot_in_topk(model, question, k=10): |
置信度关联
关键发现:
CoT路径的出现与模型置信度相关:
1 | # 分析置信度 |
结论:模型”知道”何时需要推理。
实验结果
CoT路径的发现率
| 任务 | Top-1有CoT | Top-10有CoT | Top-50有CoT |
|---|---|---|---|
| GSM8K | 12% | 68% | 89% |
| StrategyQA | 8% | 54% | 76% |
| Date | 15% | 71% | 92% |
结论:top-10范围内,CoT路径出现概率>50%。
性能对比
与标准CoT对比:
- CoT with prompt: 78.5%
- CoT from top-10 (无prompt): 73.2%
- 贪心解码 (无CoT): 62.1%
分析:
- 无prompt的CoT略低于有prompt (~5%差距)
- 但显著高于贪心解码 (+11%)
- 证明推理能力确实是内在的
跨模型一致性
| 模型 | Top-10 CoT发现率 |
|---|---|
| GPT-4 | 74% |
| GPT-3.5 | 65% |
| PaLM-2 | 58% |
趋势:更强模型的CoT路径更容易被发现。
深度分析
为什么贪心解码隐藏了CoT?
假设:训练数据中直接答案更常见
1 | 训练数据分布: |
但在top-k中,CoT路径仍有一席之地。
Prompt的作用重新解读
旧解释:Prompt”教”模型推理
新解释:Prompt改变概率分布
1 | # 无prompt |
Prompt是概率”放大器”而非知识注入。
对模型理解的启示
传统观点:
1 | 模型 = 知识存储 + Prompting激活 |
本文观点:
1 | 模型 = 多种能力的概率分布 |
这意味着模型的能力上限可能远超我们当前的认知。
实用价值
应用场景
1. Prompt-free推理
适用于不便使用prompt的场景:
- API有字符限制
- 多语言环境(prompt翻译困难)
- 需要统一接口
1 | # 替代传统CoT |
2. 推理能力评估
1 | # 评估模型的内在推理能力 |
3. 混合解码策略
1 | # 自适应选择是否触发CoT |
局限性
- 计算成本高:top-k探索需要k次生成
- CoT识别不完美:启发式规则可能误判
- 质量不如prompt CoT:仍有5%性能差距
总结
本文通过简单但深刻的实验揭示:
核心发现:
- CoT推理能力是预训练模型的内在属性
- 贪心解码隐藏了这种能力
- Top-k探索可以无prompt触发推理
理论意义:
- 重新定义了prompt的作用(放大器 vs 注入器)
- 提示模型能力可能被严重低估
- 解码策略与prompt同等重要
实践价值:
- 提供了prompt-free推理的可能性
- 启发新的解码算法设计
- 可用于评估模型的内在推理能力
未来方向:
- 设计专门的解码算法优化CoT发现
- 研究如何在训练时增强内在推理能力
- 探索其他被解码策略”隐藏”的能力