CoT Reasoning Without Prompting: 解码即推理

论文信息

  • 标题: Chain-of-Thought Reasoning Without Prompting
  • 作者: Xuezhi Wang, Denny Zhou
  • 机构: Google DeepMind
  • 发表: arXiv preprint
  • 链接: arXiv | PDF

核心贡献

本文揭示CoT推理路径其实隐含在预训练模型中,无需特殊prompt即可通过改变解码策略触发。通过分析top-k候选token,发现CoT路径频繁出现在高概率分支中。这一发现挑战了”prompting是必需的”的传统观念,为理解模型的内在推理能力提供新视角。

核心洞察

传统观点的挑战

传统认知
CoT推理需要特殊的prompt触发:

1
2
"Let's think step by step"  → 模型生成推理
无此prompt → 模型直接给答案

本文发现
CoT路径其实一直存在,只是被贪心解码”掩盖”了:

1
2
贪心解码: 选最高概率token  → 直接答案路径
top-k探索: 检查前k个token → 发现CoT路径

含义

  • 预训练已经赋予模型推理能力
  • Prompting只是”激活”而非”注入”这种能力
  • 解码策略比prompt更本质

方法详解

方法设计

Alternative Token分析

核心算法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
def find_cot_in_topk(model, question, k=10):
"""
在top-k候选中寻找CoT路径
"""
# 第一步:获取top-k候选
logits = model(question)
top_k_tokens = torch.topk(logits, k).indices

# 第二步:对每个候选继续生成
paths = []
for token in top_k_tokens:
# 从该token开始继续生成
path = model.generate(
question + [token],
max_length=100
)
paths.append(path)

# 第三步:识别哪些是CoT路径
cot_paths = []
for path in paths:
if is_cot_pattern(path): # 检测推理步骤模式
cot_paths.append(path)

return cot_paths

def is_cot_pattern(text):
"""
启发式检测CoT模式
"""
indicators = [
"first", "then", "so", "therefore",
"step 1", "step 2",
"because", "since"
]
return any(ind in text.lower() for ind in indicators)

置信度关联

关键发现
CoT路径的出现与模型置信度相关:

1
2
3
4
5
6
7
8
9
10
11
# 分析置信度
for path in paths:
confidence = model.score(path)
has_cot = is_cot_pattern(path)

print(f"Confidence: {confidence}, Has CoT: {has_cot}")

# 结果模式:
# Confidence: 0.92, Has CoT: True ← 高置信度→有CoT
# Confidence: 0.85, Has CoT: True
# Confidence: 0.45, Has CoT: False ← 低置信度→无CoT

结论:模型”知道”何时需要推理。

实验结果

CoT路径的发现率

任务 Top-1有CoT Top-10有CoT Top-50有CoT
GSM8K 12% 68% 89%
StrategyQA 8% 54% 76%
Date 15% 71% 92%

结论:top-10范围内,CoT路径出现概率>50%。

性能对比

与标准CoT对比

  • CoT with prompt: 78.5%
  • CoT from top-10 (无prompt): 73.2%
  • 贪心解码 (无CoT): 62.1%

分析

  • 无prompt的CoT略低于有prompt (~5%差距)
  • 但显著高于贪心解码 (+11%)
  • 证明推理能力确实是内在的

跨模型一致性

模型 Top-10 CoT发现率
GPT-4 74%
GPT-3.5 65%
PaLM-2 58%

趋势:更强模型的CoT路径更容易被发现。

深度分析

为什么贪心解码隐藏了CoT?

假设:训练数据中直接答案更常见

1
2
3
4
5
6
7
训练数据分布:
"Q: 2+3=? A: 5" (90%)
"Q: 2+3=? A: First... then... 5" (10%)

导致:
P(直接答案) > P(CoT路径)
→ 贪心解码选择直接答案

但在top-k中,CoT路径仍有一席之地。

Prompt的作用重新解读

旧解释:Prompt”教”模型推理

新解释:Prompt改变概率分布

1
2
3
4
5
# 无prompt
P(CoT token | question) = 0.15 # 低于top-1

# 有prompt "Let's think step by step"
P(CoT token | question + prompt) = 0.65 # 上升到top-1

Prompt是概率”放大器”而非知识注入。

对模型理解的启示

传统观点

1
模型 = 知识存储 + Prompting激活

本文观点

1
2
模型 = 多种能力的概率分布
Prompt/Decoding = 选择激活哪种能力

这意味着模型的能力上限可能远超我们当前的认知。

实用价值

应用场景

1. Prompt-free推理

适用于不便使用prompt的场景:

  • API有字符限制
  • 多语言环境(prompt翻译困难)
  • 需要统一接口
1
2
3
4
5
6
7
8
9
10
11
12
# 替代传统CoT
def reason_without_prompt(model, question):
# 探索top-10,选择带推理的路径
paths = generate_topk_paths(model, question, k=10)
cot_paths = [p for p in paths if is_cot_pattern(p)]

if cot_paths:
# 选置信度最高的CoT路径
return max(cot_paths, key=lambda p: model.score(p))
else:
# 回退到贪心
return paths[0]

2. 推理能力评估

1
2
3
4
5
6
7
8
9
10
11
# 评估模型的内在推理能力
def intrinsic_reasoning_score(model, dataset):
cot_discovery_rate = 0
for question in dataset:
topk = model.generate_topk(question, k=10)
if any(is_cot_pattern(p) for p in topk):
cot_discovery_rate += 1

return cot_discovery_rate / len(dataset)

# 可用于选择预训练checkpoint

3. 混合解码策略

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 自适应选择是否触发CoT
def adaptive_decode(model, question):
# 先用贪心
greedy_answer = model.generate(question, do_sample=False)
greedy_conf = model.score(greedy_answer)

# 如果置信度低,尝试CoT
if greedy_conf < 0.7:
cot_paths = find_cot_in_topk(model, question, k=10)
if cot_paths:
return max(cot_paths, key=model.score)

return greedy_answer

# 效果:简单问题快速回答,复杂问题自动推理

局限性

  1. 计算成本高:top-k探索需要k次生成
  2. CoT识别不完美:启发式规则可能误判
  3. 质量不如prompt CoT:仍有5%性能差距

总结

本文通过简单但深刻的实验揭示:

核心发现

  • CoT推理能力是预训练模型的内在属性
  • 贪心解码隐藏了这种能力
  • Top-k探索可以无prompt触发推理

理论意义

  • 重新定义了prompt的作用(放大器 vs 注入器)
  • 提示模型能力可能被严重低估
  • 解码策略与prompt同等重要

实践价值

  • 提供了prompt-free推理的可能性
  • 启发新的解码算法设计
  • 可用于评估模型的内在推理能力

未来方向

  • 设计专门的解码算法优化CoT发现
  • 研究如何在训练时增强内在推理能力
  • 探索其他被解码策略”隐藏”的能力

资源链接

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero