CoT Reasoning Without Prompting: 解码即推理

Posted on 二月 15, 2024

论文信息

标题: Chain-of-Thought Reasoning Without Prompting
作者: Xuezhi Wang, Denny Zhou
机构: Google DeepMind
发表: arXiv preprint
链接: arXiv | PDF

核心贡献

本文揭示CoT推理路径其实隐含在预训练模型中,无需特殊prompt即可通过改变解码策略触发。通过分析top-k候选token,发现CoT路径频繁出现在高概率分支中。这一发现挑战了”prompting是必需的”的传统观念,为理解模型的内在推理能力提供新视角。

核心洞察

传统观点的挑战

传统认知：
CoT推理需要特殊的prompt触发:

1 2	"Let's think step by step" → 模型生成推理无此prompt → 模型直接给答案

本文发现：
CoT路径其实一直存在,只是被贪心解码”掩盖”了:

1 2	贪心解码: 选最高概率token → 直接答案路径 top-k探索: 检查前k个token → 发现CoT路径

含义：

预训练已经赋予模型推理能力
Prompting只是”激活”而非”注入”这种能力
解码策略比prompt更本质

方法详解

方法设计

Alternative Token分析

核心算法：

def find_cot_in_topk(model, question, k=10):
    """
    在top-k候选中寻找CoT路径
    """
    # 第一步：获取top-k候选
    logits = model(question)
    top_k_tokens = torch.topk(logits, k).indices
    
    # 第二步：对每个候选继续生成
    paths = []
    for token in top_k_tokens:
        # 从该token开始继续生成
        path = model.generate(
            question + [token],
            max_length=100
        )
        paths.append(path)
    
    # 第三步：识别哪些是CoT路径
    cot_paths = []
    for path in paths:
        if is_cot_pattern(path):  # 检测推理步骤模式
            cot_paths.append(path)
    
    return cot_paths

def is_cot_pattern(text):
    """
    启发式检测CoT模式
    """
    indicators = [
        "first", "then", "so", "therefore",
        "step 1", "step 2",
        "because", "since"
    ]
    return any(ind in text.lower() for ind in indicators)

置信度关联

关键发现：
CoT路径的出现与模型置信度相关:

# 分析置信度
for path in paths:
    confidence = model.score(path)
    has_cot = is_cot_pattern(path)
    
    print(f"Confidence: {confidence}, Has CoT: {has_cot}")

# 结果模式：
# Confidence: 0.92, Has CoT: True   ← 高置信度→有CoT
# Confidence: 0.85, Has CoT: True
# Confidence: 0.45, Has CoT: False  ← 低置信度→无CoT

结论：模型”知道”何时需要推理。

实验结果

CoT路径的发现率

任务	Top-1有CoT	Top-10有CoT	Top-50有CoT
GSM8K	12%	68%	89%
StrategyQA	8%	54%	76%
Date	15%	71%	92%

结论：top-10范围内,CoT路径出现概率>50%。

性能对比

与标准CoT对比：

CoT with prompt: 78.5%
CoT from top-10 (无prompt): 73.2%
贪心解码 (无CoT): 62.1%

分析：

无prompt的CoT略低于有prompt (~5%差距)
但显著高于贪心解码 (+11%)
证明推理能力确实是内在的

跨模型一致性

模型	Top-10 CoT发现率
GPT-4	74%
GPT-3.5	65%
PaLM-2	58%

趋势：更强模型的CoT路径更容易被发现。

深度分析

为什么贪心解码隐藏了CoT？

假设：训练数据中直接答案更常见

训练数据分布：
"Q: 2+3=? A: 5"  (90%)
"Q: 2+3=? A: First... then... 5" (10%)

导致：
P(直接答案) > P(CoT路径)
→ 贪心解码选择直接答案

但在top-k中,CoT路径仍有一席之地。

Prompt的作用重新解读

旧解释：Prompt”教”模型推理

新解释：Prompt改变概率分布

# 无prompt
P(CoT token | question) = 0.15  # 低于top-1

# 有prompt "Let's think step by step"
P(CoT token | question + prompt) = 0.65  # 上升到top-1

Prompt是概率”放大器”而非知识注入。

对模型理解的启示

传统观点：

1	模型 = 知识存储 + Prompting激活

本文观点：

1 2	模型 = 多种能力的概率分布 Prompt/Decoding = 选择激活哪种能力

这意味着模型的能力上限可能远超我们当前的认知。

实用价值

应用场景

1. Prompt-free推理

适用于不便使用prompt的场景:

API有字符限制
多语言环境(prompt翻译困难)
需要统一接口

# 替代传统CoT
def reason_without_prompt(model, question):
    # 探索top-10,选择带推理的路径
    paths = generate_topk_paths(model, question, k=10)
    cot_paths = [p for p in paths if is_cot_pattern(p)]
    
    if cot_paths:
        # 选置信度最高的CoT路径
        return max(cot_paths, key=lambda p: model.score(p))
    else:
        # 回退到贪心
        return paths[0]

2. 推理能力评估

# 评估模型的内在推理能力
def intrinsic_reasoning_score(model, dataset):
    cot_discovery_rate = 0
    for question in dataset:
        topk = model.generate_topk(question, k=10)
        if any(is_cot_pattern(p) for p in topk):
            cot_discovery_rate += 1
    
    return cot_discovery_rate / len(dataset)

# 可用于选择预训练checkpoint

3. 混合解码策略

# 自适应选择是否触发CoT
def adaptive_decode(model, question):
    # 先用贪心
    greedy_answer = model.generate(question, do_sample=False)
    greedy_conf = model.score(greedy_answer)
    
    # 如果置信度低,尝试CoT
    if greedy_conf < 0.7:
        cot_paths = find_cot_in_topk(model, question, k=10)
        if cot_paths:
            return max(cot_paths, key=model.score)
    
    return greedy_answer

# 效果：简单问题快速回答,复杂问题自动推理

局限性

计算成本高：top-k探索需要k次生成
CoT识别不完美：启发式规则可能误判
质量不如prompt CoT：仍有5%性能差距

总结

本文通过简单但深刻的实验揭示：

核心发现：

CoT推理能力是预训练模型的内在属性
贪心解码隐藏了这种能力
Top-k探索可以无prompt触发推理

理论意义：

重新定义了prompt的作用(放大器 vs 注入器)
提示模型能力可能被严重低估
解码策略与prompt同等重要

实践价值：

提供了prompt-free推理的可能性
启发新的解码算法设计
可用于评估模型的内在推理能力

未来方向：

设计专门的解码算法优化CoT发现
研究如何在训练时增强内在推理能力
探索其他被解码策略”隐藏”的能力