展示你的工作:使用语言模型草稿本进行中间计算

论文概述

这项来自Google Research的开创性工作引入了”草稿本”(scratchpad)技术,通过训练transformer输出中间计算步骤,极大地提高了它们执行复杂多步骤计算的能力。通过要求语言模型”逐步”展示其工作过程,该方法使LM能够解决从长加法到执行任意程序等以前难以处理的任务。

论文信息:

  • 发布时间:2021-11-30
  • 作者:Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari等
  • 机构:Google Research
  • 研究方向:提示工程、LLM推理
  • 核心技术:思维链(Chain-of-Thought)

研究背景

语言模型在单步预测任务上表现出色,但在需要多步计算的复杂任务上遇到困难。本研究针对以下问题展开:

现有问题

  • 语言模型难以执行需要多步骤的复杂计算
  • 模型的中间推理过程不可见,难以调试和理解
  • 长序列计算容易出错且难以追踪

研究动机

本研究旨在通过让模型显式输出中间计算步骤来提升其在复杂计算任务上的表现,特别关注草稿本(scratchpad)、中间计算(intermediate-computation)、多步骤推理(multi-step-reasoning)等关键技术。

核心方法

方法概述

研究人员训练transformer语言模型将中间计算步骤输出到”草稿本”中 - 一个模型可以展示其工作过程的工作空间。这种方法将需要无限多步计算的任务转变为一系列模型可以遵循和验证的显式、可追踪的步骤。

核心思想是:不是直接从输入跳到最终答案,而是让模型生成解决问题所需的所有中间步骤。例如,在长加法中,模型会输出每一位的加法和进位,而不是直接给出最终结果。

本方法的核心在于通过显式化中间计算过程,将复杂任务分解为模型可以可靠执行的简单步骤序列。

关键创新点

创新 1:引入了草稿本技术,作为思维链提示的前身

创新 2:证明了当展示中间步骤时,LM可以执行复杂的多步骤计算

创新 3:在从长加法到任意程序执行的任务上实现了显著改进

创新 4:展示了相同的模型架构通过使用草稿本可以处理复杂得多的计算

创新 5:为未来的”逐步”推理方法奠定了基础

技术特点

  • 可解释性强:中间步骤可见,便于理解和调试
  • 任务泛化:适用于各种需要多步计算的任务
  • 训练高效:通过提供中间步骤的监督信号加速学习
  • 错误可追踪:可以定位在哪一步出现了错误
  • 能力扩展:使模型能够解决以前无法处理的复杂任务

实验结果

Benchmark 性能

在一系列复杂度递增的任务上进行评估,包括长加法、多项式求值和任意程序执行。草稿本使模型能够处理比没有草稿本的模型显著更长、更复杂的输入。该方法在所有评估的计算任务上都展示了一致的改进。

具体表现:

  • 长加法:能够正确执行10位以上数字的加法,而无草稿本的模型只能处理3-4位
  • 多项式求值:在复杂多项式上的准确率提升50%以上
  • 程序执行:能够跟踪变量状态并执行多行代码

性能分析

实验结果表明,草稿本方法在需要多步骤推理的任务上取得了显著的性能提升,特别是在计算密集型任务上表现突出。

关键发现

  • 步骤数量影响:任务需要的步骤越多,草稿本的优势越明显
  • 中间监督重要:提供中间步骤的训练信号对学习至关重要
  • 泛化能力强:在训练长度之外的输入上也能保持较好性能
  • 误差积累可控:通过显式步骤,误差积累比隐式计算更可控

实际应用

适用场景

  • 数学计算:解决需要多步骤的数学问题
  • 程序执行:模拟代码执行过程
  • 逻辑推理:处理需要多步推理的逻辑问题
  • 数据转换:执行复杂的数据格式转换

实现建议

在实际项目中应用草稿本技术时,建议:

  1. 设计中间步骤格式:定义清晰的中间步骤表示方式
  2. 准备训练数据:收集包含完整中间步骤的训练样本
  3. 控制步骤粒度:根据任务复杂度选择合适的步骤粒度
  4. 验证中间结果:在推理时可以验证每个中间步骤的正确性

代码示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 草稿本格式示例:长加法
prompt = """
计算:1234 + 5678

草稿本:
1234
+ 5678
------
步骤1:4 + 8 = 12,写下2,进位1
步骤2:3 + 7 + 1(进位) = 11,写下1,进位1
步骤3:2 + 6 + 1(进位) = 9,写下9
步骤4:1 + 5 = 6,写下6

答案:6912
"""

相关资源

  • arXiv 论文arXiv:2112.00114
  • 相关论文:Chain-of-Thought Prompting, Self-Consistency, Tree of Thoughts
© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero