思维链提示激发大型语言模型的推理能力

Posted on 一月 28, 2022

论文概述

思维链 (Chain-of-Thought, CoT) 提示是一项突破性技术，通过生成中间推理步骤显著提高大型语言模型的推理能力。本论文展示了如何通过简单的少样本提示配合推理链，在算术、常识和符号推理任务上实现突破性性能，而无需任何模型微调。CoT已成为现代大型语言模型应用中的基础技术之一。

论文信息：

发布时间：2022-01-28
作者：Jason Wei, Xuezhi Wang, Dale Schuurmans等
机构：Google Research, Google Brain
研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术：思维链 (Chain-of-Thought)

研究背景

大型语言模型在各类任务中展现出强大的能力，但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开：

现有问题

传统提示方法在复杂推理任务上表现不佳
模型直接给出答案，难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法

研究动机

本研究旨在探索更有效的提示工程技术，提升大型语言模型在推理任务上的表现，特别关注思维链 (chain-of-thought)、推理 (reasoning)、少样本学习 (few-shot-learning) 等关键技术。

核心方法

方法概述

思维链提示涉及提供少样本示例，这些示例不仅包括问题和答案，还包括推理过程。该方法将复杂问题分解为一系列用自然语言表达的简单推理步骤，类似于人类思考过程。只需要大约8个示例来引导模型学习这种推理模式，这种能力在足够大的模型中自然涌现（通常>1000亿参数）。

本方法的核心在于通过结构化的提示设计，引导大型语言模型展现出更强的推理能力，无需额外的模型训练或微调。

关键创新点

创新 1：提出思维链提示，引导模型生成中间推理步骤

创新 2：在GSM8K上使用PaLM 540B达到最先进水平，甚至超过经过微调的GPT-3配合验证器

创新 3：证明推理能力随模型规模涌现（>1000亿参数）

创新 4：展示了在算术、常识和符号推理任务上的广泛适用性

创新 5：提供零成本实现，无需微调，仅需提示格式变化

技术特点

系统化设计：提供完整的方法论框架，可复现性强
广泛适用性：适用于多种推理任务（算术、常识、符号推理等）
零成本实现：无需模型微调，仅需调整提示格式
显著性能提升：在多个基准测试上取得突破性结果
可组合性：可与其他提示工程技术组合使用

实验结果

Benchmark 性能

对三类推理任务进行了广泛评估：(1) 算术推理 - GSM8K（使用PaLM 540B达到56.9%）、SVAMP（79.0%）、MAWPS（92.5%）；(2) 常识推理 - CommonsenseQA（77.0%）、StrategyQA（66.1%）；(3) 符号推理 - Last Letter Concatenation（从0%提升到76.0%）、Coin Flip（99.6%）。关键发现：模型规模至关重要，小于1000亿参数的模型有时使用CoT表现更差。

性能分析

实验结果表明，该方法在多个主流基准测试上都取得了显著的性能提升，特别是在需要复杂推理的任务上表现突出。

关键发现

性能提升显著：在多个基准测试中取得了SOTA（最先进）或接近SOTA的结果
规模效应明显：模型参数规模对方法效果有重要影响，通常需要>1000亿参数才能充分发挥效果
推理质量关键：生成的推理步骤质量直接影响最终结果的准确性
任务泛化性强：同一方法可以应用于不同类型的推理任务

实际应用

适用场景

数学推理：解决复杂的数学问题，包括应用题和逻辑题
常识推理：回答需要常识知识的问题
符号推理：处理逻辑符号和规则推理任务
编程问题：代码生成和算法设计

实现建议

在实际项目中应用思维链时，建议：

选择合适的示例：准备高质量的少样本示例，展示完整的推理过程
控制步骤粒度：根据问题复杂度调整推理步骤的详细程度
迭代优化：根据输出质量不断调整提示格式和示例
结合其他技术：可与自洽性 (Self-Consistency) 等技术组合使用以提高稳定性

代码示例

# 思维链提示模板
prompt_template = '''
问题：罗杰有5个网球。他又买了2罐网球。每罐有3个网球。他现在有多少个网球？

让我们逐步思考：
1. 罗杰开始有5个网球
2. 2罐网球，每罐3个，所以是2 × 3 = 6个网球
3. 总共是5 + 6 = 11个网球

答案：11

问题：{question}

让我们逐步思考：
'''