聚焦思维链 (F-CoT): 先整理再推理,token 减少 2-3 倍
ArXiv ID: 2511.22176
作者: Lukas Struppek, Dominik Hintersdorf, Hannah Struppek, Daniel Neider, Kristian Kersting
机构: TU Darmstadt, Fraunhofer IAIS
发布日期: 2025-11-27
内容级别: Quick
摘要
标准思维链(CoT)让模型在推理过程中同时处理信息理解和逻辑推导,导致冗余 token 生成。受认知心理学中注意聚焦理论启发,本文提出 F-CoT(Focused Chain-of-Thought),一种免训练的输入导向方法。F-CoT 在推理前先将查询中的关键信息组织为简洁的结构化上下文,将信息提取与推理过程分离。在算术问题上实现2-3 倍 token 生成量减少,同时保持与标准 CoT 相当的性能。
问题背景
CoT 的低效问题
1 | 标准 CoT 的问题: |
认知心理学启示
注意聚焦理论(Attentional Focus Theory):
1 | 人类解决问题的两阶段过程: |
F-CoT 方法
整体流程
1 | ┌─────────────────────────────────────────────────────────┐ |
阶段 1:信息提取与结构化
Prompt 模板:
1 | 请分析以下问题,提取关键信息并组织为结构化格式。 |
示例输出:
1 | 【已知条件】 |
阶段 2:聚焦推理
Prompt 模板:
1 | 基于以下结构化信息进行推理: |
示例输出:
1 | 步骤 1: 计算剩余数量 |
完整 F-CoT 实现
1 | def focused_cot_inference(llm, problem): |
实验结果
实验设置
数据集:
- GSM8K:小学数学题
- SVAMP:变量置换算术问题
- MultiArith:多步算术题
- AddSub:加减法应用题
基线方法:
- Standard CoT
- Zero-shot CoT
- Auto-CoT
- Complex CoT
评估指标:
- 准确率(Accuracy)
- 生成 token 数(Generated Tokens)
- 压缩率(Compression Ratio)
主要结果
GSM8K 数学推理
| 方法 | 准确率 | 平均 Token | 相对 CoT |
|---|---|---|---|
| Standard CoT | 78.5% | 215 | 1.0x |
| Zero-shot CoT | 75.2% | 180 | 0.84x |
| Auto-CoT | 79.1% | 195 | 0.91x |
| F-CoT | 78.2% | 85 | 0.40x |
关键发现:F-CoT 在保持准确率的同时,token 使用量减少 2.5 倍
SVAMP 算术问题
| 方法 | 准确率 | 平均 Token | 相对 CoT |
|---|---|---|---|
| Standard CoT | 82.3% | 185 | 1.0x |
| Complex CoT | 83.1% | 220 | 1.19x |
| F-CoT | 82.5% | 75 | 0.41x |
AddSub 加减法问题
| 方法 | 准确率 | 平均 Token | 相对 CoT |
|---|---|---|---|
| Standard CoT | 88.5% | 145 | 1.0x |
| F-CoT | 88.2% | 62 | 0.43x |
Token 效率分析
1 | 各方法 Token 使用对比(GSM8K): |
分题型效果
| 题型 | 样本数 | CoT Token | F-CoT Token | 压缩比 |
|---|---|---|---|---|
| 单步运算 | 150 | 120 | 55 | 2.2x |
| 两步运算 | 280 | 185 | 75 | 2.5x |
| 多步运算 | 320 | 265 | 95 | 2.8x |
| 含干扰信息 | 130 | 290 | 80 | 3.6x |
关键发现:问题越复杂、干扰信息越多,F-CoT 优势越明显
噪声鲁棒性
含干扰信息的问题:
1 | 原始问题(含噪声): |
结果对比:
| 方法 | 标准问题 | 含噪声问题 | 性能下降 |
|---|---|---|---|
| Standard CoT | 78.5% | 71.2% | -7.3% |
| F-CoT | 78.2% | 77.5% | -0.7% |
结论:F-CoT 对噪声信息具有天然鲁棒性
消融实验
结构化格式影响
| 格式 | 准确率 | Token 数 |
|---|---|---|
| 无结构化(直接推理) | 78.5% | 215 |
| 自由格式提取 | 77.8% | 95 |
| 列表格式 | 78.2% | 85 |
| 键值对格式 | 78.0% | 82 |
| 表格格式 | 77.5% | 90 |
推荐:列表格式在准确性和效率之间最佳平衡
两阶段必要性
| 配置 | 准确率 | Token 数 |
|---|---|---|
| 单阶段(仅推理) | 75.2% | 180 |
| 两阶段(F-CoT) | 78.2% | 85 |
| 三阶段(额外验证) | 78.5% | 120 |
结论:两阶段设计是最佳平衡点
实践指南
API 调用示例
1 | from openai import OpenAI |
最佳实践
| 场景 | 建议 |
|---|---|
| 简单算术 | 单阶段 Zero-shot 即可 |
| 多步推理 | 使用 F-CoT 两阶段 |
| 含干扰信息 | 必须使用 F-CoT |
| 极高准确率要求 | F-CoT + Self-Consistency |
成本节约估算
1 | 假设场景:每日处理 10,000 个数学问题 |
与其他 CoT 变体对比
| 方法 | 核心思想 | Token 效率 | 准确率 | 适用场景 |
|---|---|---|---|---|
| Standard CoT | 逐步推理 | 1.0x | 基准 | 通用 |
| Zero-shot CoT | 无示例推理 | 0.84x | -3% | 简单任务 |
| Auto-CoT | 自动生成示例 | 0.91x | +1% | 中等任务 |
| Complex CoT | 复杂推理 | 1.19x | +2% | 困难任务 |
| F-CoT | 结构化输入 | 0.40x | ±0% | 信息密集 |
| F-CoT + SC | F-CoT + 自洽性 | 1.2x | +4% | 高准确要求 |
总结
F-CoT 通过”先整理再推理”的两阶段设计,实现了高效的思维链推理:
核心贡献:
- 受认知心理学启发的信息 - 推理分离设计
- 2-3 倍 token 效率提升
- 对噪声信息的天然鲁棒性
- 免训练、即插即用
实际价值:
- API 调用成本降低 60%
- 响应延迟降低
- 适合信息密集型任务
资源
评分: 4.0/5.0 ⭐⭐⭐⭐
推荐度: 推荐。成本敏感场景的实用选择,特别适合信息密集推理任务。