少即是多:最小测试时干预(MTI)精准提升LLM推理 -- 免训练+9%

Posted on 一月 11, 2026

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

ArXiv ID: 2510.13940
作者: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Ying-Cong Chen
发布日期: 2025-10-15 (修订: 2026-01-11)
内容级别: Deep Dive

摘要

本文揭示了LLM推理中一个被忽视但关键的现象:推理不确定性高度局部化。仅一小部分高熵token对输出正确性产生决定性影响。基于这一发现,提出最小测试时干预(Minimal Test-Time Intervention, MTI),一个完全免训练的框架。MTI仅在不确定位置应用分类器无关引导(CFG),通过轻量级负向提示引导复用主模型KV缓存,避免了传统CFG的双倍内存开销。

在DeepSeek-R1-7B上6个基准平均提升+9.28%,AIME2024上Ling-mini-2.0提升+11.25%。方法即插即用,无需任何模型修改或额外训练。

主要贡献

发现推理不确定性高度局部化:少量高熵token主导输出正确性
提出MTI:仅在高熵位置选择性应用CFG引导,训练免费且即插即用
创新的KV缓存复用策略:注入”OUTPUT ERROR”负向提示避免双倍内存
在6个基准上DeepSeek-R1-7B平均+9.28%,AIME2024上+11.25%
证明选择性干预优于全局干预:全局CFG在长链推理中反而有害

核心发现:推理不确定性的局部性

论文首先通过实验揭示了一个关键现象:

错误答案的平均Token熵高于正确答案
高熵token占比很小,但贡献了不成比例的答案熵
局部不确定性通过自回归链传播,最终导致全局推理失败

这意味着:与其干预所有token(全局CFG),不如精准定位并稳定这些关键不确定位置。

方法详解

1. 高熵Token识别

通过Shannon熵实时监测每个生成token的不确定性:

import torch

def compute_token_entropy(logits):
    """计算token级别的预测熵"""
    probs = torch.softmax(logits, dim=-1)
    log_probs = torch.log(probs + 1e-10)
    entropy = -torch.sum(probs * log_probs, dim=-1)
    return entropy

def should_intervene(entropy, threshold=0.5):
    """判断是否需要干预"""
    return entropy > threshold

2. 选择性分类器无关引导

标准CFG公式:

1	log P_hat(x_t) = (1-w) * log P(x_t\|c_bar) + w * log P(x_t\|c)

其中c为正常上下文,c_bar为负向/无条件上下文,w为引导强度。

MTI的关键创新:KV缓存复用

传统CFG需要维护两套完整的KV缓存(正向+负向),内存开销翻倍。MTI的解决方案:

def mti_guidance(model, input_ids, kv_cache, entropy_threshold=0.5, guidance_scale=1.5):
    """MTI: 选择性CFG引导"""
    # 正常前向传播
    logits_pos, kv_cache = model(input_ids, past_kv=kv_cache)
    entropy = compute_token_entropy(logits_pos)

    if entropy > entropy_threshold:
        # 高熵位置: 注入"OUTPUT ERROR"到同一KV缓存
        neg_prompt = tokenize("OUTPUT ERROR")
        logits_neg = model.forward_with_injection(neg_prompt, kv_cache)

        # CFG融合
        logits_final = (1 - guidance_scale) * logits_neg + guidance_scale * logits_pos
        return logits_final
    else:
        # 低熵位置: 直接使用正常logits
        return logits_pos

3. 完整工作流程

正常自回归生成token
实时计算每个token的预测熵H_t
若H_t > tau(默认0.5),触发CFG引导
在该位置注入”OUTPUT ERROR”负向提示(复用KV缓存)
融合正向和负向logits得到校正分布
从校正分布采样token
继续正常生成直到下一个高熵位置

实验结果

主要基准性能

DeepSeek-R1-7B (tau=0.5):

基准	直接推理	MTI	提升
6基准平均	61.70%	70.98%	+9.28%
CFG使用率	-	21.8%	仅1/5 token需干预

AIME2024:

模型	直接推理	MTI	提升
DeepSeek-R1-7B	54.17%	62.92%	+8.75%
Ling-mini-2.0	60.00%	71.25%	+11.25%

与SOTA方法对比

方法	Qwen3-8B	DeepSeek-R1-7B
直接推理	70.2%	55.3%
TALE	73.1%	60.2%
CGRS	71.4%	57.5%
MTI	78.4%	67.7%

选择性 vs 全局CFG

全局CFG(对所有token应用引导)在AIME2024等长链推理任务上反而降低性能,原因是”高置信步骤的过度干预积累误差”。MTI通过选择性应用有效避免了这一问题。

Top-1 Logit重排序效果

在GPQA-Diamond上,MTI将准确率从29.29%提升至51.52%,展示了在极困难推理任务上通过logit重排序纠正推理方向的强大能力。

效率分析

配置	推理时间
直接推理	基线
MTI (tau=0.5)	5,289秒
全局CFG	12,411秒

MTI的计算开销远低于全局CFG,有时因缩短推理链(避免错误传播导致的冗余推理)而更快。

实战建议

推荐配置:

熵阈值tau=0.5作为起点(对大多数模型有效)
负向提示使用”OUTPUT ERROR”
引导强度w=1.5(可根据任务调整)
复用主模型KV缓存避免内存翻倍

最佳适用场景:

数学推理(AIME, MATH, GSM8K)
STEM问答(GPQA)
代码生成
任何需要长链推理的任务

不推荐场景:

创意生成(高熵是期望行为)
开放式对话(干预可能降低多样性)

资源链接

arXiv原文
PDF下载
GitHub代码 (作者已开源)