少即是多:最小测试时干预(MTI)精准提升LLM推理 -- 免训练+9%

Posted on 一月 11, 2026

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention ArXiv ID: 2510.13940作者: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Ying-Cong Chen发布日期: 2025-10-15 (修订: 2026-01-11)内容级别: Deep Dive 摘要本文揭示了LLM推理中一个被忽视但关键的现象:推理不确定性高度局部化。仅一小部分高熵token对输出正确性产生决定性影响。基于这一发现,提出最小测试时干预(Minimal Test-Time Intervention, MTI),一个完全免训练的框架。MTI仅在不确定位置应用分类器无关引导(CFG),通过轻量级负向提示引...

阅读全文

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning

Posted on 五月 22, 2025

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning ArXiv ID: 2505.16782作者: Xinghao Chen, Anhao Zhao, Heming Xia, Xuan Lu, Hanlin Wang, Yanjun Chen, Wei Zhang, Jian Wang, Wenjie Li, Xiaoyu Shen发布日期: 2025-05-22分类: prompt-engineering 摘要传统的链式思维（CoT）推理依赖于显式的语言生成 – 模型必须将每个推理步骤以文本形式输出。本文综述了一个新兴且快速增长的研究方向：潜在 CoT 推理（Latent CoT Reasoning），其中推理过程嵌入在潜在空间中而非通过显式语言表达。通过将推...

阅读全文

Infinite Retrieval: 基于注意力增强的无限长上下文处理

Posted on 二月 18, 2025

论文概述Infinite Retrieval(InfiniRetri)是一项突破性的研究成果，解决了大语言模型在处理超长上下文输入时面临的核心挑战。该方法的创新之处在于利用模型自身的注意力信息来实现对无限长输入的精确检索，而无需任何额外训练。研究团队发现模型的注意力分布与生成答案之间存在强相关性，基于这一洞察设计了InfiniRetri方法。在Needle-In-a-Haystack测试中，该方法处理超过100万token时达到100%准确率，在真实场景中带来高达288%的性能提升。论文信息：发布时间：2025-02-18 作者：Xiaoju Ye, Zhichun Wang, Jingyuan Wang 研究方向：上下文工程 (Context Engineering), 长上下文处理 (Long-Context Processing) 核心技术：注意力增强 (Attentio...

阅读全文

基于潜在推理的测试时计算扩展：循环深度方法

Posted on 二月 7, 2025

论文概述这项研究提出了一种全新的语言模型架构，通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同，该模型采用了循环块迭代的创新设计，能够在测试时展开至任意深度，从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数，在计算效率上达到相当于500亿参数传统模型的水平，且无需专门训练数据，可在小上下文窗口下工作。论文信息：发布时间：2025-02-07 作者：Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein 研究方向：提示工程 (Prompt Engineerin...

阅读全文

QServe：用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计

Posted on 五月 7, 2024

QServe：用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计 ArXiv ID: 2405.04532作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han机构: MIT Han Lab, NVIDIA, MIT-IBM Watson AI Lab发布日期: 2024-05-07 摘要量化可以加速大语言模型推理。在 INT8 量化之外，研究社区正在积极探索更低精度如 INT4。然而，现有 INT4 量化技术仅能加速低批量、边缘 LLM 推理，无法在大批量、基于云的 LLM 服务中提供性能提升。本文发现了一个关键问题：现有的 INT4 量化方法在 GPU 上对权重或部分和进行反量化时存在显著的运行时开销（20-90%）。为了解决这一挑战，本文...

阅读全文

思维骨架：提示大型语言模型进行高效并行生成

Posted on 七月 28, 2023

论文概述思维骨架（Skeleton-of-Thought, SoT）是清华大学和微软研究院提出的一种创新推理优化技术，通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架（大纲），然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估，SoT 实现了高达 2.39 倍的加速，同时保持或提高答案质量。该论文发表于 ICLR 2024，SoT 展示了一种以数据为中心的推理效率方法，将大型语言模型视为黑盒，并适用于任何现成的模型，包括基于 API 的服务。论文信息：发布时间：2023-07-28 作者：Xuefei Ning, Zinan Lin, Zixuan Zhou等机构：清华大学...

阅读全文