Expected Attention：基于未来查询分布估计的 KV Cache 压缩

Posted on 二月 2, 2026

Expected Attention：基于未来查询分布估计的 KV Cache 压缩 ArXiv ID: 2510.00636作者: Alessio Devoto, Maximilian Jeblick, Simon Jegou机构: Sapienza University of Rome, NVIDIA发布日期: 2025 年 10 月代码库: KVPress 摘要KV Cache 压缩面临一个基本矛盾：判断 KV 对重要性需要看未来查询的注意力分布，但推理时未来查询尚未产生。Expected Attention 通过利用 LLM 激活值的分布特性，以闭式解估计每个 KV 对的期望注意力分数，实现无训练、高效的 KV Cache 压缩。该方法在 prefilling 和 decoding 阶段均可无缝运行，且在 LongBench 等基准上全面超越现有基线。问题背景KV C...

阅读全文

少即是多:最小测试时干预(MTI)精准提升LLM推理 -- 免训练+9%

Posted on 一月 11, 2026

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention ArXiv ID: 2510.13940作者: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Ying-Cong Chen发布日期: 2025-10-15 (修订: 2026-01-11)内容级别: Deep Dive 摘要本文揭示了LLM推理中一个被忽视但关键的现象:推理不确定性高度局部化。仅一小部分高熵token对输出正确性产生决定性影响。基于这一发现,提出最小测试时干预(Minimal Test-Time Intervention, MTI),一个完全免训练的框架。MTI仅在不确定位置应用分类器无关引导(CFG),通过轻量级负向提示引...

阅读全文

聚焦思维链 (F-CoT): 先整理再推理，token 减少 2-3 倍

Posted on 十一月 27, 2025

聚焦思维链 (F-CoT): 先整理再推理，token 减少 2-3 倍 ArXiv ID: 2511.22176作者: Lukas Struppek, Dominik Hintersdorf, Hannah Struppek, Daniel Neider, Kristian Kersting机构: TU Darmstadt, Fraunhofer IAIS发布日期: 2025-11-27内容级别: Quick 摘要标准思维链（CoT）让模型在推理过程中同时处理信息理解和逻辑推导，导致冗余 token 生成。受认知心理学中注意聚焦理论启发，本文提出 F-CoT（Focused Chain-of-Thought），一种免训练的输入导向方法。F-CoT 在推理前先将查询中的关键信息组织为简洁的结构化上下文，将信息提取与推理过程分离。在算术问题上实现2-3 倍 token 生成量减少，...

阅读全文