Expected Attention：基于未来查询分布估计的 KV Cache 压缩

Posted on 二月 2, 2026

Expected Attention：基于未来查询分布估计的 KV Cache 压缩 ArXiv ID: 2510.00636作者: Alessio Devoto, Maximilian Jeblick, Simon Jegou机构: Sapienza University of Rome, NVIDIA发布日期: 2025 年 10 月代码库: KVPress 摘要KV Cache 压缩面临一个基本矛盾：判断 KV 对重要性需要看未来查询的注意力分布，但推理时未来查询尚未产生。Expected Attention 通过利用 LLM 激活值的分布特性，以闭式解估计每个 KV 对的期望注意力分数，实现无训练、高效的 KV Cache 压缩。该方法在 prefilling 和 decoding 阶段均可无缝运行，且在 LongBench 等基准上全面超越现有基线。问题背景KV C...

阅读全文