DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩

DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩 ArXiv ID: 2506.05345 作者: Adrian Lancucki等 机构: NVIDIA, University of Edinburgh 发布日期: 2025年6月 摘要推理时扩展(Inference-time Scaling)通过生成更长或更多的推理路径来提升LLM的推理能力,但其效率受限于KV Cache的内存瓶颈。本文提出推理时超缩放(Inference-Time Hyper-Scaling)的概念:通过压缩KV Cache,在相同计算预算内生成更多token,从而进一步提升推理精度。为此,作者提出DMS(Dynamic Memory Sparsification),一种仅需1000步训练即可实现8倍KV Cache压缩的稀疏化方法,同时精度优于无训练的稀疏注意力方案。DMS的关键设计包括...

阅读全文

GVote:自适应KV Cache压缩——告别手动预算设定

GVote:自适应KV Cache压缩——告别手动预算设定 ArXiv ID: 2509.03136 会议: ICLR 2026 发布日期: 2025年9月 摘要KV Cache压缩是长上下文LLM推理中的关键技术,但现有方法普遍依赖手动设定固定的压缩预算(如保留50%的KV对)。这种”普罗克鲁斯忒斯之床”式的做法迫使所有workload适应同一个压缩比,导致简单请求浪费内存、复杂请求精度损失。本文提出GVote,一种自适应KV Cache压缩方案,通过蒙特卡洛采样和投票机制自动计算最优缓存预算,无需人工设定。GVote基于隐状态服从高斯分布的观察,通过采样合成查询并投票决定保留哪些键值对,在多个基准测试中以更少的内存实现了更高或持平的精度。 核心问题固定预算的局限123456789固定预算 = 50%:├─ 简单查询("总结一句话"): 只需10% KV → ...

阅读全文

Expected Attention:基于未来查询分布估计的 KV Cache 压缩

Expected Attention:基于未来查询分布估计的 KV Cache 压缩 ArXiv ID: 2510.00636作者: Alessio Devoto, Maximilian Jeblick, Simon Jegou机构: Sapienza University of Rome, NVIDIA发布日期: 2025 年 10 月代码库: KVPress 摘要KV Cache 压缩面临一个基本矛盾:判断 KV 对重要性需要看未来查询的注意力分布,但推理时未来查询尚未产生。Expected Attention 通过利用 LLM 激活值的分布特性,以闭式解估计每个 KV 对的期望注意力分数,实现无训练、高效的 KV Cache 压缩。该方法在 prefilling 和 decoding 阶段均可无缝运行,且在 LongBench 等基准上全面超越现有基线。 问题背景KV C...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero