DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩

DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩 ArXiv ID: 2506.05345 作者: Adrian Lancucki等 机构: NVIDIA, University of Edinburgh 发布日期: 2025年6月 摘要推理时扩展(Inference-time Scaling)通过生成更长或更多的推理路径来提升LLM的推理能力,但其效率受限于KV Cache的内存瓶颈。本文提出推理时超缩放(Inference-Time Hyper-Scaling)的概念:通过压缩KV Cache,在相同计算预算内生成更多token,从而进一步提升推理精度。为此,作者提出DMS(Dynamic Memory Sparsification),一种仅需1000步训练即可实现8倍KV Cache压缩的稀疏化方法,同时精度优于无训练的稀疏注意力方案。DMS的关键设计包括...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero