DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩
ArXiv ID: 2506.05345
作者: Adrian Lancucki等
机构: NVIDIA, University of Edinburgh
发布日期: 2025年6月
摘要
推理时扩展(Inference-time Scaling)通过生成更长或更多的推理路径来提升LLM的推理能力,但其效率受限于KV Cache的内存瓶颈。本文提出推理时超缩放(Inference-Time Hyper-Scaling)的概念:通过压缩KV Cache,在相同计算预算内生成更多token,从而进一步提升推理精度。为此,作者提出DMS(Dynamic Memory Sparsification),一种仅需1000步训练即可实现8倍KV Cache压缩的稀疏化方法,同时精度优于无训练的稀疏注意力方案。DMS的关键设计包括延迟淘汰策略和可学习的逐头逐层淘汰策略。在Qwen-R1 32B上,DMS在AIME 24提升12.0分、GPQA提升8.6分、LiveCodeBench提升9.7分。
核心概念:推理时超缩放
传统推理时扩展的瓶颈
1 | 传统 Inference-Time Scaling: |
核心洞察:推理时计算的瓶颈不是FLOPs而是KV Cache内存。如果能压缩KV Cache,就能在相同硬件上”免费”获得更多推理计算预算。
DMS方法
1. 延迟淘汰
与传统方法(H2O、TOVA等)立即淘汰不重要token不同,DMS将token标记为”即将淘汰”后,仍保留一个滑动窗口期,让模型有机会吸收其信息:
1 | def delayed_eviction(kv_cache, eviction_decisions, delay_window=64): |
延迟淘汰的优势:
- 模型在淘汰前有时间将关键信息编码到后续token中
- 类似于”隐式合并”——信息不是丢弃而是被转移
- 显著减少信息损失,尤其在高压缩率下
2. 可学习的淘汰策略
DMS为每个注意力头、每一层学习独立的淘汰策略:
1 | def learnable_eviction_policy(Q, K, head_idx, layer_idx): |
3. 极低训练成本
DMS仅需约1000步微调即可retrofit到现有模型:
1 | training_config: |
实验结果
推理精度提升(Qwen-R1 32B,等计算预算)
| 基准 | 原模型 | DMS (8x压缩) | 提升 |
|---|---|---|---|
| AIME 24 | 基线 | +12.0 | 显著 |
| GPQA | 基线 | +8.6 | 显著 |
| LiveCodeBench | 基线 | +9.7 | 显著 |
解读:DMS允许模型在相同内存下生成更多推理token,而更多的推理token直接转化为更高的推理精度。
与其他压缩方法对比
| 方法 | 训练需求 | 压缩率 | 精度保持 |
|---|---|---|---|
| DMS | 1K步 | 8x | 优秀 |
| TOVA | 无训练 | 4x | 中等 |
| H2O | 无训练 | 4x | 中等 |
| DMC | 100K步 | 8x | 良好 |
DMS在训练效率和压缩效果之间取得了最佳平衡。
与生态系统的关系
DMS与推理时扩展(Test-Time Scaling)方法高度互补:
1 | Chain-of-Thought / Self-Consistency |
部署建议
最佳场景:
- 推理型模型(如R1、o1类模型)的serving优化
- 需要长推理链的数学和代码任务
- GPU显存受限但需要强推理能力的部署
实施步骤:
- 使用预训练好的推理模型
- 运行1000步DMS retrofit训练(约30分钟)
- 部署时启用8x KV Cache压缩
- 将节省的内存分配给更长的推理序列
个人评价
DMS提出的”推理时超缩放”概念非常有洞察力——它将KV Cache压缩从”节省内存”的工具升级为”提升推理精度”的手段。1000步训练成本的极低门槛使其具备极强的实用性。来自NVIDIA的背景也意味着后续可能有更好的框架集成支持。在推理型模型日益流行的当下,DMS解决的正是最紧迫的瓶颈之一。
评分: 4.40/5.0