GVote：自适应KV Cache压缩——告别手动预算设定

Posted on 二月 2, 2026

GVote：自适应KV Cache压缩——告别手动预算设定 ArXiv ID: 2509.03136 会议: ICLR 2026 发布日期: 2025年9月摘要KV Cache压缩是长上下文LLM推理中的关键技术，但现有方法普遍依赖手动设定固定的压缩预算（如保留50%的KV对）。这种”普罗克鲁斯忒斯之床”式的做法迫使所有workload适应同一个压缩比，导致简单请求浪费内存、复杂请求精度损失。本文提出GVote，一种自适应KV Cache压缩方案，通过蒙特卡洛采样和投票机制自动计算最优缓存预算，无需人工设定。GVote基于隐状态服从高斯分布的观察，通过采样合成查询并投票决定保留哪些键值对，在多个基准测试中以更少的内存实现了更高或持平的精度。核心问题固定预算的局限123456789固定预算 = 50%:├─ 简单查询（"总结一句话"）: 只需10% KV → ...

阅读全文

Saguaro：投机性投机解码——消除推测开销的异步加速方案

Posted on 二月 2, 2026

Saguaro：投机性投机解码——消除推测开销的异步加速方案 ArXiv ID: 2510.13161 会议: ICLR 2026 发布日期: 2025年10月摘要投机解码（Speculative Decoding）已成为加速LLM推理的标准方法：用小型draft模型快速生成候选token序列，再由大模型并行验证。然而，传统投机解码中”推测→验证”的过程本身是串行的——draft模型必须等待上一轮验证完成后，才能基于验证结果生成下一轮推测。本文提出投机性投机解码（Speculative Speculative Decoding, SSD），核心思想是：在验证进行的同时，让draft模型预测可能的验证结果，并为每种可能结果预先准备推测序列。当验证完成时，如果实际结果命中预测缓存（cache hit），则可以立即返回推测结果，完全消除推测延迟。由此提出的Saguaro算法，在开源推理...

阅读全文