GVote:自适应KV Cache压缩——告别手动预算设定
ArXiv ID: 2509.03136
会议: ICLR 2026
发布日期: 2025年9月
摘要KV Cache压缩是长上下文LLM推理中的关键技术,但现有方法普遍依赖手动设定固定的压缩预算(如保留50%的KV对)。这种”普罗克鲁斯忒斯之床”式的做法迫使所有workload适应同一个压缩比,导致简单请求浪费内存、复杂请求精度损失。本文提出GVote,一种自适应KV Cache压缩方案,通过蒙特卡洛采样和投票机制自动计算最优缓存预算,无需人工设定。GVote基于隐状态服从高斯分布的观察,通过采样合成查询并投票决定保留哪些键值对,在多个基准测试中以更少的内存实现了更高或持平的精度。
核心问题固定预算的局限123456789固定预算 = 50%:├─ 简单查询("总结一句话"): 只需10% KV → ...