VecInfer: 基于向量量化的 2-bit KV Cache 高效 LLM 推理
ArXiv ID: 2510.06175作者: Dingyu Yao, Chenxu Yang, Zhengyang Tong, Zheng Lin, Wei Liu, Jian Luan, Weiping Wang发布日期: 2025-10-07分类: inference, kv-cache-optimization, quantization
摘要VecInfer 针对 LLM 推理中的 KV Cache 内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过 smooth 和 Hadamard 变换抑制 key cache 中的 outlier,实现了对数据分布的全面覆盖。仅使用 2-bit 量化即可达到与全精度相当的性能,并设计了优化的 CUDA kernel 最小化内存访问开销。在 L...