VecInfer: 基于向量量化的 2-bit KV Cache 高效 LLM 推理
ArXiv ID: 2510.06175作者: Dingyu Yao, Chenxu Yang, Zhengyang Tong, Zheng Lin, Wei Liu, Jian Luan, Weiping Wang发布日期: 2025-10-07分类: inference, kv-cache-optimization, quantization
摘要VecInfer 针对 LLM 推理中的 KV Cache 内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过 smooth 和 Hadamard 变换抑制 key cache 中的 outlier,实现了对数据分布的全面覆盖。仅使用 2-bit 量化即可达到与全精度相当的性能,并设计了优化的 CUDA kernel 最小化内存访问开销。在 L...
KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化
KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化
ArXiv ID: 2510.05373作者: Utkarsh Saxena, Kaushik Roy发布日期: 2025-10-06分类: inference, kv-cache-optimization, quantization
摘要KVLinC 提出了一种缓解 KV cache 量化中 attention 误差的框架。通过结合两种关键技术:1) Hadamard 旋转以降低 value 量化误差,2) 轻量级线性校正适配器显式补偿量化 key 引入的误差。该方法在 LLaMA、Qwen2.5 和 Qwen3 模型家族上进行评估,实现了相比 Flash Attention 基线高达 2.55 倍的推理加速,同时保持模型性能。设计了定制化 attention kernel 以最大化效率收益。
核心...