VecInfer: 基于向量量化的 2-bit KV Cache 高效 LLM 推理

Posted on 十月 7, 2025

VecInfer: 基于向量量化的 2-bit KV Cache 高效 LLM 推理 ArXiv ID: 2510.06175作者: Dingyu Yao, Chenxu Yang, Zhengyang Tong, Zheng Lin, Wei Liu, Jian Luan, Weiping Wang发布日期: 2025-10-07分类: inference, kv-cache-optimization, quantization 摘要VecInfer 针对 LLM 推理中的 KV Cache 内存瓶颈问题，提出了一种基于向量量化的激进压缩方案。通过 smooth 和 Hadamard 变换抑制 key cache 中的 outlier，实现了对数据分布的全面覆盖。仅使用 2-bit 量化即可达到与全精度相当的性能，并设计了优化的 CUDA kernel 最小化内存访问开销。在 L...

阅读全文

KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化

Posted on 十月 6, 2025

KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化 ArXiv ID: 2510.05373作者: Utkarsh Saxena, Kaushik Roy发布日期: 2025-10-06分类: inference, kv-cache-optimization, quantization 摘要KVLinC 提出了一种缓解 KV cache 量化中 attention 误差的框架。通过结合两种关键技术：1) Hadamard 旋转以降低 value 量化误差，2) 轻量级线性校正适配器显式补偿量化 key 引入的误差。该方法在 LLaMA、Qwen2.5 和 Qwen3 模型家族上进行评估，实现了相比 Flash Attention 基线高达 2.55 倍的推理加速，同时保持模型性能。设计了定制化 attention kernel 以最大化效率收益。核心...

阅读全文