KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化

Posted on 十月 6, 2025

KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化 ArXiv ID: 2510.05373作者: Utkarsh Saxena, Kaushik Roy发布日期: 2025-10-06分类: inference, kv-cache-optimization, quantization 摘要KVLinC 提出了一种缓解 KV cache 量化中 attention 误差的框架。通过结合两种关键技术：1) Hadamard 旋转以降低 value 量化误差，2) 轻量级线性校正适配器显式补偿量化 key 引入的误差。该方法在 LLaMA、Qwen2.5 和 Qwen3 模型家族上进行评估，实现了相比 Flash Attention 基线高达 2.55 倍的推理加速，同时保持模型性能。设计了定制化 attention kernel 以最大化效率收益。核心...

阅读全文