AbstractKVLinC提出了一种缓解KV cache量化中attention误差的框架。通过结合两种关键技术:1) Hadamard旋转以降低value量化误差,2) 轻量级线性校正适配器显式补偿量化key引入的误差。该方法在LLaMA、Qwen2.5和Qwen3模型家族上进行评估,实现了相比Flash Attention基线高达2.55倍的推理加速,同时保持模型性能。设计了定制化attention kernel以最大化效率收益。
Key Contributions
Hadamard旋转优化Value量化: 对value cache应用Hadamard变换,均匀化数据分布以降低量化误差
线性校正适配器: 引入轻量级线性校正模块显式补偿量化key带来的误差
Key-Value分治策略: 针对key和value的不同特性采用不同的量化和误差缓解策略
定制Attention Kern...