KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化

KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化 ArXiv ID: 2510.05373作者: Utkarsh Saxena, Kaushik Roy发布日期: 2025-10-06分类: inference, kv-cache-optimization, quantization 摘要KVLinC 提出了一种缓解 KV cache 量化中 attention 误差的框架。通过结合两种关键技术:1) Hadamard 旋转以降低 value 量化误差,2) 轻量级线性校正适配器显式补偿量化 key 引入的误差。该方法在 LLaMA、Qwen2.5 和 Qwen3 模型家族上进行评估,实现了相比 Flash Attention 基线高达 2.55 倍的推理加速,同时保持模型性能。设计了定制化 attention kernel 以最大化效率收益。 核心...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero