AbstractVecInfer针对LLM推理中的KV Cache内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过smooth和Hadamard变换抑制key cache中的outlier,实现了对数据分布的全面覆盖。仅使用2-bit量化即可达到与全精度相当的性能,并设计了优化的CUDA kernel最小化内存访问开销。在Llama-3.1-8B模型上,大batch场景下self-attention计算获得2.7倍加速,单batch端到端延迟在196k序列长度下降低8.3倍。
Key Contributions
Outlier抑制的向量量化: 通过smooth和Hadamard变换抑制key cache outliers,实现更有效的2-bit向量量化
2-bit极限压缩: 在仅2-bit量化的情况下实现与全精度相当的性能,8倍内存压缩比
优化CUDA kernel: 定制化...