VecInfer: 基于向量量化的2-bit KV Cache高效LLM推理

Posted on 一月 1, 1970

AbstractVecInfer针对LLM推理中的KV Cache内存瓶颈问题，提出了一种基于向量量化的激进压缩方案。通过smooth和Hadamard变换抑制key cache中的outlier，实现了对数据分布的全面覆盖。仅使用2-bit量化即可达到与全精度相当的性能，并设计了优化的CUDA kernel最小化内存访问开销。在Llama-3.1-8B模型上，大batch场景下self-attention计算获得2.7倍加速，单batch端到端延迟在196k序列长度下降低8.3倍。 Key Contributions Outlier抑制的向量量化: 通过smooth和Hadamard变换抑制key cache outliers，实现更有效的2-bit向量量化 2-bit极限压缩: 在仅2-bit量化的情况下实现与全精度相当的性能，8倍内存压缩比优化CUDA kernel: 定制化...

阅读全文