VecInfer: 基于向量量化的 2-bit KV Cache 高效 LLM 推理

VecInfer: 基于向量量化的 2-bit KV Cache 高效 LLM 推理 ArXiv ID: 2510.06175作者: Dingyu Yao, Chenxu Yang, Zhengyang Tong, Zheng Lin, Wei Liu, Jian Luan, Weiping Wang发布日期: 2025-10-07分类: inference, kv-cache-optimization, quantization 摘要VecInfer 针对 LLM 推理中的 KV Cache 内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过 smooth 和 Hadamard 变换抑制 key cache 中的 outlier,实现了对数据分布的全面覆盖。仅使用 2-bit 量化即可达到与全精度相当的性能,并设计了优化的 CUDA kernel 最小化内存访问开销。在 L...

阅读全文

突破记忆墙:长上下文代理 LLM 推理的优化路径

突破记忆墙:长上下文代理 LLM 推理的优化路径 ArXiv ID: 2509.09505作者: Haoran Wu, Can Xiao, Jiayi Nie, Xuan Guo, Binglei Lou, Jeffrey T. H. Wong, Zhiwen Mo, Cheng Zhang, Przemysław Forys, Wayne Luk, Hongxiang Fan, Jianyi Cheng, Timothy M. Jones, Rika Antonova, Robert Mullins, Aaron Zhao机构: Imperial College London, Microsoft, Huawei发布日期: 2025-09-11 摘要LLM 现在构成了各种应用的 AI 代理的骨干。本文深入分析了长上下文代理 LLM 推理面临的记忆墙挑战,并提出了系统化的优化解决...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero