QServe：用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计

Posted on 五月 7, 2024

QServe：用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计 ArXiv ID: 2405.04532作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han机构: MIT Han Lab, NVIDIA, MIT-IBM Watson AI Lab发布日期: 2024-05-07 摘要量化可以加速大语言模型推理。在 INT8 量化之外，研究社区正在积极探索更低精度如 INT4。然而，现有 INT4 量化技术仅能加速低批量、边缘 LLM 推理，无法在大批量、基于云的 LLM 服务中提供性能提升。本文发现了一个关键问题：现有的 INT4 量化方法在 GPU 上对权重或部分和进行反量化时存在显著的运行时开销（20-90%）。为了解决这一挑战，本文...

阅读全文