SmoothQuant:用于大语言模型的准确高效训练后量化

SmoothQuant:用于大语言模型的准确高效训练后量化 ArXiv ID: 2211.10438作者: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han机构: MIT Han Lab, NVIDIA发表: ICML 2023引用量: 3000+ (截至 2025 年) 摘要大语言模型(LLM)的推理成本高企,量化是降低部署成本的关键技术。然而,LLM 的激活存在极端离群值,使得 INT8 量化会导致不可接受的精度下降。本文提出的 SmoothQuant 通过数学上的等价变换,将量化难度从激活迁移到权重,实现了无需训练的 W8A8 量化,在保持精度的同时实现 1.56 倍推理加速和 2 倍内存减少。 问题背景LLM 量化的挑战123456789101112131415FP16 推理...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero