SmoothQuant：用于大语言模型的准确高效训练后量化

Posted on 十一月 21, 2022

SmoothQuant：用于大语言模型的准确高效训练后量化 ArXiv ID: 2211.10438作者: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han机构: MIT Han Lab, NVIDIA发表: ICML 2023引用量: 3000+ (截至 2025 年) 摘要大语言模型（LLM）的推理成本高企，量化是降低部署成本的关键技术。然而，LLM 的激活存在极端离群值，使得 INT8 量化会导致不可接受的精度下降。本文提出的 SmoothQuant 通过数学上的等价变换，将量化难度从激活迁移到权重，实现了无需训练的 W8A8 量化，在保持精度的同时实现 1.56 倍推理加速和 2 倍内存减少。问题背景LLM 量化的挑战123456789101112131415FP16 推理...

阅读全文

GPTQ：用于生成式预训练 Transformer 的准确训练后量化

Posted on 十月 31, 2022

GPTQ：用于生成式预训练 Transformer 的准确训练后量化 ArXiv ID: 2210.17323作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh机构: IST Austria, ETH Zurich, University of Amsterdam发表: ICLR 2023引用量: 2500+ (截至 2025 年) 摘要生成式预训练 Transformer 模型（如 GPT、OPT）因其庞大的规模而著称，即使是高精度推理也可能需要多个高性能 GPU。本文提出 GPTQ，一种基于近似二阶信息的新型一次性权重量化方法。GPTQ 可以在约4 个 GPU 小时内量化 1750 亿参数模型，将权重降至3-4 位，精度损失可忽略不计。这是首个能在单个 GPU 上运行 175B 模型的方法，在 A1...

阅读全文