GPTQ:用于生成式预训练 Transformer 的准确训练后量化

GPTQ:用于生成式预训练 Transformer 的准确训练后量化 ArXiv ID: 2210.17323作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh机构: IST Austria, ETH Zurich, University of Amsterdam发表: ICLR 2023引用量: 2500+ (截至 2025 年) 摘要生成式预训练 Transformer 模型(如 GPT、OPT)因其庞大的规模而著称,即使是高精度推理也可能需要多个高性能 GPU。本文提出 GPTQ,一种基于近似二阶信息的新型一次性权重量化方法。GPTQ 可以在约4 个 GPU 小时内量化 1750 亿参数模型,将权重降至3-4 位,精度损失可忽略不计。这是首个能在单个 GPU 上运行 175B 模型的方法,在 A1...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero