GPTQ：用于生成式预训练Transformer的准确训练后量化

Posted on 十月 31, 2022

Abstract生成式预训练Transformer模型，即GPT或OPT，通过在复杂语言建模任务中的突破性表现脱颖而出，但同时也因其极高的计算和存储成本而著称。具体来说，由于其庞大的规模，即使是大型高精度GPT模型的推理也可能需要多个高性能GPU，这限制了此类模型的可用性。虽然有新兴工作通过模型压缩来缓解这一压力，但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。在本文中，我们应对了这一挑战，并提出了GPTQ，一种基于近似二阶信息的新型一次性权重量化方法，既高度准确又高度高效。具体而言，GPTQ可以在大约四个GPU小时内量化具有1750亿参数的GPT模型，将位宽降至每个权重3或4位，相对于未压缩基线的精度下降可忽略不计。 Key Contributions GPTQ：基于近似二阶信息的新型一次性权重量化方法能够在约4个GPU小时内量化1750亿参数模型将每个权重降至3...

阅读全文