QLoRA：量化大型语言模型的高效微调

Posted on 五月 23, 2023

论文概述QLoRA 是华盛顿大学提出的一项里程碑式量化微调技术，能够在消费级硬件上高效微调大规模语言模型。关键创新在于结合了三项技术：（1）针对正态分布权重优化的 4 位 NormalFloat（NF4）量化，（2）双重量化以减少量化常数的内存占用，（3）使用 NVIDIA 统一内存的分页优化器来处理内存峰值。QLoRA 能够在单个 48GB GPU 上微调 650 亿参数模型，同时保持完整的 16 位微调性能。生成的 Guanaco 模型系列在 Vicuna 基准测试上达到了 ChatGPT 性能的 99.3%。该论文发表于 NeurIPS 2023，获得超过 2,800 次引用，QLoRA 已成为可访问的大型语言模型微调的事实标准，也是 bitsandbytes 库的基础。论文信息：发布时间：2023-05-23 作者：Tim Dettmers, Artidoro Pagn...

阅读全文