QLoRA:量化大型语言模型的高效微调

论文概述QLoRA 是华盛顿大学提出的一项里程碑式量化微调技术,能够在消费级硬件上高效微调大规模语言模型。关键创新在于结合了三项技术:(1)针对正态分布权重优化的 4 位 NormalFloat(NF4)量化,(2)双重量化以减少量化常数的内存占用,(3)使用 NVIDIA 统一内存的分页优化器来处理内存峰值。QLoRA 能够在单个 48GB GPU 上微调 650 亿参数模型,同时保持完整的 16 位微调性能。生成的 Guanaco 模型系列在 Vicuna 基准测试上达到了 ChatGPT 性能的 99.3%。该论文发表于 NeurIPS 2023,获得超过 2,800 次引用,QLoRA 已成为可访问的大型语言模型微调的事实标准,也是 bitsandbytes 库的基础。 论文信息: 发布时间:2023-05-23 作者:Tim Dettmers, Artidoro Pagn...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero