Abstract大语言模型(LLM)在各类自然语言处理任务中展现了卓越能力。然而,其巨大的内存需求,特别是在长文本理解和生成过程中KV缓存的持续增长,给资源受限环境下的部署带来了重大挑战。量化技术作为一种在保留历史信息的同时减少内存消耗的解决方案应运而生。我们提出XQuant,一个训练免费且即插即用的框架,实现了超低等效比特位宽的KV缓存量化。XQuant引入了两项关键创新:计算开销可忽略的无数据校准方法,以及跨层KV缓存压缩技术,使量化比特位宽降至1.4比特以下。在TruthfulQA和LongBench上的大量实验表明,XQuant优于现有最先进方法(如KIVI-2bit和AsymKV-1.5bit),在实现更低比特位宽的同时保持卓越性能,在内存效率和模型精度之间建立了更好的权衡。
Key Contributions
超低比特量化突破:首次实现sub-1.4比特的KV缓存量化,相...
大型语言模型是推理教师
论文概述本文提出了Fine-tune-CoT(思维链微调)方法,使用大型语言模型作为推理教师,使较小的模型具备复杂推理能力。通过从超大型教师模型生成推理样本来微调较小的模型,该方法将模型规模要求降低了几个数量级,同时实现了显著的推理能力。
论文信息:
发布时间:2022-12-20
作者:Namgyu Ho, Laura Schmid, Se-Young Yun
机构:KAIST
研究方向:提示工程, 大型语言模型推理
核心技术:知识蒸馏
研究背景大型语言模型在复杂推理任务上展现出强大的能力,但这些能力通常需要超过100B参数的模型才能涌现。本研究针对以下问题展开:
现有问题
复杂推理能力主要存在于超大规模模型中
小型模型在推理任务上表现不佳
缺乏将大模型推理能力迁移到小模型的有效方法
研究动机本研究旨在探索如何将大型语言模型的推理能力蒸馏到小型模型中,使得小型模型也能具备复杂...
SmoothQuant:用于大语言模型的准确高效训练后量化
SmoothQuant:用于大语言模型的准确高效训练后量化
ArXiv ID: 2211.10438作者: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han机构: MIT Han Lab, NVIDIA发表: ICML 2023引用量: 3000+ (截至 2025 年)
摘要大语言模型(LLM)的推理成本高企,量化是降低部署成本的关键技术。然而,LLM 的激活存在极端离群值,使得 INT8 量化会导致不可接受的精度下降。本文提出的 SmoothQuant 通过数学上的等价变换,将量化难度从激活迁移到权重,实现了无需训练的 W8A8 量化,在保持精度的同时实现 1.56 倍推理加速和 2 倍内存减少。
问题背景LLM 量化的挑战123456789101112131415FP16 推理...