FlashAttention-3：通过异步和低精度实现快速准确的注意力机制

Posted on 七月 11, 2024

Abstract注意力机制作为无处不在的Transformer架构的核心层，是大语言模型和长上下文应用的瓶颈。FlashAttention通过最小化内存读写提出了一种在GPU上加速注意力计算的方法。然而，它尚未利用最新硬件的新功能，FlashAttention-2在H100 GPU上仅实现了35%的利用率。我们开发了三种主要技术来加速Hopper GPU上的注意力计算：利用Tensor Cores和TMA的异步特性来(1)通过warp特化重叠整体计算和数据移动，(2)交错执行块级矩阵乘法和softmax操作，以及(3)块量化和非相干处理来利用硬件对FP8低精度的支持。我们展示了FlashAttention-3在H100 GPU上实现了1.5-2.0倍的加速，使用FP16达到最高740 TFLOPs/s(75%利用率)，使用FP8接近1.2 PFLOPs/s。 Ke...

阅读全文

QServe：用于高效LLM服务的W4A8KV4量化与系统协同设计

Posted on 五月 7, 2024

Abstract量化可以加速大语言模型(LLM)推理。在INT8量化之外，研究社区正在积极探索更低精度，如INT4。然而，最先进的INT4量化技术仅能加速低批量、边缘LLM推理，无法在大批量、基于云的LLM服务中提供性能提升。我们发现了一个关键问题：现有的INT4量化方法在GPU上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战，我们引入了QoQ，一种W4A8KV4量化算法，采用4位权重、8位激活和4位KV缓存。QoQ代表quattuor-octo-quattuor，在拉丁语中表示4-8-4。QoQ通过QServe推理库实现，并取得了可测量的加速。 Key Contributions QoQ (quattuor-octo-quattuor)：结合4位权重、8位激活、4位KV缓存的新型W4A8KV4量化算法渐进量化技术，在W4A8 GEMM中实现低反量...

阅读全文

GPTQ：用于生成式预训练Transformer的准确训练后量化

Posted on 十月 31, 2022

Abstract生成式预训练Transformer模型，即GPT或OPT，通过在复杂语言建模任务中的突破性表现脱颖而出，但同时也因其极高的计算和存储成本而著称。具体来说，由于其庞大的规模，即使是大型高精度GPT模型的推理也可能需要多个高性能GPU，这限制了此类模型的可用性。虽然有新兴工作通过模型压缩来缓解这一压力，但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。在本文中，我们应对了这一挑战，并提出了GPTQ，一种基于近似二阶信息的新型一次性权重量化方法，既高度准确又高度高效。具体而言，GPTQ可以在大约四个GPU小时内量化具有1750亿参数的GPT模型，将位宽降至每个权重3或4位，相对于未压缩基线的精度下降可忽略不计。 Key Contributions GPTQ：基于近似二阶信息的新型一次性权重量化方法能够在约4个GPU小时内量化1750亿参数模型将每个权重降至3...

阅读全文