SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索

Posted on 五月 16, 2025

SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索 ArXiv ID: 2505.11594作者: Jintao Zhang, Jia Wei, Pengle Zhang et al.机构: Tsinghua University发布日期: 2025-05-16目标硬件: NVIDIA Blackwell GPU (RTX 50 系列) 摘要SageAttention3 是针对新一代 Blackwell GPU 的 FP4 Tensor Cores 设计的高效 attention 加速方案。该论文提出了针对推理场景的 FP4 量化 attention 机制，并首次探索了训练阶段的低 bit attention。在 RTX 5090 上实现了1038 TOPS的性能，相比最快的 FlashAttention 实现提升5 倍。...

阅读全文

QServe：用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计

Posted on 五月 7, 2024

QServe：用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计 ArXiv ID: 2405.04532作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han机构: MIT Han Lab, NVIDIA, MIT-IBM Watson AI Lab发布日期: 2024-05-07 摘要量化可以加速大语言模型推理。在 INT8 量化之外，研究社区正在积极探索更低精度如 INT4。然而，现有 INT4 量化技术仅能加速低批量、边缘 LLM 推理，无法在大批量、基于云的 LLM 服务中提供性能提升。本文发现了一个关键问题：现有的 INT4 量化方法在 GPU 上对权重或部分和进行反量化时存在显著的运行时开销（20-90%）。为了解决这一挑战，本文...

阅读全文

SmoothQuant：用于大语言模型的准确高效训练后量化

Posted on 十一月 21, 2022

SmoothQuant：用于大语言模型的准确高效训练后量化 ArXiv ID: 2211.10438作者: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han机构: MIT Han Lab, NVIDIA发表: ICML 2023引用量: 3000+ (截至 2025 年) 摘要大语言模型（LLM）的推理成本高企，量化是降低部署成本的关键技术。然而，LLM 的激活存在极端离群值，使得 INT8 量化会导致不可接受的精度下降。本文提出的 SmoothQuant 通过数学上的等价变换，将量化难度从激活迁移到权重，实现了无需训练的 W8A8 量化，在保持精度的同时实现 1.56 倍推理加速和 2 倍内存减少。问题背景LLM 量化的挑战123456789101112131415FP16 推理...

阅读全文

GPTQ：用于生成式预训练 Transformer 的准确训练后量化

Posted on 十月 31, 2022

GPTQ：用于生成式预训练 Transformer 的准确训练后量化 ArXiv ID: 2210.17323作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh机构: IST Austria, ETH Zurich, University of Amsterdam发表: ICLR 2023引用量: 2500+ (截至 2025 年) 摘要生成式预训练 Transformer 模型（如 GPT、OPT）因其庞大的规模而著称，即使是高精度推理也可能需要多个高性能 GPU。本文提出 GPTQ，一种基于近似二阶信息的新型一次性权重量化方法。GPTQ 可以在约4 个 GPU 小时内量化 1750 亿参数模型，将权重降至3-4 位，精度损失可忽略不计。这是首个能在单个 GPU 上运行 175B 模型的方法，在 A1...

阅读全文