SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索

SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索 ArXiv ID: 2505.11594作者: Jintao Zhang, Jia Wei, Pengle Zhang et al.机构: Tsinghua University发布日期: 2025-05-16目标硬件: NVIDIA Blackwell GPU (RTX 50 系列) 摘要SageAttention3 是针对新一代 Blackwell GPU 的 FP4 Tensor Cores 设计的高效 attention 加速方案。该论文提出了针对推理场景的 FP4 量化 attention 机制,并首次探索了训练阶段的低 bit attention。在 RTX 5090 上实现了1038 TOPS的性能,相比最快的 FlashAttention 实现提升5 倍。...

阅读全文

QServe:用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计

QServe:用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计 ArXiv ID: 2405.04532作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han机构: MIT Han Lab, NVIDIA, MIT-IBM Watson AI Lab发布日期: 2024-05-07 摘要量化可以加速大语言模型推理。在 INT8 量化之外,研究社区正在积极探索更低精度如 INT4。然而,现有 INT4 量化技术仅能加速低批量、边缘 LLM 推理,无法在大批量、基于云的 LLM 服务中提供性能提升。本文发现了一个关键问题:现有的 INT4 量化方法在 GPU 上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,本文...

阅读全文

SmoothQuant:用于大语言模型的准确高效训练后量化

SmoothQuant:用于大语言模型的准确高效训练后量化 ArXiv ID: 2211.10438作者: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han机构: MIT Han Lab, NVIDIA发表: ICML 2023引用量: 3000+ (截至 2025 年) 摘要大语言模型(LLM)的推理成本高企,量化是降低部署成本的关键技术。然而,LLM 的激活存在极端离群值,使得 INT8 量化会导致不可接受的精度下降。本文提出的 SmoothQuant 通过数学上的等价变换,将量化难度从激活迁移到权重,实现了无需训练的 W8A8 量化,在保持精度的同时实现 1.56 倍推理加速和 2 倍内存减少。 问题背景LLM 量化的挑战123456789101112131415FP16 推理...

阅读全文

GPTQ:用于生成式预训练 Transformer 的准确训练后量化

GPTQ:用于生成式预训练 Transformer 的准确训练后量化 ArXiv ID: 2210.17323作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh机构: IST Austria, ETH Zurich, University of Amsterdam发表: ICLR 2023引用量: 2500+ (截至 2025 年) 摘要生成式预训练 Transformer 模型(如 GPT、OPT)因其庞大的规模而著称,即使是高精度推理也可能需要多个高性能 GPU。本文提出 GPTQ,一种基于近似二阶信息的新型一次性权重量化方法。GPTQ 可以在约4 个 GPU 小时内量化 1750 亿参数模型,将权重降至3-4 位,精度损失可忽略不计。这是首个能在单个 GPU 上运行 175B 模型的方法,在 A1...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero