SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索

SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索 ArXiv ID: 2505.11594作者: Jintao Zhang, Jia Wei, Pengle Zhang et al.机构: Tsinghua University发布日期: 2025-05-16目标硬件: NVIDIA Blackwell GPU (RTX 50 系列) 摘要SageAttention3 是针对新一代 Blackwell GPU 的 FP4 Tensor Cores 设计的高效 attention 加速方案。该论文提出了针对推理场景的 FP4 量化 attention 机制,并首次探索了训练阶段的低 bit attention。在 RTX 5090 上实现了1038 TOPS的性能,相比最快的 FlashAttention 实现提升5 倍。...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero