SageAttention3: 基于微缩放FP4的Attention推理加速与8-bit训练探索

AbstractSageAttention3是针对新一代Blackwell GPU的FP4 Tensor Cores设计的高效attention加速方案。该论文提出了针对推理场景的FP4量化attention机制,并首次探索了训练阶段的低bit attention。在RTX5090上实现了1038 TOPS的性能,相比最快的FlashAttention实现提升5倍。此外,论文还开发了准确高效的8-bit attention用于前向和反向传播,在微调任务中实现无损性能,但在预训练中收敛较慢。 Key Contributions FP4 Attention推理加速: 针对Blackwell GPU的FP4 Tensor Cores设计优化的attention计算方案,实现5倍性能提升 即插即用设计: 提供plug-and-play接口,可无缝集成到各类LLM推理框架中 8-bit训练探索...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero