SageAttention3: 基于微缩放FP4的Attention推理加速与8-bit训练探索

Posted on 一月 1, 1970

AbstractSageAttention3是针对新一代Blackwell GPU的FP4 Tensor Cores设计的高效attention加速方案。该论文提出了针对推理场景的FP4量化attention机制，并首次探索了训练阶段的低bit attention。在RTX5090上实现了1038 TOPS的性能，相比最快的FlashAttention实现提升5倍。此外，论文还开发了准确高效的8-bit attention用于前向和反向传播，在微调任务中实现无损性能，但在预训练中收敛较慢。 Key Contributions FP4 Attention推理加速: 针对Blackwell GPU的FP4 Tensor Cores设计优化的attention计算方案，实现5倍性能提升即插即用设计: 提供plug-and-play接口，可无缝集成到各类LLM推理框架中 8-bit训练探索...

阅读全文