FlashAttention-3:通过异步和低精度实现快速准确的注意力机制
ArXiv ID: 2407.08608作者: Jay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani, Tri Dao机构: Princeton University, NVIDIA发布日期: 2024-07-11硬件目标: NVIDIA H100 (Hopper) GPU
摘要注意力机制是 Transformer 架构的核心,也是大语言模型和长上下文应用的性能瓶颈。FlashAttention-2 在 H100 GPU 上仅实现了 35% 的利用率,远未充分发挥硬件潜力。
本文提出的 FlashAttention-3 通过三项关键技术,在 H100 GPU 上实现了75% 的硬件利用率(FP16 达 740 TFLOP...