FlashAttention-3：通过异步和低精度实现快速准确的注意力机制

Posted on 七月 11, 2024

FlashAttention-3：通过异步和低精度实现快速准确的注意力机制 ArXiv ID: 2407.08608作者: Jay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani, Tri Dao机构: Princeton University, NVIDIA发布日期: 2024-07-11硬件目标: NVIDIA H100 (Hopper) GPU 摘要注意力机制是 Transformer 架构的核心，也是大语言模型和长上下文应用的性能瓶颈。FlashAttention-2 在 H100 GPU 上仅实现了 35% 的利用率，远未充分发挥硬件潜力。本文提出的 FlashAttention-3 通过三项关键技术，在 H100 GPU 上实现了75% 的硬件利用率（FP16 达 740 TFLOP...

阅读全文