FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理 ArXiv ID: 2506.01969作者: Pengcuo Dege, Qiuming Luo, Rui Mao, Chang Kong发布日期: 2025-05-13分类: inference, attention-optimization, hardware-optimization 摘要FlashMLA-ETAP 提出了一种针对 NVIDIA H20 GPU 单实例部署场景优化的 Multi-Head Latent Attention (MLA) 推理框架。通过引入高效转置 Attention 流水线 (ETAP),重构 attention 计算以减少冗余操作,并将 KV context 长度与 WGMMA 操作的 M 维度对齐,充分利用 H20 硬件特性。在 64...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero