突破记忆墙:长上下文代理 LLM 推理的优化路径
ArXiv ID: 2509.09505作者: Haoran Wu, Can Xiao, Jiayi Nie, Xuan Guo, Binglei Lou, Jeffrey T. H. Wong, Zhiwen Mo, Cheng Zhang, Przemysław Forys, Wayne Luk, Hongxiang Fan, Jianyi Cheng, Timothy M. Jones, Rika Antonova, Robert Mullins, Aaron Zhao机构: Imperial College London, Microsoft, Huawei发布日期: 2025-09-11
摘要LLM 现在构成了各种应用的 AI 代理的骨干。本文深入分析了长上下文代理 LLM 推理面临的记忆墙挑战,并提出了系统化的优化解决...
FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理
FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理
ArXiv ID: 2506.01969作者: Pengcuo Dege, Qiuming Luo, Rui Mao, Chang Kong发布日期: 2025-05-13分类: inference, attention-optimization, hardware-optimization
摘要FlashMLA-ETAP 提出了一种针对 NVIDIA H20 GPU 单实例部署场景优化的 Multi-Head Latent Attention (MLA) 推理框架。通过引入高效转置 Attention 流水线 (ETAP),重构 attention 计算以减少冗余操作,并将 KV context 长度与 WGMMA 操作的 M 维度对齐,充分利用 H20 硬件特性。在 64...