Squeezed Attention:基于语义聚类的长上下文LLM推理加速

Squeezed Attention:基于语义聚类的长上下文LLM推理加速 ArXiv ID: 2411.09688作者: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, Sebastian Zhao, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami机构: UC Berkeley, SqueezeAI Lab发布日期: 2024-11-14会议: ACL 2025 摘要长上下文LLM推理面临的核心挑战是注意力计算的二次复杂度问题。当上下文长度从8K扩展到128K时,KV缓存大小和注意力计算量呈指数级增长,导致推理延迟急剧上升。 Squeezed Attention提出了一种创新的语义压缩方案,通过离线K-means聚类将...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero