FlashInfer:大语言模型推理服务的高效可定制注意力引擎
ArXiv ID: 2501.01005作者: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze机构: University of Washington, NVIDIA, OctoAI发布日期: 2025-01-02
摘要大语言模型(LLM)推理服务面临着关键的性能挑战:不同请求的KV缓存存储模式高度异构,导致内存访问效率低下。FlashInfer是一个创新的注意力计算引擎,专为解决这一挑战而设计。
系统采用统一的块稀疏行(BSR)格式来管理KV缓存,使得系统能够高效处理各...
Squeezed Attention:基于语义聚类的长上下文LLM推理加速
Squeezed Attention:基于语义聚类的长上下文LLM推理加速
ArXiv ID: 2411.09688作者: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, Sebastian Zhao, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami机构: UC Berkeley, SqueezeAI Lab发布日期: 2024-11-14会议: ACL 2025
摘要长上下文LLM推理面临的核心挑战是注意力计算的二次复杂度问题。当上下文长度从8K扩展到128K时,KV缓存大小和注意力计算量呈指数级增长,导致推理延迟急剧上升。
Squeezed Attention提出了一种创新的语义压缩方案,通过离线K-means聚类将...