FlashInfer:大语言模型推理服务的高效可定制注意力引擎
ArXiv ID: 2501.01005作者: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze机构: University of Washington, NVIDIA, OctoAI发布日期: 2025-01-02
摘要大语言模型(LLM)推理服务面临着关键的性能挑战:不同请求的KV缓存存储模式高度异构,导致内存访问效率低下。FlashInfer是一个创新的注意力计算引擎,专为解决这一挑战而设计。
系统采用统一的块稀疏行(BSR)格式来管理KV缓存,使得系统能够高效处理各...