FlashInfer:高效可定制的LLM推理Attention引擎

AbstractTransformer架构及其核心的注意力机制是大语言模型(LLM)的基础。随着模型规模不断扩大,高效的GPU注意力内核对于实现高吞吐量和低延迟推理至关重要。多样化的LLM应用需求催生了对灵活且高性能注意力解决方案的需求。本文介绍FlashInfer:一个为LLM服务设计的可定制高效注意力引擎。FlashInfer通过块稀疏格式和可组合格式解决KV缓存存储的异构性问题,优化内存访问并减少冗余。它还提供可定制的注意力模板,通过即时编译(JIT)适应各种场景。此外,FlashInfer的负载均衡调度算法能够适应用户请求的动态性,同时保持与CUDAGraph的兼容性。FlashInfer已集成到SGLang、vLLM和MLC-Engine等主流LLM服务框架中。 Key Contributions 块稀疏格式和可组合格式:创新性地解决KV缓存存储异构性问题,优化内存访问模式...

阅读全文

vAttention:无需PagedAttention的动态内存管理

AbstractPagedAttention是LLM服务系统中广受欢迎的动态内存分配方法。它通过按需分配GPU内存来缓解KV缓存碎片问题——这一现象曾严重限制了早期系统的批处理大小(进而影响吞吐量)。然而,为了在运行时分配物理内存,PagedAttention最终改变了KV缓存的虚拟内存布局,从连续变为非连续。这种设计导致了不可忽视的编程和性能开销。本文提出vAttention,一种无需PagedAttention即可实现高效动态内存管理的新方法,在保持KV缓存连续性的同时,达到甚至超越PagedAttention的性能。 Key Contributions 揭示PagedAttention的隐性成本:通过详细分析,首次系统性地量化了PagedAttention的性能开销,包括非连续内存访问、复杂索引计算、编程复杂度等,在实际workload中可导致11%的吞吐量下降 保持虚拟内存连...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero