ChunkKV：基于语义块的KV缓存压缩技术

Posted on 二月 1, 2025

ChunkKV：基于语义块的KV缓存压缩技术 ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025 摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰，忽略了语言的语义连贯性。ChunkKV创新性地将语义块（semantic chunks）作为压缩的基本单元，保持完整的语言结构和上下文完整性。系统通过三个核心技术实现高效压缩：语义块识别：基于句法分析和语义边界检测，将token序列划分为有意义的语义单元块级重要性评估...

阅读全文

FlashInfer：大语言模型推理服务的高效可定制注意力引擎

Posted on 一月 2, 2025

FlashInfer：大语言模型推理服务的高效可定制注意力引擎 ArXiv ID: 2501.01005作者: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze机构: University of Washington, NVIDIA, OctoAI发布日期: 2025-01-02 摘要大语言模型(LLM)推理服务面临着关键的性能挑战：不同请求的KV缓存存储模式高度异构，导致内存访问效率低下。FlashInfer是一个创新的注意力计算引擎，专为解决这一挑战而设计。系统采用统一的块稀疏行(BSR)格式来管理KV缓存，使得系统能够高效处理各...

阅读全文

Squeezed Attention：基于语义聚类的长上下文LLM推理加速

Posted on 十一月 14, 2024

Squeezed Attention：基于语义聚类的长上下文LLM推理加速 ArXiv ID: 2411.09688作者: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, Sebastian Zhao, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami机构: UC Berkeley, SqueezeAI Lab发布日期: 2024-11-14会议: ACL 2025 摘要长上下文LLM推理面临的核心挑战是注意力计算的二次复杂度问题。当上下文长度从8K扩展到128K时，KV缓存大小和注意力计算量呈指数级增长，导致推理延迟急剧上升。 Squeezed Attention提出了一种创新的语义压缩方案，通过离线K-means聚类将...

阅读全文

SageAttention3: 基于微缩放FP4的Attention推理加速与8-bit训练探索

Posted on 一月 1, 1970

AbstractSageAttention3是针对新一代Blackwell GPU的FP4 Tensor Cores设计的高效attention加速方案。该论文提出了针对推理场景的FP4量化attention机制，并首次探索了训练阶段的低bit attention。在RTX5090上实现了1038 TOPS的性能，相比最快的FlashAttention实现提升5倍。此外，论文还开发了准确高效的8-bit attention用于前向和反向传播，在微调任务中实现无损性能，但在预训练中收敛较慢。 Key Contributions FP4 Attention推理加速: 针对Blackwell GPU的FP4 Tensor Cores设计优化的attention计算方案，实现5倍性能提升即插即用设计: 提供plug-and-play接口，可无缝集成到各类LLM推理框架中 8-bit训练探索...

阅读全文