ChunkKV：基于语义块的KV缓存压缩技术

Posted on 二月 1, 2025

ChunkKV：基于语义块的KV缓存压缩技术 ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025 摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰，忽略了语言的语义连贯性。ChunkKV创新性地将语义块（semantic chunks）作为压缩的基本单元，保持完整的语言结构和上下文完整性。系统通过三个核心技术实现高效压缩：语义块识别：基于句法分析和语义边界检测，将token序列划分为有意义的语义单元块级重要性评估...

阅读全文

Squeezed Attention：基于语义聚类的长上下文LLM推理加速

Posted on 十一月 14, 2024

Squeezed Attention：基于语义聚类的长上下文LLM推理加速 ArXiv ID: 2411.09688作者: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, Sebastian Zhao, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami机构: UC Berkeley, SqueezeAI Lab发布日期: 2024-11-14会议: ACL 2025 摘要长上下文LLM推理面临的核心挑战是注意力计算的二次复杂度问题。当上下文长度从8K扩展到128K时，KV缓存大小和注意力计算量呈指数级增长，导致推理延迟急剧上升。 Squeezed Attention提出了一种创新的语义压缩方案，通过离线K-means聚类将...

阅读全文

长上下文LLM在长上下文学习中的挑战

Posted on 四月 2, 2024

长上下文LLM在长上下文学习中的挑战论文信息标题: Long-context LLMs Struggle with Long In-context Learning 作者: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen 发布日期: 2024-04-02 ArXiv链接: https://arxiv.org/abs/2404.02060 核心概述大型语言模型(LLM)在处理长序列方面取得了重大进展。一些模型如Gemini甚至声称能够处理数百万token。然而,它们的性能评估主要局限于困惑度和合成任务等指标,这些指标可能无法完全捕捉它们在更具挑战性的真实场景中的真实能力。本文提出了LongICLBench,一个全面的基准测试套件,专门评估长上下文LLM在实际长上下文学习任务中的表现。基准包含多个领域的真实任务,如文档问...

阅读全文