Abstract大语言模型(LLM)在各类自然语言处理任务中展现了卓越能力。然而,其巨大的内存需求,特别是在长文本理解和生成过程中KV缓存的持续增长,给资源受限环境下的部署带来了重大挑战。量化技术作为一种在保留历史信息的同时减少内存消耗的解决方案应运而生。我们提出XQuant,一个训练免费且即插即用的框架,实现了超低等效比特位宽的KV缓存量化。XQuant引入了两项关键创新:计算开销可忽略的无数据校准方法,以及跨层KV缓存压缩技术,使量化比特位宽降至1.4比特以下。在TruthfulQA和LongBench上的大量实验表明,XQuant优于现有最先进方法(如KIVI-2bit和AsymKV-1.5bit),在实现更低比特位宽的同时保持卓越性能,在内存效率和模型精度之间建立了更好的权衡。
Key Contributions
超低比特量化突破:首次实现sub-1.4比特的KV缓存量化,相...
vAttention:无需PagedAttention的动态内存管理
AbstractPagedAttention是LLM服务系统中广受欢迎的动态内存分配方法。它通过按需分配GPU内存来缓解KV缓存碎片问题——这一现象曾严重限制了早期系统的批处理大小(进而影响吞吐量)。然而,为了在运行时分配物理内存,PagedAttention最终改变了KV缓存的虚拟内存布局,从连续变为非连续。这种设计导致了不可忽视的编程和性能开销。本文提出vAttention,一种无需PagedAttention即可实现高效动态内存管理的新方法,在保持KV缓存连续性的同时,达到甚至超越PagedAttention的性能。
Key Contributions
揭示PagedAttention的隐性成本:通过详细分析,首次系统性地量化了PagedAttention的性能开销,包括非连续内存访问、复杂索引计算、编程复杂度等,在实际workload中可导致11%的吞吐量下降
保持虚拟内存连...