Abstract大语言模型(LLM)在各类自然语言处理任务中展现了卓越能力。然而,其巨大的内存需求,特别是在长文本理解和生成过程中KV缓存的持续增长,给资源受限环境下的部署带来了重大挑战。量化技术作为一种在保留历史信息的同时减少内存消耗的解决方案应运而生。我们提出XQuant,一个训练免费且即插即用的框架,实现了超低等效比特位宽的KV缓存量化。XQuant引入了两项关键创新:计算开销可忽略的无数据校准方法,以及跨层KV缓存压缩技术,使量化比特位宽降至1.4比特以下。在TruthfulQA和LongBench上的大量实验表明,XQuant优于现有最先进方法(如KIVI-2bit和AsymKV-1.5bit),在实现更低比特位宽的同时保持卓越性能,在内存效率和模型精度之间建立了更好的权衡。
Key Contributions
超低比特量化突破:首次实现sub-1.4比特的KV缓存量化,相...
更宽还是更深?通过自适应分支树搜索扩展LLM推理时计算
Key Contributions
引入了用于自适应推理时计算分配的AB-MCTS框架
动态平衡”更宽”探索与”更深”改进策略
通过有原则的多轮探索/利用泛化了重复采样
优于重复采样和标准MCTS基线
证明了结合响应多样性与解决方案改进的重要性
MethodologyAB-MCTS作为一种树搜索运行,其中每个节点代表一个部分解决方案。在每个节点,算法基于外部反馈信号自适应地决定是扩展新的候选响应(变宽)还是重新访问并改进现有响应(变深)。这种动态策略能够根据问题特征高效分配推理时计算资源。
Experiments在具有外部反馈机制的任务上进行评估,特别是编码任务。实证结果表明,AB-MCTS持续优于重复采样(纯宽度)和标准MCTS方法。自适应分支策略对于需要解决方案空间探索和迭代改进的任务特别有效。
Evaluation Notes这是一项及时的工作,解决了推理时扩展中更...
ChunkKV:基于语义块的KV缓存压缩技术
ChunkKV:基于语义块的KV缓存压缩技术
ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025
摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰,忽略了语言的语义连贯性。ChunkKV创新性地将语义块(semantic chunks)作为压缩的基本单元,保持完整的语言结构和上下文完整性。
系统通过三个核心技术实现高效压缩:
语义块识别:基于句法分析和语义边界检测,将token序列划分为有意义的语义单元
块级重要性评估...
s1: 简单的测试时扩展
Key Contributions
引入了结合 budget forcing 技术的简单测试时扩展方法
在竞赛数学题上相比 o1-preview 实现了27%的性能提升
证明了使用极少训练数据(1000个问题)的有效性
通过扩展在 AIME24 上实现从50%到57%的准确率提升
展示了测试时计算可以通过 budget forcing 有效控制
应用于 Qwen2.5-32B-Instruct 基础模型
Methodologys1 方法使用 budget forcing(预算强制)技术通过操控模型的内部思考过程来控制测试时计算。在使用精心挑选的1000个问题数据集进行监督微调后,模型学会了有效分配推理时的计算资源。budget forcing 机制允许对计算-性能权衡进行持续控制。
Experiments主要在包括 AIME24 在内的数学竞赛问题上进行评估。s1-32B 模型(基...
FlashInfer:大语言模型推理服务的高效可定制注意力引擎
FlashInfer:大语言模型推理服务的高效可定制注意力引擎
ArXiv ID: 2501.01005作者: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze机构: University of Washington, NVIDIA, OctoAI发布日期: 2025-01-02
摘要大语言模型(LLM)推理服务面临着关键的性能挑战:不同请求的KV缓存存储模式高度异构,导致内存访问效率低下。FlashInfer是一个创新的注意力计算引擎,专为解决这一挑战而设计。
系统采用统一的块稀疏行(BSR)格式来管理KV缓存,使得系统能够高效处理各...
FlashInfer:高效可定制的LLM推理Attention引擎
AbstractTransformer架构及其核心的注意力机制是大语言模型(LLM)的基础。随着模型规模不断扩大,高效的GPU注意力内核对于实现高吞吐量和低延迟推理至关重要。多样化的LLM应用需求催生了对灵活且高性能注意力解决方案的需求。本文介绍FlashInfer:一个为LLM服务设计的可定制高效注意力引擎。FlashInfer通过块稀疏格式和可组合格式解决KV缓存存储的异构性问题,优化内存访问并减少冗余。它还提供可定制的注意力模板,通过即时编译(JIT)适应各种场景。此外,FlashInfer的负载均衡调度算法能够适应用户请求的动态性,同时保持与CUDAGraph的兼容性。FlashInfer已集成到SGLang、vLLM和MLC-Engine等主流LLM服务框架中。
Key Contributions
块稀疏格式和可组合格式:创新性地解决KV缓存存储异构性问题,优化内存访问模式...
Squeezed Attention:基于语义聚类的长上下文LLM推理加速
Squeezed Attention:基于语义聚类的长上下文LLM推理加速
ArXiv ID: 2411.09688作者: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, Sebastian Zhao, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami机构: UC Berkeley, SqueezeAI Lab发布日期: 2024-11-14会议: ACL 2025
摘要长上下文LLM推理面临的核心挑战是注意力计算的二次复杂度问题。当上下文长度从8K扩展到128K时,KV缓存大小和注意力计算量呈指数级增长,导致推理延迟急剧上升。
Squeezed Attention提出了一种创新的语义压缩方案,通过离线K-means聚类将...
SSSD:简单可扩展的投机解码技术
Abstract过去一年中,投机解码(Speculative Decoding)作为加速大语言模型推理的技术而广受欢迎。虽然已经提出了多种方法,但大多数在数据中心典型的批处理大小(≥8)下难以提供令人满意的性能,并且往往涉及复杂的部署流程。SSSD(Simply-Scalable Speculative Decoding)针对这些问题,提出了一种简单但高效的投机解码方案,专门优化了在大批处理场景下的性能。在continuous batching环境中,SSSD在短上下文生成场景下实现了4倍吞吐量提升且不增加延迟,在长上下文场景下同时改善延迟和吞吐量1.7-2倍。
Key Contributions
大批处理优化:首个专门针对数据中心典型批处理大小(≥8)优化的投机解码方法,解决了现有方案在大批量下性能急剧下降的问题
简化部署流程:相比现有复杂的投机解码方案,SSSD设计极简,易于集成...
推理时计算扩展:比扩展模型参数更有效的优化策略
Abstract让大语言模型(LLM)能够通过使用更多推理时计算来改进输出,是构建能够在开放式自然语言任务上持续自我改进的通用agent的关键一步。本文研究了LLM推理时计算的扩展规律,重点回答一个问题:如果允许LLM使用固定但非平凡的推理时计算量,它能在挑战性提示上将性能提升多少?我们发现,在许多任务上,适当地扩展推理时计算可以比扩展模型参数更有效地提升性能。这一发现为LLM的发展开辟了新的方向——不是一味追求更大的模型,而是让模型学会如何更好地”思考”。
Key Contributions
推理时计算扩展定律:首次系统性地研究了LLM推理时计算的扩展规律,揭示了在固定模型参数下,增加推理时计算如何影响性能
与参数扩展的对比:通过大量实验证明,在许多任务上,扩展推理时计算比扩展模型参数更有效且成本更低
多种扩展策略对比:评估了best-of-N采样、beam search、sequ...
FlashAttention-3:通过异步和低精度实现快速准确的注意力机制
Abstract注意力机制作为无处不在的Transformer架构的核心层,是大语言模型和长上下文应用的瓶颈。FlashAttention通过最小化内存读写提出了一种在GPU上加速注意力计算的方法。然而,它尚未利用最新硬件的新功能,FlashAttention-2在H100 GPU上仅实现了35%的利用率。我们开发了三种主要技术来加速Hopper GPU上的注意力计算:利用Tensor Cores和TMA的异步特性来(1)通过warp特化重叠整体计算和数据移动,(2)交错执行块级矩阵乘法和softmax操作,以及(3)块量化和非相干处理来利用硬件对FP8低精度的支持。我们展示了FlashAttention-3在H100 GPU上实现了1.5-2.0倍的加速,使用FP16达到最高740 TFLOPs/s(75%利用率),使用FP8接近1.2 PFLOPs/s。
Ke...
vAttention:无需PagedAttention的动态内存管理
AbstractPagedAttention是LLM服务系统中广受欢迎的动态内存分配方法。它通过按需分配GPU内存来缓解KV缓存碎片问题——这一现象曾严重限制了早期系统的批处理大小(进而影响吞吐量)。然而,为了在运行时分配物理内存,PagedAttention最终改变了KV缓存的虚拟内存布局,从连续变为非连续。这种设计导致了不可忽视的编程和性能开销。本文提出vAttention,一种无需PagedAttention即可实现高效动态内存管理的新方法,在保持KV缓存连续性的同时,达到甚至超越PagedAttention的性能。
Key Contributions
揭示PagedAttention的隐性成本:通过详细分析,首次系统性地量化了PagedAttention的性能开销,包括非连续内存访问、复杂索引计算、编程复杂度等,在实际workload中可导致11%的吞吐量下降
保持虚拟内存连...
QServe:用于高效LLM服务的W4A8KV4量化与系统协同设计
Abstract量化可以加速大语言模型(LLM)推理。在INT8量化之外,研究社区正在积极探索更低精度,如INT4。然而,最先进的INT4量化技术仅能加速低批量、边缘LLM推理,无法在大批量、基于云的LLM服务中提供性能提升。我们发现了一个关键问题:现有的INT4量化方法在GPU上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,我们引入了QoQ,一种W4A8KV4量化算法,采用4位权重、8位激活和4位KV缓存。QoQ代表quattuor-octo-quattuor,在拉丁语中表示4-8-4。QoQ通过QServe推理库实现,并取得了可测量的加速。
Key Contributions
QoQ (quattuor-octo-quattuor):结合4位权重、8位激活、4位KV缓存的新型W4A8KV4量化算法
渐进量化技术,在W4A8 GEMM中实现低反量...
SmoothQuant:用于大语言模型的准确高效训练后量化
Key Contributions
开创性的激活平滑技术,通过等价变换将量化难度从激活数学上迁移到权重
在OPT、BLOOM、GLM、MT-NLG、Llama、Falcon、Mistral和Mixtral模型上实现无需训练的W8A8量化,精度损失可忽略不计
展示了高达1.56倍的推理加速和2倍的内存减少,使530B参数LLM能够在单节点上服务
解决了阻止先前方法准确进行LLM激活INT8量化的激活离群值问题
使LLM中的所有矩阵乘法(包括注意力层和FFN层)都能量化为INT8,而不仅仅是权重
被工业界广泛采用:NVIDIA TensorRT-LLM(2023)、Microsoft ONNX Runtime(2024)、Amazon SageMaker(2023)
MethodologySmoothQuant解决了LLM权重易于量化但激活具有极端离群值导致大量化误差的关键挑战。核心洞...
GPTQ:用于生成式预训练Transformer的准确训练后量化
Abstract生成式预训练Transformer模型,即GPT或OPT,通过在复杂语言建模任务中的突破性表现脱颖而出,但同时也因其极高的计算和存储成本而著称。具体来说,由于其庞大的规模,即使是大型高精度GPT模型的推理也可能需要多个高性能GPU,这限制了此类模型的可用性。虽然有新兴工作通过模型压缩来缓解这一压力,但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。在本文中,我们应对了这一挑战,并提出了GPTQ,一种基于近似二阶信息的新型一次性权重量化方法,既高度准确又高度高效。具体而言,GPTQ可以在大约四个GPU小时内量化具有1750亿参数的GPT模型,将位宽降至每个权重3或4位,相对于未压缩基线的精度下降可忽略不计。
Key Contributions
GPTQ:基于近似二阶信息的新型一次性权重量化方法
能够在约4个GPU小时内量化1750亿参数模型
将每个权重降至3...
RSD: 奖励引导的推测解码实现高效LLM推理
Abstract论文提出Reward-Guided Speculative Decoding (RSD),一种结合轻量级draft模型和强大target模型的高效推理框架。不同于传统推测解码严格保证无偏性,RSD引入可控偏置来优先选择高奖励输出。通过process reward model评估中间解码步骤,动态决定何时调用target模型,实现计算成本和输出质量的最佳平衡。在奥林匹克级别的推理任务上,相比标准解码方法FLOPs降低4.4倍,同时准确率提升+3.5(相比并行解码方法)。
Key Contributions
奖励引导的推测解码框架: 首次将process reward model引入推测解码,用奖励信号指导draft model生成
可控偏置策略: 不追求严格无偏,而是引入可控偏置优先高奖励输出,实现质量-效率平衡
动态target model调用: 基于中间步骤的rew...
FlashMLA-ETAP: 高效转置Attention流水线加速H20 GPU上的MLA推理
AbstractFlashMLA-ETAP提出了一种针对NVIDIA H20 GPU单实例部署场景优化的Multi-Head Latent Attention (MLA)推理框架。通过引入高效转置Attention流水线(ETAP),重构attention计算以减少冗余操作,并将KV context长度与WGMMA操作的M维度对齐,充分利用H20硬件特性。在64K序列长度、batch size 16的场景下,相比FlashMLA实现2.78倍加速,相比FlashAttention-3和FlashInfer分别实现5.24倍和4.94倍提升。同时保持数值稳定性,RMSE比FlashMLA低15.2倍。
Key Contributions
Efficient Transpose Attention Pipeline (ETAP): 通过转置重构attention计算,减少冗余操作并优化硬...
SageAttention3: 基于微缩放FP4的Attention推理加速与8-bit训练探索
AbstractSageAttention3是针对新一代Blackwell GPU的FP4 Tensor Cores设计的高效attention加速方案。该论文提出了针对推理场景的FP4量化attention机制,并首次探索了训练阶段的低bit attention。在RTX5090上实现了1038 TOPS的性能,相比最快的FlashAttention实现提升5倍。此外,论文还开发了准确高效的8-bit attention用于前向和反向传播,在微调任务中实现无损性能,但在预训练中收敛较慢。
Key Contributions
FP4 Attention推理加速: 针对Blackwell GPU的FP4 Tensor Cores设计优化的attention计算方案,实现5倍性能提升
即插即用设计: 提供plug-and-play接口,可无缝集成到各类LLM推理框架中
8-bit训练探索...
KVLinC: 结合Hadamard旋转和线性校正的KV Cache量化
AbstractKVLinC提出了一种缓解KV cache量化中attention误差的框架。通过结合两种关键技术:1) Hadamard旋转以降低value量化误差,2) 轻量级线性校正适配器显式补偿量化key引入的误差。该方法在LLaMA、Qwen2.5和Qwen3模型家族上进行评估,实现了相比Flash Attention基线高达2.55倍的推理加速,同时保持模型性能。设计了定制化attention kernel以最大化效率收益。
Key Contributions
Hadamard旋转优化Value量化: 对value cache应用Hadamard变换,均匀化数据分布以降低量化误差
线性校正适配器: 引入轻量级线性校正模块显式补偿量化key带来的误差
Key-Value分治策略: 针对key和value的不同特性采用不同的量化和误差缓解策略
定制Attention Kern...
VecInfer: 基于向量量化的2-bit KV Cache高效LLM推理
AbstractVecInfer针对LLM推理中的KV Cache内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过smooth和Hadamard变换抑制key cache中的outlier,实现了对数据分布的全面覆盖。仅使用2-bit量化即可达到与全精度相当的性能,并设计了优化的CUDA kernel最小化内存访问开销。在Llama-3.1-8B模型上,大batch场景下self-attention计算获得2.7倍加速,单batch端到端延迟在196k序列长度下降低8.3倍。
Key Contributions
Outlier抑制的向量量化: 通过smooth和Hadamard变换抑制key cache outliers,实现更有效的2-bit向量量化
2-bit极限压缩: 在仅2-bit量化的情况下实现与全精度相当的性能,8倍内存压缩比
优化CUDA kernel: 定制化...