NSA:DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案

NSA:DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案 ArXiv ID: 2502.11089 作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao等 机构: DeepSeek-AI, 北京大学, 华盛顿大学 发布日期: 2025年2月 摘要随着大语言模型的上下文窗口不断扩大(64K甚至更长),标准的全注意力机制在解码阶段成为严重的性能瓶颈——理论估计显示,64K上下文长度下softmax attention计算占总延迟的70-80%。DeepSeek团队提出NSA(Native Sparse Attention),一种硬件对齐的、可原生训练的稀疏注意力机制。NSA通过动态层级稀疏策略,将粗粒度的token压缩与细粒度的token选择相结合,在保持全注意力模型精度的同时,在64K序列上实现...

阅读全文

DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩

DMS:动态内存稀疏化——1000步训练实现8倍KV Cache压缩 ArXiv ID: 2506.05345 作者: Adrian Lancucki等 机构: NVIDIA, University of Edinburgh 发布日期: 2025年6月 摘要推理时扩展(Inference-time Scaling)通过生成更长或更多的推理路径来提升LLM的推理能力,但其效率受限于KV Cache的内存瓶颈。本文提出推理时超缩放(Inference-Time Hyper-Scaling)的概念:通过压缩KV Cache,在相同计算预算内生成更多token,从而进一步提升推理精度。为此,作者提出DMS(Dynamic Memory Sparsification),一种仅需1000步训练即可实现8倍KV Cache压缩的稀疏化方法,同时精度优于无训练的稀疏注意力方案。DMS的关键设计包括...

阅读全文

GVote:自适应KV Cache压缩——告别手动预算设定

GVote:自适应KV Cache压缩——告别手动预算设定 ArXiv ID: 2509.03136 会议: ICLR 2026 发布日期: 2025年9月 摘要KV Cache压缩是长上下文LLM推理中的关键技术,但现有方法普遍依赖手动设定固定的压缩预算(如保留50%的KV对)。这种”普罗克鲁斯忒斯之床”式的做法迫使所有workload适应同一个压缩比,导致简单请求浪费内存、复杂请求精度损失。本文提出GVote,一种自适应KV Cache压缩方案,通过蒙特卡洛采样和投票机制自动计算最优缓存预算,无需人工设定。GVote基于隐状态服从高斯分布的观察,通过采样合成查询并投票决定保留哪些键值对,在多个基准测试中以更少的内存实现了更高或持平的精度。 核心问题固定预算的局限123456789固定预算 = 50%:├─ 简单查询("总结一句话"): 只需10% KV → ...

阅读全文

Expected Attention:基于未来查询分布估计的 KV Cache 压缩

Expected Attention:基于未来查询分布估计的 KV Cache 压缩 ArXiv ID: 2510.00636作者: Alessio Devoto, Maximilian Jeblick, Simon Jegou机构: Sapienza University of Rome, NVIDIA发布日期: 2025 年 10 月代码库: KVPress 摘要KV Cache 压缩面临一个基本矛盾:判断 KV 对重要性需要看未来查询的注意力分布,但推理时未来查询尚未产生。Expected Attention 通过利用 LLM 激活值的分布特性,以闭式解估计每个 KV 对的期望注意力分数,实现无训练、高效的 KV Cache 压缩。该方法在 prefilling 和 decoding 阶段均可无缝运行,且在 LongBench 等基准上全面超越现有基线。 问题背景KV C...

阅读全文

Saguaro:投机性投机解码——消除推测开销的异步加速方案

Saguaro:投机性投机解码——消除推测开销的异步加速方案 ArXiv ID: 2510.13161 会议: ICLR 2026 发布日期: 2025年10月 摘要投机解码(Speculative Decoding)已成为加速LLM推理的标准方法:用小型draft模型快速生成候选token序列,再由大模型并行验证。然而,传统投机解码中”推测→验证”的过程本身是串行的——draft模型必须等待上一轮验证完成后,才能基于验证结果生成下一轮推测。本文提出投机性投机解码(Speculative Speculative Decoding, SSD),核心思想是:在验证进行的同时,让draft模型预测可能的验证结果,并为每种可能结果预先准备推测序列。当验证完成时,如果实际结果命中预测缓存(cache hit),则可以立即返回推测结果,完全消除推测延迟。由此提出的Saguaro算法,在开源推理...

阅读全文

面向连续空间推理的推理时扩展

面向连续空间推理的推理时扩展 ArXiv ID: 2510.12167作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari机构: Monash University, University of Melbourne发布日期: 2025-10-14 摘要通过结合过程或结果奖励模型(PRM 或 ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理。使用 COCONUT 连续空间推理语言模型作为骨干,研究系统评估了推理时扩展技术在科学计算、物理模拟和几何问题求解中的表现。改进的推理时扩展方法可以将准确率提升20-35%。 问题背景连续空间推理 vs 离散文本推理1234567891011121314离散文本推理(如数学证明):&...

阅读全文

XQuant:实现超低比特KV缓存量化的跨层压缩框架

Abstract大语言模型(LLM)在各类自然语言处理任务中展现了卓越能力。然而,其巨大的内存需求,特别是在长文本理解和生成过程中KV缓存的持续增长,给资源受限环境下的部署带来了重大挑战。量化技术作为一种在保留历史信息的同时减少内存消耗的解决方案应运而生。我们提出XQuant,一个训练免费且即插即用的框架,实现了超低等效比特位宽的KV缓存量化。XQuant引入了两项关键创新:计算开销可忽略的无数据校准方法,以及跨层KV缓存压缩技术,使量化比特位宽降至1.4比特以下。在TruthfulQA和LongBench上的大量实验表明,XQuant优于现有最先进方法(如KIVI-2bit和AsymKV-1.5bit),在实现更低比特位宽的同时保持卓越性能,在内存效率和模型精度之间建立了更好的权衡。 Key Contributions 超低比特量化突破:首次实现sub-1.4比特的KV缓存量化,相...

阅读全文

VecInfer: 基于向量量化的 2-bit KV Cache 高效 LLM 推理

VecInfer: 基于向量量化的 2-bit KV Cache 高效 LLM 推理 ArXiv ID: 2510.06175作者: Dingyu Yao, Chenxu Yang, Zhengyang Tong, Zheng Lin, Wei Liu, Jian Luan, Weiping Wang发布日期: 2025-10-07分类: inference, kv-cache-optimization, quantization 摘要VecInfer 针对 LLM 推理中的 KV Cache 内存瓶颈问题,提出了一种基于向量量化的激进压缩方案。通过 smooth 和 Hadamard 变换抑制 key cache 中的 outlier,实现了对数据分布的全面覆盖。仅使用 2-bit 量化即可达到与全精度相当的性能,并设计了优化的 CUDA kernel 最小化内存访问开销。在 L...

阅读全文

KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化

KVLinC: 结合 Hadamard 旋转和线性校正的 KV Cache 量化 ArXiv ID: 2510.05373作者: Utkarsh Saxena, Kaushik Roy发布日期: 2025-10-06分类: inference, kv-cache-optimization, quantization 摘要KVLinC 提出了一种缓解 KV cache 量化中 attention 误差的框架。通过结合两种关键技术:1) Hadamard 旋转以降低 value 量化误差,2) 轻量级线性校正适配器显式补偿量化 key 引入的误差。该方法在 LLaMA、Qwen2.5 和 Qwen3 模型家族上进行评估,实现了相比 Flash Attention 基线高达 2.55 倍的推理加速,同时保持模型性能。设计了定制化 attention kernel 以最大化效率收益。 核心...

阅读全文

SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索

SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索 ArXiv ID: 2505.11594作者: Jintao Zhang, Jia Wei, Pengle Zhang et al.机构: Tsinghua University发布日期: 2025-05-16目标硬件: NVIDIA Blackwell GPU (RTX 50 系列) 摘要SageAttention3 是针对新一代 Blackwell GPU 的 FP4 Tensor Cores 设计的高效 attention 加速方案。该论文提出了针对推理场景的 FP4 量化 attention 机制,并首次探索了训练阶段的低 bit attention。在 RTX 5090 上实现了1038 TOPS的性能,相比最快的 FlashAttention 实现提升5 倍。...

阅读全文

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理 ArXiv ID: 2506.01969作者: Pengcuo Dege, Qiuming Luo, Rui Mao, Chang Kong发布日期: 2025-05-13分类: inference, attention-optimization, hardware-optimization 摘要FlashMLA-ETAP 提出了一种针对 NVIDIA H20 GPU 单实例部署场景优化的 Multi-Head Latent Attention (MLA) 推理框架。通过引入高效转置 Attention 流水线 (ETAP),重构 attention 计算以减少冗余操作,并将 KV context 长度与 WGMMA 操作的 M 维度对齐,充分利用 H20 硬件特性。在 64...

阅读全文

更宽还是更深?通过自适应分支树搜索扩展 LLM 推理时计算

更宽还是更深?通过自适应分支树搜索扩展 LLM 推理时计算 ArXiv ID: 2503.04412作者: Yuichi Inoue, Kou Misaki, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba机构: Preferred Networks发布日期: 2025-03-06接收: ICLR 2025 Workshop, NeurIPS 2025 Spotlight 摘要在 LLM 推理时扩展(test-time scaling)中,一个核心问题是:应该探索更多不同的回答(更宽),还是深入改进已有回答(更深)?本文提出的 AB-MCTS(Adaptive Branching MCTS) 框架通过自适应地平衡这两种策略,在编码任务上显著优于重复采样和标准 MCTS 方法。 核心问题推理时扩展的两难选择123456...

阅读全文

ChunkKV:基于语义块的KV缓存压缩技术

ChunkKV:基于语义块的KV缓存压缩技术 ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025 摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰,忽略了语言的语义连贯性。ChunkKV创新性地将语义块(semantic chunks)作为压缩的基本单元,保持完整的语言结构和上下文完整性。 系统通过三个核心技术实现高效压缩: 语义块识别:基于句法分析和语义边界检测,将token序列划分为有意义的语义单元 块级重要性评估...

阅读全文

RSD: 奖励引导的推测解码实现高效 LLM 推理

RSD: 奖励引导的推测解码实现高效 LLM 推理 ArXiv ID: 2501.19324作者: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong发布日期: 2025-01-31分类: inference, speculative-decoding, reasoning 摘要论文提出 Reward-Guided Speculative Decoding (RSD),一种结合轻量级 draft 模型和强大 target 模型的高效推理框架。不同于传统推测解码严格保证无偏性,RSD 引入可控偏置来优先选择高奖励输出。通过 process reward model 评估中间解码步骤,动态决定何时调用 target 模型,实现计算...

阅读全文

s1: 简单的测试时扩展

s1: 简单的测试时扩展 ArXiv ID: 2501.19393作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto机构: Stanford University, University of Washington, Hugging Face发布日期: 2025-01-31模型: s1-32B (基于 Qwen2.5-32B-Instruct) 摘要OpenAI o1 等推理模型展示了测试时计算扩展的巨大潜力,但其训练方法(大规模强化学习)成本高昂且不透明。本文证明,仅用 1000 个精选问题进行监督微调,...

阅读全文

FlashInfer:大语言模型推理服务的高效可定制注意力引擎

FlashInfer:大语言模型推理服务的高效可定制注意力引擎 ArXiv ID: 2501.01005作者: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze机构: University of Washington, NVIDIA, OctoAI发布日期: 2025-01-02 摘要大语言模型(LLM)推理服务面临着关键的性能挑战:不同请求的KV缓存存储模式高度异构,导致内存访问效率低下。FlashInfer是一个创新的注意力计算引擎,专为解决这一挑战而设计。 系统采用统一的块稀疏行(BSR)格式来管理KV缓存,使得系统能够高效处理各...

阅读全文

FlashInfer:高效可定制的LLM推理Attention引擎

AbstractTransformer架构及其核心的注意力机制是大语言模型(LLM)的基础。随着模型规模不断扩大,高效的GPU注意力内核对于实现高吞吐量和低延迟推理至关重要。多样化的LLM应用需求催生了对灵活且高性能注意力解决方案的需求。本文介绍FlashInfer:一个为LLM服务设计的可定制高效注意力引擎。FlashInfer通过块稀疏格式和可组合格式解决KV缓存存储的异构性问题,优化内存访问并减少冗余。它还提供可定制的注意力模板,通过即时编译(JIT)适应各种场景。此外,FlashInfer的负载均衡调度算法能够适应用户请求的动态性,同时保持与CUDAGraph的兼容性。FlashInfer已集成到SGLang、vLLM和MLC-Engine等主流LLM服务框架中。 Key Contributions 块稀疏格式和可组合格式:创新性地解决KV缓存存储异构性问题,优化内存访问模式...

阅读全文

Squeezed Attention:基于语义聚类的长上下文LLM推理加速

Squeezed Attention:基于语义聚类的长上下文LLM推理加速 ArXiv ID: 2411.09688作者: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Monishwaran Maheswaran, Sebastian Zhao, June Paik, Michael W. Mahoney, Kurt Keutzer, Amir Gholami机构: UC Berkeley, SqueezeAI Lab发布日期: 2024-11-14会议: ACL 2025 摘要长上下文LLM推理面临的核心挑战是注意力计算的二次复杂度问题。当上下文长度从8K扩展到128K时,KV缓存大小和注意力计算量呈指数级增长,导致推理延迟急剧上升。 Squeezed Attention提出了一种创新的语义压缩方案,通过离线K-means聚类将...

阅读全文

SSSD:简单可扩展的投机解码技术

Abstract过去一年中,投机解码(Speculative Decoding)作为加速大语言模型推理的技术而广受欢迎。虽然已经提出了多种方法,但大多数在数据中心典型的批处理大小(≥8)下难以提供令人满意的性能,并且往往涉及复杂的部署流程。SSSD(Simply-Scalable Speculative Decoding)针对这些问题,提出了一种简单但高效的投机解码方案,专门优化了在大批处理场景下的性能。在continuous batching环境中,SSSD在短上下文生成场景下实现了4倍吞吐量提升且不增加延迟,在长上下文场景下同时改善延迟和吞吐量1.7-2倍。 Key Contributions 大批处理优化:首个专门针对数据中心典型批处理大小(≥8)优化的投机解码方法,解决了现有方案在大批量下性能急剧下降的问题 简化部署流程:相比现有复杂的投机解码方案,SSSD设计极简,易于集成...

阅读全文

推理时计算扩展:比扩展模型参数更有效的优化策略

Abstract让大语言模型(LLM)能够通过使用更多推理时计算来改进输出,是构建能够在开放式自然语言任务上持续自我改进的通用agent的关键一步。本文研究了LLM推理时计算的扩展规律,重点回答一个问题:如果允许LLM使用固定但非平凡的推理时计算量,它能在挑战性提示上将性能提升多少?我们发现,在许多任务上,适当地扩展推理时计算可以比扩展模型参数更有效地提升性能。这一发现为LLM的发展开辟了新的方向——不是一味追求更大的模型,而是让模型学会如何更好地”思考”。 Key Contributions 推理时计算扩展定律:首次系统性地研究了LLM推理时计算的扩展规律,揭示了在固定模型参数下,增加推理时计算如何影响性能 与参数扩展的对比:通过大量实验证明,在许多任务上,扩展推理时计算比扩展模型参数更有效且成本更低 多种扩展策略对比:评估了best-of-N采样、beam search、sequ...

阅读全文

FlashAttention-3:通过异步和低精度实现快速准确的注意力机制

FlashAttention-3:通过异步和低精度实现快速准确的注意力机制 ArXiv ID: 2407.08608作者: Jay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani, Tri Dao机构: Princeton University, NVIDIA发布日期: 2024-07-11硬件目标: NVIDIA H100 (Hopper) GPU 摘要注意力机制是 Transformer 架构的核心,也是大语言模型和长上下文应用的性能瓶颈。FlashAttention-2 在 H100 GPU 上仅实现了 35% 的利用率,远未充分发挥硬件潜力。 本文提出的 FlashAttention-3 通过三项关键技术,在 H100 GPU 上实现了75% 的硬件利用率(FP16 达 740 TFLOP...

阅读全文

QServe:用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计

QServe:用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计 ArXiv ID: 2405.04532作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han机构: MIT Han Lab, NVIDIA, MIT-IBM Watson AI Lab发布日期: 2024-05-07 摘要量化可以加速大语言模型推理。在 INT8 量化之外,研究社区正在积极探索更低精度如 INT4。然而,现有 INT4 量化技术仅能加速低批量、边缘 LLM 推理,无法在大批量、基于云的 LLM 服务中提供性能提升。本文发现了一个关键问题:现有的 INT4 量化方法在 GPU 上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,本文...

阅读全文

vAttention:无需PagedAttention的动态内存管理

AbstractPagedAttention是LLM服务系统中广受欢迎的动态内存分配方法。它通过按需分配GPU内存来缓解KV缓存碎片问题——这一现象曾严重限制了早期系统的批处理大小(进而影响吞吐量)。然而,为了在运行时分配物理内存,PagedAttention最终改变了KV缓存的虚拟内存布局,从连续变为非连续。这种设计导致了不可忽视的编程和性能开销。本文提出vAttention,一种无需PagedAttention即可实现高效动态内存管理的新方法,在保持KV缓存连续性的同时,达到甚至超越PagedAttention的性能。 Key Contributions 揭示PagedAttention的隐性成本:通过详细分析,首次系统性地量化了PagedAttention的性能开销,包括非连续内存访问、复杂索引计算、编程复杂度等,在实际workload中可导致11%的吞吐量下降 保持虚拟内存连...

阅读全文

SmoothQuant:用于大语言模型的准确高效训练后量化

SmoothQuant:用于大语言模型的准确高效训练后量化 ArXiv ID: 2211.10438作者: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han机构: MIT Han Lab, NVIDIA发表: ICML 2023引用量: 3000+ (截至 2025 年) 摘要大语言模型(LLM)的推理成本高企,量化是降低部署成本的关键技术。然而,LLM 的激活存在极端离群值,使得 INT8 量化会导致不可接受的精度下降。本文提出的 SmoothQuant 通过数学上的等价变换,将量化难度从激活迁移到权重,实现了无需训练的 W8A8 量化,在保持精度的同时实现 1.56 倍推理加速和 2 倍内存减少。 问题背景LLM 量化的挑战123456789101112131415FP16 推理...

阅读全文

GPTQ:用于生成式预训练 Transformer 的准确训练后量化

GPTQ:用于生成式预训练 Transformer 的准确训练后量化 ArXiv ID: 2210.17323作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh机构: IST Austria, ETH Zurich, University of Amsterdam发表: ICLR 2023引用量: 2500+ (截至 2025 年) 摘要生成式预训练 Transformer 模型(如 GPT、OPT)因其庞大的规模而著称,即使是高精度推理也可能需要多个高性能 GPU。本文提出 GPTQ,一种基于近似二阶信息的新型一次性权重量化方法。GPTQ 可以在约4 个 GPU 小时内量化 1750 亿参数模型,将权重降至3-4 位,精度损失可忽略不计。这是首个能在单个 GPU 上运行 175B 模型的方法,在 A1...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero