Expected Attention:基于未来查询分布估计的 KV Cache 压缩
ArXiv ID: 2510.00636作者: Alessio Devoto, Maximilian Jeblick, Simon Jegou机构: Sapienza University of Rome, NVIDIA发布日期: 2025 年 10 月代码库: KVPress
摘要KV Cache 压缩面临一个基本矛盾:判断 KV 对重要性需要看未来查询的注意力分布,但推理时未来查询尚未产生。Expected Attention 通过利用 LLM 激活值的分布特性,以闭式解估计每个 KV 对的期望注意力分数,实现无训练、高效的 KV Cache 压缩。该方法在 prefilling 和 decoding 阶段均可无缝运行,且在 LongBench 等基准上全面超越现有基线。
问题背景KV C...
面向连续空间推理的推理时扩展
面向连续空间推理的推理时扩展
ArXiv ID: 2510.12167作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari机构: Monash University, University of Melbourne发布日期: 2025-10-14
摘要通过结合过程或结果奖励模型(PRM 或 ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理。使用 COCONUT 连续空间推理语言模型作为骨干,研究系统评估了推理时扩展技术在科学计算、物理模拟和几何问题求解中的表现。改进的推理时扩展方法可以将准确率提升20-35%。
问题背景连续空间推理 vs 离散文本推理1234567891011121314离散文本推理(如数学证明):&...
SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索
SageAttention3: 基于微缩放 FP4 的 Attention 推理加速与 8-bit 训练探索
ArXiv ID: 2505.11594作者: Jintao Zhang, Jia Wei, Pengle Zhang et al.机构: Tsinghua University发布日期: 2025-05-16目标硬件: NVIDIA Blackwell GPU (RTX 50 系列)
摘要SageAttention3 是针对新一代 Blackwell GPU 的 FP4 Tensor Cores 设计的高效 attention 加速方案。该论文提出了针对推理场景的 FP4 量化 attention 机制,并首次探索了训练阶段的低 bit attention。在 RTX 5090 上实现了1038 TOPS的性能,相比最快的 FlashAttention 实现提升5 倍。...
更宽还是更深?通过自适应分支树搜索扩展 LLM 推理时计算
更宽还是更深?通过自适应分支树搜索扩展 LLM 推理时计算
ArXiv ID: 2503.04412作者: Yuichi Inoue, Kou Misaki, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba机构: Preferred Networks发布日期: 2025-03-06接收: ICLR 2025 Workshop, NeurIPS 2025 Spotlight
摘要在 LLM 推理时扩展(test-time scaling)中,一个核心问题是:应该探索更多不同的回答(更宽),还是深入改进已有回答(更深)?本文提出的 AB-MCTS(Adaptive Branching MCTS) 框架通过自适应地平衡这两种策略,在编码任务上显著优于重复采样和标准 MCTS 方法。
核心问题推理时扩展的两难选择123456...
s1: 简单的测试时扩展
s1: 简单的测试时扩展
ArXiv ID: 2501.19393作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto机构: Stanford University, University of Washington, Hugging Face发布日期: 2025-01-31模型: s1-32B (基于 Qwen2.5-32B-Instruct)
摘要OpenAI o1 等推理模型展示了测试时计算扩展的巨大潜力,但其训练方法(大规模强化学习)成本高昂且不透明。本文证明,仅用 1000 个精选问题进行监督微调,...
FlashAttention-3:通过异步和低精度实现快速准确的注意力机制
FlashAttention-3:通过异步和低精度实现快速准确的注意力机制
ArXiv ID: 2407.08608作者: Jay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani, Tri Dao机构: Princeton University, NVIDIA发布日期: 2024-07-11硬件目标: NVIDIA H100 (Hopper) GPU
摘要注意力机制是 Transformer 架构的核心,也是大语言模型和长上下文应用的性能瓶颈。FlashAttention-2 在 H100 GPU 上仅实现了 35% 的利用率,远未充分发挥硬件潜力。
本文提出的 FlashAttention-3 通过三项关键技术,在 H100 GPU 上实现了75% 的硬件利用率(FP16 达 740 TFLOP...
QServe:用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计
QServe:用于高效 LLM 服务的 W4A8KV4 量化与系统协同设计
ArXiv ID: 2405.04532作者: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han机构: MIT Han Lab, NVIDIA, MIT-IBM Watson AI Lab发布日期: 2024-05-07
摘要量化可以加速大语言模型推理。在 INT8 量化之外,研究社区正在积极探索更低精度如 INT4。然而,现有 INT4 量化技术仅能加速低批量、边缘 LLM 推理,无法在大批量、基于云的 LLM 服务中提供性能提升。本文发现了一个关键问题:现有的 INT4 量化方法在 GPU 上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,本文...
SmoothQuant:用于大语言模型的准确高效训练后量化
SmoothQuant:用于大语言模型的准确高效训练后量化
ArXiv ID: 2211.10438作者: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han机构: MIT Han Lab, NVIDIA发表: ICML 2023引用量: 3000+ (截至 2025 年)
摘要大语言模型(LLM)的推理成本高企,量化是降低部署成本的关键技术。然而,LLM 的激活存在极端离群值,使得 INT8 量化会导致不可接受的精度下降。本文提出的 SmoothQuant 通过数学上的等价变换,将量化难度从激活迁移到权重,实现了无需训练的 W8A8 量化,在保持精度的同时实现 1.56 倍推理加速和 2 倍内存减少。
问题背景LLM 量化的挑战123456789101112131415FP16 推理...
GPTQ:用于生成式预训练 Transformer 的准确训练后量化
GPTQ:用于生成式预训练 Transformer 的准确训练后量化
ArXiv ID: 2210.17323作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh机构: IST Austria, ETH Zurich, University of Amsterdam发表: ICLR 2023引用量: 2500+ (截至 2025 年)
摘要生成式预训练 Transformer 模型(如 GPT、OPT)因其庞大的规模而著称,即使是高精度推理也可能需要多个高性能 GPU。本文提出 GPTQ,一种基于近似二阶信息的新型一次性权重量化方法。GPTQ 可以在约4 个 GPU 小时内量化 1750 亿参数模型,将权重降至3-4 位,精度损失可忽略不计。这是首个能在单个 GPU 上运行 175B 模型的方法,在 A1...