Saguaro:投机性投机解码——消除推测开销的异步加速方案

Saguaro:投机性投机解码——消除推测开销的异步加速方案

ArXiv ID: 2510.13161

会议: ICLR 2026

发布日期: 2025年10月

摘要

投机解码(Speculative Decoding)已成为加速LLM推理的标准方法:用小型draft模型快速生成候选token序列,再由大模型并行验证。然而,传统投机解码中”推测→验证”的过程本身是串行的——draft模型必须等待上一轮验证完成后,才能基于验证结果生成下一轮推测。本文提出投机性投机解码(Speculative Speculative Decoding, SSD),核心思想是:在验证进行的同时,让draft模型预测可能的验证结果,并为每种可能结果预先准备推测序列。当验证完成时,如果实际结果命中预测缓存(cache hit),则可以立即返回推测结果,完全消除推测延迟。由此提出的Saguaro算法,在开源推理引擎上实现了比标准投机解码快2倍、比自回归解码快5倍的速度。

核心创新

1. 从串行到异步的范式转换

1
2
3
4
5
6
7
8
9
10
11
传统投机解码 (Sequential):
验证[t] → 等待 → 推测[t+1] → 等待 → 验证[t+1] → ...
时间: T_verify + T_speculate (串行)

Saguaro (Asynchronous):
验证[t] ──────────────────→ 结果
↑ ↓
│ 推测[t+1|outcome_1] ──→ 缓存命中? → 立即返回
│ 推测[t+1|outcome_2] ──→ 缓存中备用
│ ...
时间: max(T_verify, T_speculate) (并行)

SSD的核心在于让draft模型投机性地预测验证结果。具体来说:

  • draft模型不等待验证完成,而是枚举可能的验证结果(接受1个token、接受2个token等)
  • 为每种可能结果预先生成推测序列
  • 验证完成后,查找缓存中是否有匹配的推测

2. 缓存命中率分析

论文从理论上分析了缓存命中概率的关键因素:

  • p_hit,p:使用主draft模型时的命中率
  • p_hit,b:使用备份draft模型时的命中率
  • 关键定理:SSD严格不慢于标准SD——当主backup均设为同一个draft模型时,SSD退化为SD;而只要缓存命中概率>0,SSD就严格更快

3. Saguaro算法设计

Saguaro解决了SSD面临的三个关键挑战:

  1. 如何高效枚举验证结果:使用token tree结构,紧凑表示多种可能的验证outcome
  2. 如何决定为哪些结果准备推测:基于draft模型的置信度排序
  3. cache miss时的快速恢复:保留一个快速备份speculator,在miss时立即切换

性能评估

Saguaro的加速效果:

对比方法 加速比
vs 自回归解码 最高5x
vs 标准投机解码 最高2x
vs EAGLE基线 显著提升

组合优势:Saguaro可与现有方法(EAGLE、token tree推测)正交组合,获得叠加加速。

与现有方法的关系

方法 核心思路 与Saguaro关系
标准SD 小模型推测+大模型验证 Saguaro的基础
EAGLE 特征级别的draft模型 可作为Saguaro的draft
Medusa 多头并行解码 互补方向
SWIFT 自推测(层跳跃) 不同draft策略

实战价值

适用场景

  • 延迟敏感的实时推理服务
  • draft模型推测速度远快于大模型验证的配置
  • 已部署投机解码、希望进一步优化的系统

注意事项

  • 需要额外的GPU内存存储推测缓存
  • 缓存命中率受draft模型质量影响
  • 在GPU利用率已经很高的大batch场景中收益递减

个人评价

Saguaro的创新点非常巧妙——既然投机解码的思想是”利用闲置计算资源”,那为什么不更进一步,在验证期间也利用闲置的draft模型?这种”投机的投机”形成了一个优雅的递归结构。ICLR 2026的接收说明了该方法的理论贡献。从实用角度看,它与现有方法的正交组合能力是最大亮点——不需要替换现有的draft模型或验证逻辑,只需在外层包装异步调度。


评分: 4.35/5.0

论文: https://arxiv.org/abs/2510.13161

OpenReview: https://openreview.net/forum?id=aL1Wnml9Ef

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero