Saguaro:投机性投机解码——消除推测开销的异步加速方案
ArXiv ID: 2510.13161
会议: ICLR 2026
发布日期: 2025年10月
摘要
投机解码(Speculative Decoding)已成为加速LLM推理的标准方法:用小型draft模型快速生成候选token序列,再由大模型并行验证。然而,传统投机解码中”推测→验证”的过程本身是串行的——draft模型必须等待上一轮验证完成后,才能基于验证结果生成下一轮推测。本文提出投机性投机解码(Speculative Speculative Decoding, SSD),核心思想是:在验证进行的同时,让draft模型预测可能的验证结果,并为每种可能结果预先准备推测序列。当验证完成时,如果实际结果命中预测缓存(cache hit),则可以立即返回推测结果,完全消除推测延迟。由此提出的Saguaro算法,在开源推理引擎上实现了比标准投机解码快2倍、比自回归解码快5倍的速度。
核心创新
1. 从串行到异步的范式转换
1 | 传统投机解码 (Sequential): |
SSD的核心在于让draft模型投机性地预测验证结果。具体来说:
- draft模型不等待验证完成,而是枚举可能的验证结果(接受1个token、接受2个token等)
- 为每种可能结果预先生成推测序列
- 验证完成后,查找缓存中是否有匹配的推测
2. 缓存命中率分析
论文从理论上分析了缓存命中概率的关键因素:
- p_hit,p:使用主draft模型时的命中率
- p_hit,b:使用备份draft模型时的命中率
- 关键定理:SSD严格不慢于标准SD——当主backup均设为同一个draft模型时,SSD退化为SD;而只要缓存命中概率>0,SSD就严格更快
3. Saguaro算法设计
Saguaro解决了SSD面临的三个关键挑战:
- 如何高效枚举验证结果:使用token tree结构,紧凑表示多种可能的验证outcome
- 如何决定为哪些结果准备推测:基于draft模型的置信度排序
- cache miss时的快速恢复:保留一个快速备份speculator,在miss时立即切换
性能评估
Saguaro的加速效果:
| 对比方法 | 加速比 |
|---|---|
| vs 自回归解码 | 最高5x |
| vs 标准投机解码 | 最高2x |
| vs EAGLE基线 | 显著提升 |
组合优势:Saguaro可与现有方法(EAGLE、token tree推测)正交组合,获得叠加加速。
与现有方法的关系
| 方法 | 核心思路 | 与Saguaro关系 |
|---|---|---|
| 标准SD | 小模型推测+大模型验证 | Saguaro的基础 |
| EAGLE | 特征级别的draft模型 | 可作为Saguaro的draft |
| Medusa | 多头并行解码 | 互补方向 |
| SWIFT | 自推测(层跳跃) | 不同draft策略 |
实战价值
适用场景:
- 延迟敏感的实时推理服务
- draft模型推测速度远快于大模型验证的配置
- 已部署投机解码、希望进一步优化的系统
注意事项:
- 需要额外的GPU内存存储推测缓存
- 缓存命中率受draft模型质量影响
- 在GPU利用率已经很高的大batch场景中收益递减
个人评价
Saguaro的创新点非常巧妙——既然投机解码的思想是”利用闲置计算资源”,那为什么不更进一步,在验证期间也利用闲置的draft模型?这种”投机的投机”形成了一个优雅的递归结构。ICLR 2026的接收说明了该方法的理论贡献。从实用角度看,它与现有方法的正交组合能力是最大亮点——不需要替换现有的draft模型或验证逻辑,只需在外层包装异步调度。
评分: 4.35/5.0
论文: https://arxiv.org/abs/2510.13161
OpenReview: https://openreview.net/forum?id=aL1Wnml9Ef