Saguaro：投机性投机解码——消除推测开销的异步加速方案

Posted on 二月 2, 2026

Saguaro：投机性投机解码——消除推测开销的异步加速方案

ArXiv ID: 2510.13161

会议: ICLR 2026

发布日期: 2025年10月

摘要

投机解码（Speculative Decoding）已成为加速LLM推理的标准方法：用小型draft模型快速生成候选token序列，再由大模型并行验证。然而，传统投机解码中”推测→验证”的过程本身是串行的——draft模型必须等待上一轮验证完成后，才能基于验证结果生成下一轮推测。本文提出投机性投机解码（Speculative Speculative Decoding, SSD），核心思想是：在验证进行的同时，让draft模型预测可能的验证结果，并为每种可能结果预先准备推测序列。当验证完成时，如果实际结果命中预测缓存（cache hit），则可以立即返回推测结果，完全消除推测延迟。由此提出的Saguaro算法，在开源推理引擎上实现了比标准投机解码快2倍、比自回归解码快5倍的速度。

核心创新

1. 从串行到异步的范式转换

传统投机解码 (Sequential):
验证[t] → 等待 → 推测[t+1] → 等待 → 验证[t+1] → ...
时间: T_verify + T_speculate (串行)

Saguaro (Asynchronous):
验证[t] ──────────────────→ 结果
    ↑                         ↓
    │  推测[t+1|outcome_1] ──→ 缓存命中? → 立即返回
    │  推测[t+1|outcome_2] ──→ 缓存中备用
    │  ...
时间: max(T_verify, T_speculate) (并行)

SSD的核心在于让draft模型投机性地预测验证结果。具体来说：

draft模型不等待验证完成，而是枚举可能的验证结果（接受1个token、接受2个token等）
为每种可能结果预先生成推测序列
验证完成后，查找缓存中是否有匹配的推测

2. 缓存命中率分析

论文从理论上分析了缓存命中概率的关键因素：

p_hit,p：使用主draft模型时的命中率
p_hit,b：使用备份draft模型时的命中率
关键定理：SSD严格不慢于标准SD——当主backup均设为同一个draft模型时，SSD退化为SD；而只要缓存命中概率>0，SSD就严格更快

3. Saguaro算法设计

Saguaro解决了SSD面临的三个关键挑战：

如何高效枚举验证结果：使用token tree结构，紧凑表示多种可能的验证outcome
如何决定为哪些结果准备推测：基于draft模型的置信度排序
cache miss时的快速恢复：保留一个快速备份speculator，在miss时立即切换

性能评估

Saguaro的加速效果：

对比方法	加速比
vs 自回归解码	最高5x
vs 标准投机解码	最高2x
vs EAGLE基线	显著提升

组合优势：Saguaro可与现有方法（EAGLE、token tree推测）正交组合，获得叠加加速。

与现有方法的关系

方法	核心思路	与Saguaro关系
标准SD	小模型推测+大模型验证	Saguaro的基础
EAGLE	特征级别的draft模型	可作为Saguaro的draft
Medusa	多头并行解码	互补方向
SWIFT	自推测（层跳跃）	不同draft策略

实战价值

适用场景：

延迟敏感的实时推理服务
draft模型推测速度远快于大模型验证的配置
已部署投机解码、希望进一步优化的系统

注意事项：

需要额外的GPU内存存储推测缓存
缓存命中率受draft模型质量影响
在GPU利用率已经很高的大batch场景中收益递减

个人评价

Saguaro的创新点非常巧妙——既然投机解码的思想是”利用闲置计算资源”，那为什么不更进一步，在验证期间也利用闲置的draft模型？这种”投机的投机”形成了一个优雅的递归结构。ICLR 2026的接收说明了该方法的理论贡献。从实用角度看，它与现有方法的正交组合能力是最大亮点——不需要替换现有的draft模型或验证逻辑，只需在外层包装异步调度。

评分: 4.35/5.0

论文: https://arxiv.org/abs/2510.13161

OpenReview: https://openreview.net/forum?id=aL1Wnml9Ef