Saguaro:投机性投机解码——消除推测开销的异步加速方案

Saguaro:投机性投机解码——消除推测开销的异步加速方案 ArXiv ID: 2510.13161 会议: ICLR 2026 发布日期: 2025年10月 摘要投机解码(Speculative Decoding)已成为加速LLM推理的标准方法:用小型draft模型快速生成候选token序列,再由大模型并行验证。然而,传统投机解码中”推测→验证”的过程本身是串行的——draft模型必须等待上一轮验证完成后,才能基于验证结果生成下一轮推测。本文提出投机性投机解码(Speculative Speculative Decoding, SSD),核心思想是:在验证进行的同时,让draft模型预测可能的验证结果,并为每种可能结果预先准备推测序列。当验证完成时,如果实际结果命中预测缓存(cache hit),则可以立即返回推测结果,完全消除推测延迟。由此提出的Saguaro算法,在开源推理...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero