RSD: 奖励引导的推测解码实现高效 LLM 推理

Posted on 一月 31, 2025

RSD: 奖励引导的推测解码实现高效 LLM 推理 ArXiv ID: 2501.19324作者: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong发布日期: 2025-01-31分类: inference, speculative-decoding, reasoning 摘要论文提出 Reward-Guided Speculative Decoding (RSD)，一种结合轻量级 draft 模型和强大 target 模型的高效推理框架。不同于传统推测解码严格保证无偏性，RSD 引入可控偏置来优先选择高奖励输出。通过 process reward model 评估中间解码步骤，动态决定何时调用 target 模型，实现计算...

阅读全文