RSD: 奖励引导的推测解码实现高效LLM推理

Abstract论文提出Reward-Guided Speculative Decoding (RSD),一种结合轻量级draft模型和强大target模型的高效推理框架。不同于传统推测解码严格保证无偏性,RSD引入可控偏置来优先选择高奖励输出。通过process reward model评估中间解码步骤,动态决定何时调用target模型,实现计算成本和输出质量的最佳平衡。在奥林匹克级别的推理任务上,相比标准解码方法FLOPs降低4.4倍,同时准确率提升+3.5(相比并行解码方法)。 Key Contributions 奖励引导的推测解码框架: 首次将process reward model引入推测解码,用奖励信号指导draft model生成 可控偏置策略: 不追求严格无偏,而是引入可控偏置优先高奖励输出,实现质量-效率平衡 动态target model调用: 基于中间步骤的rew...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero