Abstract让大语言模型(LLM)能够通过使用更多推理时计算来改进输出,是构建能够在开放式自然语言任务上持续自我改进的通用agent的关键一步。本文研究了LLM推理时计算的扩展规律,重点回答一个问题:如果允许LLM使用固定但非平凡的推理时计算量,它能在挑战性提示上将性能提升多少?我们发现,在许多任务上,适当地扩展推理时计算可以比扩展模型参数更有效地提升性能。这一发现为LLM的发展开辟了新的方向——不是一味追求更大的模型,而是让模型学会如何更好地”思考”。
Key Contributions
推理时计算扩展定律:首次系统性地研究了LLM推理时计算的扩展规律,揭示了在固定模型参数下,增加推理时计算如何影响性能
与参数扩展的对比:通过大量实验证明,在许多任务上,扩展推理时计算比扩展模型参数更有效且成本更低
多种扩展策略对比:评估了best-of-N采样、beam search、sequ...
RSD: 奖励引导的推测解码实现高效LLM推理
Abstract论文提出Reward-Guided Speculative Decoding (RSD),一种结合轻量级draft模型和强大target模型的高效推理框架。不同于传统推测解码严格保证无偏性,RSD引入可控偏置来优先选择高奖励输出。通过process reward model评估中间解码步骤,动态决定何时调用target模型,实现计算成本和输出质量的最佳平衡。在奥林匹克级别的推理任务上,相比标准解码方法FLOPs降低4.4倍,同时准确率提升+3.5(相比并行解码方法)。
Key Contributions
奖励引导的推测解码框架: 首次将process reward model引入推测解码,用奖励信号指导draft model生成
可控偏置策略: 不追求严格无偏,而是引入可控偏置优先高奖励输出,实现质量-效率平衡
动态target model调用: 基于中间步骤的rew...