推理时计算扩展：比扩展模型参数更有效的优化策略

Posted on 八月 6, 2024

Abstract让大语言模型（LLM）能够通过使用更多推理时计算来改进输出，是构建能够在开放式自然语言任务上持续自我改进的通用agent的关键一步。本文研究了LLM推理时计算的扩展规律，重点回答一个问题：如果允许LLM使用固定但非平凡的推理时计算量，它能在挑战性提示上将性能提升多少？我们发现，在许多任务上，适当地扩展推理时计算可以比扩展模型参数更有效地提升性能。这一发现为LLM的发展开辟了新的方向——不是一味追求更大的模型，而是让模型学会如何更好地”思考”。 Key Contributions 推理时计算扩展定律：首次系统性地研究了LLM推理时计算的扩展规律，揭示了在固定模型参数下，增加推理时计算如何影响性能与参数扩展的对比：通过大量实验证明，在许多任务上，扩展推理时计算比扩展模型参数更有效且成本更低多种扩展策略对比：评估了best-of-N采样、beam search、sequ...

阅读全文

RSD: 奖励引导的推测解码实现高效LLM推理

Posted on 一月 1, 1970

Abstract论文提出Reward-Guided Speculative Decoding (RSD)，一种结合轻量级draft模型和强大target模型的高效推理框架。不同于传统推测解码严格保证无偏性，RSD引入可控偏置来优先选择高奖励输出。通过process reward model评估中间解码步骤，动态决定何时调用target模型，实现计算成本和输出质量的最佳平衡。在奥林匹克级别的推理任务上，相比标准解码方法FLOPs降低4.4倍，同时准确率提升+3.5（相比并行解码方法）。 Key Contributions 奖励引导的推测解码框架: 首次将process reward model引入推测解码，用奖励信号指导draft model生成可控偏置策略: 不追求严格无偏，而是引入可控偏置优先高奖励输出，实现质量-效率平衡动态target model调用: 基于中间步骤的rew...

阅读全文