面向连续空间推理的推理时扩展

Posted on 十月 14, 2025

面向连续空间推理的推理时扩展论文信息标题: Towards Inference-time Scaling for Continuous Space Reasoning 作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari 发布日期: 2025-10-14 ArXiv链接: https://arxiv.org/abs/2510.12167 核心概述通过结合过程或结果奖励模型(PRM或ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理,使用COCONUT连续空间推理语言模型作为骨干。研究系统评估了推理时扩展技术在连续空间推理任务中的表现,如科学计算、物理模拟和几何问题求解。与离散文本推理不同,连续空间推理涉及数值计算和空间关...

阅读全文

RSD: 奖励引导的推测解码实现高效LLM推理

Posted on 一月 1, 1970

Abstract论文提出Reward-Guided Speculative Decoding (RSD)，一种结合轻量级draft模型和强大target模型的高效推理框架。不同于传统推测解码严格保证无偏性，RSD引入可控偏置来优先选择高奖励输出。通过process reward model评估中间解码步骤，动态决定何时调用target模型，实现计算成本和输出质量的最佳平衡。在奥林匹克级别的推理任务上，相比标准解码方法FLOPs降低4.4倍，同时准确率提升+3.5（相比并行解码方法）。 Key Contributions 奖励引导的推测解码框架: 首次将process reward model引入推测解码，用奖励信号指导draft model生成可控偏置策略: 不追求严格无偏，而是引入可控偏置优先高奖励输出，实现质量-效率平衡动态target model调用: 基于中间步骤的rew...

阅读全文