面向连续空间推理的推理时扩展论文信息
标题: Towards Inference-time Scaling for Continuous Space Reasoning
作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari
发布日期: 2025-10-14
ArXiv链接: https://arxiv.org/abs/2510.12167
核心概述通过结合过程或结果奖励模型(PRM或ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理,使用COCONUT连续空间推理语言模型作为骨干。
研究系统评估了推理时扩展技术在连续空间推理任务中的表现,如科学计算、物理模拟和几何问题求解。与离散文本推理不同,连续空间推理涉及数值计算和空间关...
什么使上下文学习在数学推理中有效:理论分析
什么使上下文学习在数学推理中有效:理论分析论文概述本文是一篇关于推理能力的研究论文,由 Jiayu Liu 等6位研究者共同完成。
本文提供了首个关于上下文学习(In-Context Learning, ICL)在大语言模型数学推理中有效性的理论分析。虽然少样本示例有时会带来负面性能,其有效性仍不可靠,但这项工作证明了推理效能可以通过面向大语言模型的语义相似性和示例的推理稳定性来限定。基于这一理论基础,作者提出了 LMS3,一种示例选择方法,能够自适应地为不同大语言模型选择最相关的样本,并包含一种新颖的自动拒绝机制来过滤不合适的示例。该方法在多个数据集上实现了一致的改进,而现有方法在这些数据集上均已失败。
研究目标本研究的主要目标包括:
首次通过语义相似性和推理稳定性界定上下文学习推理效能的理论分析
证明理论框架适用于单样本和少样本场景
提出具有理论基础的 LMS3 示例选择方法
...