面向连续空间推理的推理时扩展
ArXiv ID: 2510.12167作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari机构: Monash University, University of Melbourne发布日期: 2025-10-14
摘要通过结合过程或结果奖励模型(PRM 或 ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理。使用 COCONUT 连续空间推理语言模型作为骨干,研究系统评估了推理时扩展技术在科学计算、物理模拟和几何问题求解中的表现。改进的推理时扩展方法可以将准确率提升20-35%。
问题背景连续空间推理 vs 离散文本推理1234567891011121314离散文本推理(如数学证明):&...
测试时扩展在知识密集型任务中尚不有效
测试时扩展在知识密集型任务中尚不有效
ArXiv ID: 2509.06861作者: James Xu Zhao, Bryan Hooi, See-Kiong Ng机构: National University of Singapore发布日期: 2025-09-08
摘要测试时扩展通过允许模型生成长推理链来增加推理时计算,在许多领域展现出强大性能。然而,本研究表明,这种方法对于需要高事实准确性和低幻觉率的知识密集型任务尚不有效。研究系统评估了测试时扩展技术在开放域问答、事实核查和专业领域查询上的表现,发现虽然测试时扩展能提升逻辑推理能力,但在需要准确事实知识的任务上效果有限,甚至可能因为过度推理而引入更多幻觉。
问题背景测试时扩展的成功与局限123456789101112131415161718192021测试时扩展的适用性:擅长领域 ✓ ...
s1: 简单的测试时扩展
s1: 简单的测试时扩展
ArXiv ID: 2501.19393作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto机构: Stanford University, University of Washington, Hugging Face发布日期: 2025-01-31模型: s1-32B (基于 Qwen2.5-32B-Instruct)
摘要OpenAI o1 等推理模型展示了测试时计算扩展的巨大潜力,但其训练方法(大规模强化学习)成本高昂且不透明。本文证明,仅用 1000 个精选问题进行监督微调,...