面向连续空间推理的推理时扩展

Posted on 十月 14, 2025

面向连续空间推理的推理时扩展 ArXiv ID: 2510.12167作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari机构: Monash University, University of Melbourne发布日期: 2025-10-14 摘要通过结合过程或结果奖励模型（PRM 或 ORM）重排序的多样本生成，推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理。使用 COCONUT 连续空间推理语言模型作为骨干，研究系统评估了推理时扩展技术在科学计算、物理模拟和几何问题求解中的表现。改进的推理时扩展方法可以将准确率提升20-35%。问题背景连续空间推理 vs 离散文本推理1234567891011121314离散文本推理（如数学证明）：&...

阅读全文

更宽还是更深？通过自适应分支树搜索扩展 LLM 推理时计算

Posted on 三月 6, 2025

更宽还是更深？通过自适应分支树搜索扩展 LLM 推理时计算 ArXiv ID: 2503.04412作者: Yuichi Inoue, Kou Misaki, Yuki Imajuku, So Kuroki, Taishi Nakamura, Takuya Akiba机构: Preferred Networks发布日期: 2025-03-06接收: ICLR 2025 Workshop, NeurIPS 2025 Spotlight 摘要在 LLM 推理时扩展（test-time scaling）中，一个核心问题是：应该探索更多不同的回答（更宽），还是深入改进已有回答（更深）？本文提出的 AB-MCTS（Adaptive Branching MCTS）框架通过自适应地平衡这两种策略，在编码任务上显著优于重复采样和标准 MCTS 方法。核心问题推理时扩展的两难选择123456...

阅读全文

s1: 简单的测试时扩展

Posted on 一月 31, 2025

s1: 简单的测试时扩展 ArXiv ID: 2501.19393作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto机构: Stanford University, University of Washington, Hugging Face发布日期: 2025-01-31模型: s1-32B (基于 Qwen2.5-32B-Instruct) 摘要OpenAI o1 等推理模型展示了测试时计算扩展的巨大潜力，但其训练方法（大规模强化学习）成本高昂且不透明。本文证明，仅用 1000 个精选问题进行监督微调，...

阅读全文