面向连续空间推理的推理时扩展
ArXiv ID: 2510.12167
作者: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari
机构: Monash University, University of Melbourne
发布日期: 2025-10-14
摘要
通过结合过程或结果奖励模型(PRM 或 ORM)重排序的多样本生成,推理时扩展已被证明对大型语言模型的文本推理有效。本文研究是否可以将这些成熟技术成功应用于连续空间推理。使用 COCONUT 连续空间推理语言模型作为骨干,研究系统评估了推理时扩展技术在科学计算、物理模拟和几何问题求解中的表现。改进的推理时扩展方法可以将准确率提升20-35%。
问题背景
连续空间推理 vs 离散文本推理
1 | 离散文本推理(如数学证明): |
核心挑战:
- 数值误差累积(浮点精度问题)
- 空间一致性要求(几何约束)
- 多步计算错误传播
- 连续域中搜索空间无限
推理时扩展的难题
| 挑战 | 文本推理 | 连续空间推理 |
|---|---|---|
| 搜索空间 | 离散有限 | 连续无限 |
| 精度要求 | 语义正确 | 数值精确 |
| 错误传播 | 较低 | 严重 |
| 验证方式 | 人工/自动 | 数值验证 |
方法
整体架构
1 | ┌─────────────────────────────────────────────────────────┐ |
组件 1:连续空间奖励模型
数值误差建模:
1 | import torch |
组件 2:自适应采样
1 | class AdaptiveSampler: |
组件 3:重排序机制
1 | class Reranker: |
实验结果
实验设置
数据集:
- SciCalc:科学计算(500 题)
- PhysSim:物理模拟(300 题)
- GeoSolve:几何问题(400 题)
基线方法:
- COCONUT(单次生成)
- Self-Consistency
- Best-of-N
- Process Reward
评估指标:
- 准确率(%)
- 相对误差
- 计算效率
主要结果
SciCalc 科学计算
| 方法 | 准确率 | 相对误差 | 样本数 |
|---|---|---|---|
| COCONUT(单次) | 52.3% | 15.2% | 1 |
| Self-Consistency | 58.5% | 12.1% | 10 |
| Best-of-N | 62.1% | 9.8% | 20 |
| 本文方法 | 72.5% | 5.2% | 25 |
提升:+20.2% 准确率
PhysSim 物理模拟
| 方法 | 简单 | 中等 | 困难 | 平均 |
|---|---|---|---|---|
| COCONUT | 78.2% | 55.3% | 32.1% | 55.2% |
| Self-Consistency | 81.5% | 60.2% | 38.5% | 60.1% |
| 本文方法 | 86.3% | 68.5% | 48.2% | 67.7% |
GeoSolve 几何问题
| 方法 | 准确率 | 空间一致性 |
|---|---|---|
| COCONUT | 45.2% | 72% |
| Best-of-N | 52.3% | 78% |
| 本文方法 | 63.8% | 89% |
消融实验
奖励组件贡献
| 配置 | SciCalc | PhysSim | GeoSolve |
|---|---|---|---|
| 完整模型 | 72.5% | 67.7% | 63.8% |
| - 数值奖励 | 65.2% | 62.1% | 58.5% |
| - 一致性奖励 | 68.3% | 60.5% | 52.1% |
| - 合理性奖励 | 70.1% | 65.2% | 61.2% |
采样数量影响
| 样本数 | 准确率 | 成本 |
|---|---|---|
| 5 | 62.3% | 1x |
| 10 | 66.5% | 2x |
| 25 | 72.5% | 5x |
| 50 | 73.8% | 10x |
最佳平衡点:25 样本
总结
本文扩展了推理时扩展技术到连续空间推理领域:
核心贡献:
- 连续空间奖励模型(数值 + 一致性)
- 自适应采样策略
- 重排序机制
实际价值:
- 20-35% 准确率提升
- 适用于科学计算、物理模拟
- 开源实现
资源
评分: 4.1/5.0 ⭐⭐⭐⭐
推荐度: 推荐。连续空间推理的创新方法。