s1: 简单的测试时扩展

Key Contributions

  • 引入了结合 budget forcing 技术的简单测试时扩展方法
  • 在竞赛数学题上相比 o1-preview 实现了27%的性能提升
  • 证明了使用极少训练数据(1000个问题)的有效性
  • 通过扩展在 AIME24 上实现从50%到57%的准确率提升
  • 展示了测试时计算可以通过 budget forcing 有效控制
  • 应用于 Qwen2.5-32B-Instruct 基础模型

Methodology

s1 方法使用 budget forcing(预算强制)技术通过操控模型的内部思考过程来控制测试时计算。在使用精心挑选的1000个问题数据集进行监督微调后,模型学会了有效分配推理时的计算资源。budget forcing 机制允许对计算-性能权衡进行持续控制。

Experiments

主要在包括 AIME24 在内的数学竞赛问题上进行评估。s1-32B 模型(基于 Qwen2.5-32B-Instruct)在竞赛数学题上的性能超过 o1-preview 多达27%。展示了有效的扩展特性,通过增加测试时预算,在 AIME24 上的准确率从50%提升到57%。结果表明简单的方法可以与复杂的推理系统相媲美。

Evaluation Notes

这是一项卓越的工作,展示了简单的测试时扩展方法可以匹敌甚至超越像 o1 这样的复杂系统。仅使用1000个训练样本就实现了相比 o1-preview 27%的性能提升,令人印象深刻。budget forcing 为推理计算提供了实用的控制手段。与当前业界测试时计算扩展的趋势高度相关。作为2025年1月发表的论文,鉴于其出色的结果,预计将获得大量引用。

Resources

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero