s1: 简单的测试时扩展

Posted on 一月 31, 2025

s1: 简单的测试时扩展 ArXiv ID: 2501.19393作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto机构: Stanford University, University of Washington, Hugging Face发布日期: 2025-01-31模型: s1-32B (基于 Qwen2.5-32B-Instruct) 摘要OpenAI o1 等推理模型展示了测试时计算扩展的巨大潜力，但其训练方法（大规模强化学习）成本高昂且不透明。本文证明，仅用 1000 个精选问题进行监督微调，...

阅读全文

DeepSeek R1：首个开源推理大模型

Posted on 一月 20, 2025

DeepSeek R1：首个开源推理大模型发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948 概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型，采用纯强化学习 (RL) 训练方法，无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构，总参数量 671B，每次推理激活 37B 参数，支持 128K 上下文长度。这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...

阅读全文