概述Qwen3是阿里云通义千问团队于2025年4月28日发布的第三代大语言模型系列,包含从0.6B到235B参数的多个变体,支持密集和混合专家(MoE)两种架构。该系列模型的核心创新在于统一的混合推理框架,能够在思考模式(用于复杂多步推理)和非思考模式(用于快速响应)之间无缝切换,无需在不同模型间切换。Qwen3在36万亿tokens数据上进行预训练,是前代Qwen2.5的两倍,并将多语言支持从29种扩展到119种语言和方言。
核心创新Qwen3最突出的创新是其统一的混合推理框架。传统方法需要为不同任务部署不同的模型(如ChatGPT用于通用对话,o1用于复杂推理),而Qwen3将这两种能力整合到单一模型中。通过动态思考预算机制,用户可以根据任务复杂度自适应地分配计算资源,在延迟和性能之间找到最佳平衡点。
这种设计理念的实现依赖于Qwen3创新的训练策略。团队在预训练阶段使用了36万...
DeepSeek R1:首个开源推理大模型
DeepSeek R1:首个开源推理大模型
发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948
概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型,采用纯强化学习 (RL) 训练方法,无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构,总参数量 671B,每次推理激活 37B 参数,支持 128K 上下文长度。
这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。
核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...