PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练

Posted on 十一月 10, 2025

核心观点：当行业追逐千亿参数的大模型时，PleIAs用一个75B token的纯合成数据集证明：56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模，而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。小模型的数据困境训练大模型和训练小模型需要不同的数据策略，但几乎所有开源数据集都是为大模型设计的。大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型，这个策略行不通。小模型的容量有限，如果用未经筛选的互联网数据训练，它会把有限的容量浪费在噪声上。 SYNTH的设计理念是：与其给小模型喂”原始互联网”，不如给它喂”精心设计的练习题”。从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据，而是从Wikipedia的58698篇精选文章出发...

阅读全文

Qwen3：阿里云通义千问混合推理大模型

Posted on 四月 28, 2025

概述Qwen3是阿里云通义千问团队于2025年4月28日发布的第三代大语言模型系列，包含从0.6B到235B参数的多个变体，支持密集和混合专家(MoE)两种架构。该系列模型的核心创新在于统一的混合推理框架，能够在思考模式(用于复杂多步推理)和非思考模式(用于快速响应)之间无缝切换，无需在不同模型间切换。Qwen3在36万亿tokens数据上进行预训练，是前代Qwen2.5的两倍，并将多语言支持从29种扩展到119种语言和方言。核心创新Qwen3最突出的创新是其统一的混合推理框架。传统方法需要为不同任务部署不同的模型(如ChatGPT用于通用对话，o1用于复杂推理)，而Qwen3将这两种能力整合到单一模型中。通过动态思考预算机制，用户可以根据任务复杂度自适应地分配计算资源，在延迟和性能之间找到最佳平衡点。这种设计理念的实现依赖于Qwen3创新的训练策略。团队在预训练阶段使用了36万...

阅读全文