PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练

Posted on 十一月 10, 2025

核心观点：当行业追逐千亿参数的大模型时，PleIAs用一个75B token的纯合成数据集证明：56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模，而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。小模型的数据困境训练大模型和训练小模型需要不同的数据策略，但几乎所有开源数据集都是为大模型设计的。大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型，这个策略行不通。小模型的容量有限，如果用未经筛选的互联网数据训练，它会把有限的容量浪费在噪声上。 SYNTH的设计理念是：与其给小模型喂”原始互联网”，不如给它喂”精心设计的练习题”。从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据，而是从Wikipedia的58698篇精选文章出发...

阅读全文

Orca-AgentInstruct: 微软百万级合成指令数据集

Posted on 十月 15, 2025

AgentInstruct：当AI学会自己批改作业核心观点：微软用多代理协作重新定义了合成数据的质量上限，这不是简单的”让GPT生成训练数据”，而是一套完整的AI自我进化系统。 105万条指令数据，成本几乎为零，质量接近人工标注——微软Orca-AgentInstruct的数据让人重新思考：我们真的还需要花大价钱雇人标数据吗？为什么AgentInstruct不是”又一个合成数据集”市面上合成数据集多如牛毛，但大多数都是”prompt engineering的产物”：写个好prompt，调用GPT-4，批量生成，完事。这种做法有个致命问题——垃圾进，垃圾出。 AgentInstruct的野心更大：它想让AI学会自己质检、自己迭代、自己优化。三个代理角色分工明确：内容转换代理：把网络上的非结构化知识提取成结构化信息（相当于AI版的知识图谱工程师）种子指令生成代理：基于知识生成多...

阅读全文