PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练

Posted on 十一月 10, 2025

核心观点：当行业追逐千亿参数的大模型时，PleIAs用一个75B token的纯合成数据集证明：56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模，而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。小模型的数据困境训练大模型和训练小模型需要不同的数据策略，但几乎所有开源数据集都是为大模型设计的。大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型，这个策略行不通。小模型的容量有限，如果用未经筛选的互联网数据训练，它会把有限的容量浪费在噪声上。 SYNTH的设计理念是：与其给小模型喂”原始互联网”，不如给它喂”精心设计的练习题”。从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据，而是从Wikipedia的58698篇精选文章出发...

阅读全文