PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练

核心观点:当行业追逐千亿参数的大模型时,PleIAs用一个75B token的纯合成数据集证明:56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模,而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。 小模型的数据困境训练大模型和训练小模型需要不同的数据策略,但几乎所有开源数据集都是为大模型设计的。 大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型,这个策略行不通。小模型的容量有限,如果用未经筛选的互联网数据训练,它会把有限的容量浪费在噪声上。 SYNTH的设计理念是:与其给小模型喂”原始互联网”,不如给它喂”精心设计的练习题”。 从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据,而是从Wikipedia的58698篇精选文章出发...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero