PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练

Posted on 十一月 10, 2025

核心观点：当行业追逐千亿参数的大模型时，PleIAs用一个75B token的纯合成数据集证明：56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模，而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。

小模型的数据困境

训练大模型和训练小模型需要不同的数据策略，但几乎所有开源数据集都是为大模型设计的。

大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型，这个策略行不通。小模型的容量有限，如果用未经筛选的互联网数据训练，它会把有限的容量浪费在噪声上。

SYNTH的设计理念是：与其给小模型喂”原始互联网”，不如给它喂”精心设计的练习题”。

从5万篇Wikipedia到750亿Token

SYNTH的构建过程非常独特。它不是从互联网抓取数据，而是从Wikipedia的58698篇精选文章出发，通过一套合成管道将其放大到750亿token。

这个放大不是简单的改写或同义替换。它模拟了RAG（检索增强生成）应用的工作模式：

段落选择：从原始文章中选择语义一致的段落作为”知识库”
查询生成：生成带随机化约束的查询，模拟用户的多样化提问方式
推理回答生成：为每个查询生成包含中间推理步骤的回答
负面查询：专门生成”知识库中没有答案”的查询，训练模型说”我不知道”

最低放大倍数是100倍，对于近期事件和自我认知相关的知识，放大倍数高达10000倍。这种不均匀放大确保模型在关键知识点上得到充分训练。

推理轨迹：不是附加功能，而是核心设计

SYNTH与其他合成数据集最大的区别在于：所有回答都附带中间推理轨迹。

这不是后期添加的Chain-of-Thought，而是数据集从设计之初就内嵌的结构。每条数据的格式类似于：

1
2
3

<query>问题内容</query>
<reasoning>中间推理步骤...</reasoning>
<answer>最终回答</answer>

这种设计使得即使是56M参数的小模型也能学会结构化推理。传统的做法是先训练一个大模型，然后蒸馏出小模型的推理能力。SYNTH证明了另一条路：用精心设计的推理数据从零训练，同样可以在小模型上实现推理能力。

两个令人印象深刻的模型

基于SYNTH训练的两个模型展示了数据集的威力：

Baguettotron（321M参数）

80层深度——目前同尺寸范围内最深的SLM之一
在非代码工业基准上超越大多数同尺寸模型
在记忆、通用推理、数学和检索任务上达到前所未有的平衡

Monad（56M参数）

64层深度
被称为”最小的可行语言模型”
在MMLU等标准评估上达到同尺寸SOTA

两个模型都在200B token上训练，总计算成本不到1000个H100小时。这个训练效率对于学术研究者和资源有限的团队来说非常友好。

完全开放：从种子到模型

SYNTH的开放程度在合成数据集中是罕见的：

种子数据：CC-By-SA许可的Wikipedia文章
生成模型：使用允许输出复用的开放模型
最终数据：CC-By-SA许可，完全可再分发
训练模型：Baguettotron和Monad均公开

这与Cosmopedia等合成数据集形成对比。很多合成数据集虽然公开了数据，但生成过程使用了闭源模型（如GPT-4），导致数据的法律状态存在灰色地带。SYNTH从源头解决了这个问题。

适用场景和局限

适合的场景：

训练350M参数以下的小型推理模型
边缘设备、移动端等资源受限场景
模型可解释性和技能习得研究
快速原型开发和教学实验

不适合的场景：

代码生成（SYNTH有意排除了代码内容）
训练超过几十亿参数的大模型（难度校准针对小模型）
需要最新实时知识的应用（基于固定的Wikipedia快照）

实际使用

from datasets import load_dataset

# 流式加载（推荐，数据集较大）
dataset = load_dataset("PleIAs/SYNTH", split="train", streaming=True)

# 按语言过滤
en_data = dataset.filter(lambda x: x.get('language') == 'en')

for i, sample in enumerate(en_data):
    if i >= 3:
        break
    print(sample['text'][:300])
    print("---")

对行业的启示

SYNTH代表了AI开发的一个重要趋势：不是所有任务都需要千亿参数的大模型。对于很多实际应用——文档检索、信息提取、简单推理——一个精心训练的小模型可能就够了。

关键在于数据质量。SYNTH证明了用精心设计的合成数据，可以在极小的模型上实现令人印象深刻的能力。这为”AI普惠化”提供了一条实际可行的路径。

数据集链接: https://huggingface.co/datasets/PleIAs/SYNTH

创建机构: PleIAs & AI Alliance

适合场景: 小型推理模型预训练、边缘设备AI、可解释性研究

质量评分: 4.5/5.0 | CC-By-SA | 7965万样本，750亿token，8种语言

核心优势: 推理轨迹内嵌、完全开放许可、为小模型优化、极高训练效率