PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练

核心观点:当行业追逐千亿参数的大模型时,PleIAs用一个75B token的纯合成数据集证明:56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模,而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。

小模型的数据困境

训练大模型和训练小模型需要不同的数据策略,但几乎所有开源数据集都是为大模型设计的。

大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型,这个策略行不通。小模型的容量有限,如果用未经筛选的互联网数据训练,它会把有限的容量浪费在噪声上。

SYNTH的设计理念是:与其给小模型喂”原始互联网”,不如给它喂”精心设计的练习题”

从5万篇Wikipedia到750亿Token

SYNTH的构建过程非常独特。它不是从互联网抓取数据,而是从Wikipedia的58698篇精选文章出发,通过一套合成管道将其放大到750亿token。

这个放大不是简单的改写或同义替换。它模拟了RAG(检索增强生成)应用的工作模式:

  1. 段落选择:从原始文章中选择语义一致的段落作为”知识库”
  2. 查询生成:生成带随机化约束的查询,模拟用户的多样化提问方式
  3. 推理回答生成:为每个查询生成包含中间推理步骤的回答
  4. 负面查询:专门生成”知识库中没有答案”的查询,训练模型说”我不知道”

最低放大倍数是100倍,对于近期事件和自我认知相关的知识,放大倍数高达10000倍。这种不均匀放大确保模型在关键知识点上得到充分训练。

推理轨迹:不是附加功能,而是核心设计

SYNTH与其他合成数据集最大的区别在于:所有回答都附带中间推理轨迹

这不是后期添加的Chain-of-Thought,而是数据集从设计之初就内嵌的结构。每条数据的格式类似于:

1
2
3
<query>问题内容</query>
<reasoning>中间推理步骤...</reasoning>
<answer>最终回答</answer>

这种设计使得即使是56M参数的小模型也能学会结构化推理。传统的做法是先训练一个大模型,然后蒸馏出小模型的推理能力。SYNTH证明了另一条路:用精心设计的推理数据从零训练,同样可以在小模型上实现推理能力。

两个令人印象深刻的模型

基于SYNTH训练的两个模型展示了数据集的威力:

Baguettotron(321M参数)

  • 80层深度——目前同尺寸范围内最深的SLM之一
  • 在非代码工业基准上超越大多数同尺寸模型
  • 在记忆、通用推理、数学和检索任务上达到前所未有的平衡

Monad(56M参数)

  • 64层深度
  • 被称为”最小的可行语言模型”
  • 在MMLU等标准评估上达到同尺寸SOTA

两个模型都在200B token上训练,总计算成本不到1000个H100小时。这个训练效率对于学术研究者和资源有限的团队来说非常友好。

完全开放:从种子到模型

SYNTH的开放程度在合成数据集中是罕见的:

  • 种子数据:CC-By-SA许可的Wikipedia文章
  • 生成模型:使用允许输出复用的开放模型
  • 最终数据:CC-By-SA许可,完全可再分发
  • 训练模型:Baguettotron和Monad均公开

这与Cosmopedia等合成数据集形成对比。很多合成数据集虽然公开了数据,但生成过程使用了闭源模型(如GPT-4),导致数据的法律状态存在灰色地带。SYNTH从源头解决了这个问题。

适用场景和局限

适合的场景

  • 训练350M参数以下的小型推理模型
  • 边缘设备、移动端等资源受限场景
  • 模型可解释性和技能习得研究
  • 快速原型开发和教学实验

不适合的场景

  • 代码生成(SYNTH有意排除了代码内容)
  • 训练超过几十亿参数的大模型(难度校准针对小模型)
  • 需要最新实时知识的应用(基于固定的Wikipedia快照)

实际使用

1
2
3
4
5
6
7
8
9
10
11
12
13
from datasets import load_dataset

# 流式加载(推荐,数据集较大)
dataset = load_dataset("PleIAs/SYNTH", split="train", streaming=True)

# 按语言过滤
en_data = dataset.filter(lambda x: x.get('language') == 'en')

for i, sample in enumerate(en_data):
if i >= 3:
break
print(sample['text'][:300])
print("---")

对行业的启示

SYNTH代表了AI开发的一个重要趋势:不是所有任务都需要千亿参数的大模型。对于很多实际应用——文档检索、信息提取、简单推理——一个精心训练的小模型可能就够了。

关键在于数据质量。SYNTH证明了用精心设计的合成数据,可以在极小的模型上实现令人印象深刻的能力。这为”AI普惠化”提供了一条实际可行的路径。


数据集链接: https://huggingface.co/datasets/PleIAs/SYNTH

创建机构: PleIAs & AI Alliance

适合场景: 小型推理模型预训练、边缘设备AI、可解释性研究

质量评分: 4.5/5.0 | CC-By-SA | 7965万样本,750亿token,8种语言

核心优势: 推理轨迹内嵌、完全开放许可、为小模型优化、极高训练效率

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero