核心观点:当行业追逐千亿参数的大模型时,PleIAs用一个75B token的纯合成数据集证明:56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模,而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。
小模型的数据困境
训练大模型和训练小模型需要不同的数据策略,但几乎所有开源数据集都是为大模型设计的。
大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型,这个策略行不通。小模型的容量有限,如果用未经筛选的互联网数据训练,它会把有限的容量浪费在噪声上。
SYNTH的设计理念是:与其给小模型喂”原始互联网”,不如给它喂”精心设计的练习题”。
从5万篇Wikipedia到750亿Token
SYNTH的构建过程非常独特。它不是从互联网抓取数据,而是从Wikipedia的58698篇精选文章出发,通过一套合成管道将其放大到750亿token。
这个放大不是简单的改写或同义替换。它模拟了RAG(检索增强生成)应用的工作模式:
- 段落选择:从原始文章中选择语义一致的段落作为”知识库”
- 查询生成:生成带随机化约束的查询,模拟用户的多样化提问方式
- 推理回答生成:为每个查询生成包含中间推理步骤的回答
- 负面查询:专门生成”知识库中没有答案”的查询,训练模型说”我不知道”
最低放大倍数是100倍,对于近期事件和自我认知相关的知识,放大倍数高达10000倍。这种不均匀放大确保模型在关键知识点上得到充分训练。
推理轨迹:不是附加功能,而是核心设计
SYNTH与其他合成数据集最大的区别在于:所有回答都附带中间推理轨迹。
这不是后期添加的Chain-of-Thought,而是数据集从设计之初就内嵌的结构。每条数据的格式类似于:
1 | <query>问题内容</query> |
这种设计使得即使是56M参数的小模型也能学会结构化推理。传统的做法是先训练一个大模型,然后蒸馏出小模型的推理能力。SYNTH证明了另一条路:用精心设计的推理数据从零训练,同样可以在小模型上实现推理能力。
两个令人印象深刻的模型
基于SYNTH训练的两个模型展示了数据集的威力:
Baguettotron(321M参数)
- 80层深度——目前同尺寸范围内最深的SLM之一
- 在非代码工业基准上超越大多数同尺寸模型
- 在记忆、通用推理、数学和检索任务上达到前所未有的平衡
Monad(56M参数)
- 64层深度
- 被称为”最小的可行语言模型”
- 在MMLU等标准评估上达到同尺寸SOTA
两个模型都在200B token上训练,总计算成本不到1000个H100小时。这个训练效率对于学术研究者和资源有限的团队来说非常友好。
完全开放:从种子到模型
SYNTH的开放程度在合成数据集中是罕见的:
- 种子数据:CC-By-SA许可的Wikipedia文章
- 生成模型:使用允许输出复用的开放模型
- 最终数据:CC-By-SA许可,完全可再分发
- 训练模型:Baguettotron和Monad均公开
这与Cosmopedia等合成数据集形成对比。很多合成数据集虽然公开了数据,但生成过程使用了闭源模型(如GPT-4),导致数据的法律状态存在灰色地带。SYNTH从源头解决了这个问题。
适用场景和局限
适合的场景:
- 训练350M参数以下的小型推理模型
- 边缘设备、移动端等资源受限场景
- 模型可解释性和技能习得研究
- 快速原型开发和教学实验
不适合的场景:
- 代码生成(SYNTH有意排除了代码内容)
- 训练超过几十亿参数的大模型(难度校准针对小模型)
- 需要最新实时知识的应用(基于固定的Wikipedia快照)
实际使用
1 | from datasets import load_dataset |
对行业的启示
SYNTH代表了AI开发的一个重要趋势:不是所有任务都需要千亿参数的大模型。对于很多实际应用——文档检索、信息提取、简单推理——一个精心训练的小模型可能就够了。
关键在于数据质量。SYNTH证明了用精心设计的合成数据,可以在极小的模型上实现令人印象深刻的能力。这为”AI普惠化”提供了一条实际可行的路径。
数据集链接: https://huggingface.co/datasets/PleIAs/SYNTH
创建机构: PleIAs & AI Alliance
适合场景: 小型推理模型预训练、边缘设备AI、可解释性研究
质量评分: 4.5/5.0 | CC-By-SA | 7965万样本,750亿token,8种语言
核心优势: 推理轨迹内嵌、完全开放许可、为小模型优化、极高训练效率