PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练

核心观点:当行业追逐千亿参数的大模型时,PleIAs用一个75B token的纯合成数据集证明:56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模,而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。 小模型的数据困境训练大模型和训练小模型需要不同的数据策略,但几乎所有开源数据集都是为大模型设计的。 大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型,这个策略行不通。小模型的容量有限,如果用未经筛选的互联网数据训练,它会把有限的容量浪费在噪声上。 SYNTH的设计理念是:与其给小模型喂”原始互联网”,不如给它喂”精心设计的练习题”。 从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据,而是从Wikipedia的58698篇精选文章出发...

阅读全文

Infinity-Instruct: 大规模高质量指令微调数据集

Infinity-Instruct: 大规模高质量指令微调数据集 数据集链接: HuggingFace创建机构: 北京智源人工智能研究院 (BAAI)许可证: CC-BY-SA 4.0规模: 745 万指令(Core 版 140 万)质量评分: 4.7/5.0 核心观点智源的 Infinity-Instruct 用 745 万条指令证明了一个反直觉的事实——你不需要全部数据,140 万条核心样本就能达到 95.7% 的性能,关键在于数据的”能力覆盖密度”。 规模不是目的,能力覆盖才是745 万条指令听起来很多,但在指令微调领域这只能算中等规模。真正让 Infinity-Instruct 与众不同的是它的能力标签体系(ability_tag)——每条数据都被明确标注了对应的能力维度,比如”数学推理”、”代码生成”、”概念解释”。 这个设计回答了一个核心问题:怎么知道数据集是...

阅读全文

OpenCodeInstruct: NVIDIA开源的500万规模代码指令数据集

核心观点:代码LLM的瓶颈不在模型架构,而在训练数据。NVIDIA用500万条带测试验证的代码指令数据证明:当每条数据都有单元测试保驾护航时,”量”和”质”可以兼得。 代码指令数据的困境训练一个好的代码助手,需要什么样的数据?理想情况下,每条数据应该包含:一个清晰的编程问题、一个正确的解决方案、以及验证方案正确性的测试用例。 现实中,大多数代码指令数据集只有问题和答案,没有测试。这意味着你无法自动验证”答案是否真的能运行”。模型在这样的数据上训练,可能学会了生成”看起来对”但实际有bug的代码。 OpenCodeInstruct的核心差异化就在这里:每条数据都配备了单元测试和执行反馈。 500万条,每条都经过验证OpenCodeInstruct包含500万个编程问答对,未压缩约19GB。每个样本的结构远比传统代码数据集丰富: 字段 说明 input 编程问题描述 ou...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero