PleIAs SYNTH: 75B Token合成数据集重新定义小模型训练

Posted on 十一月 10, 2025

核心观点：当行业追逐千亿参数的大模型时，PleIAs用一个75B token的纯合成数据集证明：56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模，而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。小模型的数据困境训练大模型和训练小模型需要不同的数据策略，但几乎所有开源数据集都是为大模型设计的。大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型，这个策略行不通。小模型的容量有限，如果用未经筛选的互联网数据训练，它会把有限的容量浪费在噪声上。 SYNTH的设计理念是：与其给小模型喂”原始互联网”，不如给它喂”精心设计的练习题”。从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据，而是从Wikipedia的58698篇精选文章出发...

阅读全文

Infinity-Instruct: 大规模高质量指令微调数据集

Posted on 十月 15, 2025

Infinity-Instruct: 大规模高质量指令微调数据集数据集链接: HuggingFace创建机构: 北京智源人工智能研究院 (BAAI)许可证: CC-BY-SA 4.0规模: 745 万指令（Core 版 140 万）质量评分: 4.7/5.0 核心观点智源的 Infinity-Instruct 用 745 万条指令证明了一个反直觉的事实——你不需要全部数据，140 万条核心样本就能达到 95.7% 的性能，关键在于数据的”能力覆盖密度”。规模不是目的，能力覆盖才是745 万条指令听起来很多，但在指令微调领域这只能算中等规模。真正让 Infinity-Instruct 与众不同的是它的能力标签体系（ability_tag）——每条数据都被明确标注了对应的能力维度，比如”数学推理”、”代码生成”、”概念解释”。这个设计回答了一个核心问题：怎么知道数据集是...

阅读全文

OpenCodeInstruct: NVIDIA开源的500万规模代码指令数据集

Posted on 四月 5, 2025

核心观点：代码LLM的瓶颈不在模型架构，而在训练数据。NVIDIA用500万条带测试验证的代码指令数据证明：当每条数据都有单元测试保驾护航时，”量”和”质”可以兼得。代码指令数据的困境训练一个好的代码助手，需要什么样的数据？理想情况下，每条数据应该包含：一个清晰的编程问题、一个正确的解决方案、以及验证方案正确性的测试用例。现实中，大多数代码指令数据集只有问题和答案，没有测试。这意味着你无法自动验证”答案是否真的能运行”。模型在这样的数据上训练，可能学会了生成”看起来对”但实际有bug的代码。 OpenCodeInstruct的核心差异化就在这里：每条数据都配备了单元测试和执行反馈。 500万条，每条都经过验证OpenCodeInstruct包含500万个编程问答对，未压缩约19GB。每个样本的结构远比传统代码数据集丰富：字段说明 input 编程问题描述 ou...

阅读全文