核心观点:当行业追逐千亿参数的大模型时,PleIAs用一个75B token的纯合成数据集证明:56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模,而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。
小模型的数据困境训练大模型和训练小模型需要不同的数据策略,但几乎所有开源数据集都是为大模型设计的。
大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型,这个策略行不通。小模型的容量有限,如果用未经筛选的互联网数据训练,它会把有限的容量浪费在噪声上。
SYNTH的设计理念是:与其给小模型喂”原始互联网”,不如给它喂”精心设计的练习题”。
从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据,而是从Wikipedia的58698篇精选文章出发...
Infinity-Instruct: 大规模高质量指令微调数据集
Infinity-Instruct: 大规模高质量指令微调数据集
数据集链接: HuggingFace创建机构: 北京智源人工智能研究院 (BAAI)许可证: CC-BY-SA 4.0规模: 745 万指令(Core 版 140 万)质量评分: 4.7/5.0
核心观点智源的 Infinity-Instruct 用 745 万条指令证明了一个反直觉的事实——你不需要全部数据,140 万条核心样本就能达到 95.7% 的性能,关键在于数据的”能力覆盖密度”。
规模不是目的,能力覆盖才是745 万条指令听起来很多,但在指令微调领域这只能算中等规模。真正让 Infinity-Instruct 与众不同的是它的能力标签体系(ability_tag)——每条数据都被明确标注了对应的能力维度,比如”数学推理”、”代码生成”、”概念解释”。
这个设计回答了一个核心问题:怎么知道数据集是...
OpenCodeInstruct: NVIDIA开源的500万规模代码指令数据集
核心观点:代码LLM的瓶颈不在模型架构,而在训练数据。NVIDIA用500万条带测试验证的代码指令数据证明:当每条数据都有单元测试保驾护航时,”量”和”质”可以兼得。
代码指令数据的困境训练一个好的代码助手,需要什么样的数据?理想情况下,每条数据应该包含:一个清晰的编程问题、一个正确的解决方案、以及验证方案正确性的测试用例。
现实中,大多数代码指令数据集只有问题和答案,没有测试。这意味着你无法自动验证”答案是否真的能运行”。模型在这样的数据上训练,可能学会了生成”看起来对”但实际有bug的代码。
OpenCodeInstruct的核心差异化就在这里:每条数据都配备了单元测试和执行反馈。
500万条,每条都经过验证OpenCodeInstruct包含500万个编程问答对,未压缩约19GB。每个样本的结构远比传统代码数据集丰富:
字段
说明
input
编程问题描述
ou...