核心观点:当行业追逐千亿参数的大模型时,PleIAs用一个75B token的纯合成数据集证明:56M参数的模型也能有实用的推理能力。SYNTH不是在追赶大模型的数据规模,而是在回答一个更基本的问题——训练一个”最小可行语言模型”需要什么样的数据。
小模型的数据困境训练大模型和训练小模型需要不同的数据策略,但几乎所有开源数据集都是为大模型设计的。
大模型的训练逻辑是”大力出奇迹”——用尽可能多的数据覆盖尽可能广的知识。但对于56M或321M参数的小模型,这个策略行不通。小模型的容量有限,如果用未经筛选的互联网数据训练,它会把有限的容量浪费在噪声上。
SYNTH的设计理念是:与其给小模型喂”原始互联网”,不如给它喂”精心设计的练习题”。
从5万篇Wikipedia到750亿TokenSYNTH的构建过程非常独特。它不是从互联网抓取数据,而是从Wikipedia的58698篇精选文章出发...
Orca-AgentInstruct: 微软百万级合成指令数据集
AgentInstruct:当AI学会自己批改作业核心观点:微软用多代理协作重新定义了合成数据的质量上限,这不是简单的”让GPT生成训练数据”,而是一套完整的AI自我进化系统。
105万条指令数据,成本几乎为零,质量接近人工标注——微软Orca-AgentInstruct的数据让人重新思考:我们真的还需要花大价钱雇人标数据吗?
为什么AgentInstruct不是”又一个合成数据集”市面上合成数据集多如牛毛,但大多数都是”prompt engineering的产物”:写个好prompt,调用GPT-4,批量生成,完事。这种做法有个致命问题——垃圾进,垃圾出。
AgentInstruct的野心更大:它想让AI学会自己质检、自己迭代、自己优化。
三个代理角色分工明确:
内容转换代理:把网络上的非结构化知识提取成结构化信息(相当于AI版的知识图谱工程师)
种子指令生成代理:基于知识生成多...