Infinity-Instruct: 大规模高质量指令微调数据集

Infinity-Instruct: 大规模高质量指令微调数据集 数据集链接: HuggingFace创建机构: 北京智源人工智能研究院 (BAAI)许可证: CC-BY-SA 4.0规模: 745 万指令(Core 版 140 万)质量评分: 4.7/5.0 核心观点智源的 Infinity-Instruct 用 745 万条指令证明了一个反直觉的事实——你不需要全部数据,140 万条核心样本就能达到 95.7% 的性能,关键在于数据的”能力覆盖密度”。 规模不是目的,能力覆盖才是745 万条指令听起来很多,但在指令微调领域这只能算中等规模。真正让 Infinity-Instruct 与众不同的是它的能力标签体系(ability_tag)——每条数据都被明确标注了对应的能力维度,比如”数学推理”、”代码生成”、”概念解释”。 这个设计回答了一个核心问题:怎么知道数据集是...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero