Cosmopedia: 最大规模合成训练数据集
数据集概览
- 规模: 30.3百万条教育内容
- 创建者: HuggingFace Smol Models Research
- 许可证: Apache 2.0 (可商用)
- 语言: 英语
- 用途: 小型语言模型预训练
核心特性
Cosmopedia 由先进LLM生成的高质量合成数据组成,专门用于训练高效的小型语言模型(SLM)。它证明了合成数据可以有效替代传统网页爬取数据。
8个专业子集
| 子集 | 样本数 | 领域 |
|---|---|---|
| web_samples_v1 | 12.4M | 通用网页内容 |
| web_samples_v2 | 10.3M | 通用网页内容v2 |
| stories | 4.99M | 故事叙述 |
| auto_math_text | 1.95M | 数学教学 |
| stanford | 1.02M | 斯坦福课程风格 |
| wikihow | 179k | 实用教程 |
| openstax | 126k | 开放教材 |
| khanacademy | 24.1k | 可汗学院风格 |
使用示例
1 | from datasets import load_dataset |
应用场景
- 小型模型预训练: 训练1B-7B参数的高效模型
- 领域知识增强: 特定领域的continued pretraining
- 合成数据研究: 对比合成vs真实数据效果
- 教育AI应用: 构建教育导向的语言模型
质量评估
优势
- ✅ 内容质量高(由Mixtral-8x7B生成)
- ✅ 无版权和隐私问题
- ✅ 多样性丰富(8个子集)
- ✅ 数据格式标准化
局限性
- ⚠️ 仅支持英语
- ⚠️ 缺乏最新事件信息
- ⚠️ 可能继承生成模型的偏见
性能基准
基于Cosmopedia训练的phi系列模型性能:
| 模型 | 参数 | HumanEval | MBPP |
|---|---|---|---|
| phi-1 | 1.3B | 50.6% | 55.5% |
| phi-1.5 | 1.3B | 41.4% | 52.7% |
| Llama2-7B | 7B | 12.8% | 27.6% |
相关论文
Textbooks Are All You Need (arXiv:2309.05463)
- 核心观点: 高质量合成数据可显著提升小型模型性能
- 关键发现: 1.3B参数模型性能可媲美10倍大小的模型
引用
1 | @misc{cosmopedia2024, |
资源链接
- 数据集: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
- 论文: https://arxiv.org/abs/2309.05463
- 代码: https://github.com/huggingface/smollm
质量评分: 5.0/5.0 | 最后更新: 2025-11-11