Cosmopedia: HuggingFace最大规模合成训练数据集

Cosmopedia: 最大规模合成训练数据集

数据集概览

  • 规模: 30.3百万条教育内容
  • 创建者: HuggingFace Smol Models Research
  • 许可证: Apache 2.0 (可商用)
  • 语言: 英语
  • 用途: 小型语言模型预训练

核心特性

Cosmopedia 由先进LLM生成的高质量合成数据组成,专门用于训练高效的小型语言模型(SLM)。它证明了合成数据可以有效替代传统网页爬取数据。

8个专业子集

子集 样本数 领域
web_samples_v1 12.4M 通用网页内容
web_samples_v2 10.3M 通用网页内容v2
stories 4.99M 故事叙述
auto_math_text 1.95M 数学教学
stanford 1.02M 斯坦福课程风格
wikihow 179k 实用教程
openstax 126k 开放教材
khanacademy 24.1k 可汗学院风格

使用示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
from datasets import load_dataset

# 加载完整数据集
dataset = load_dataset("HuggingFaceTB/cosmopedia")

# 加载特定子集
math_data = load_dataset("HuggingFaceTB/cosmopedia", "auto_math_text")

# 查看样本
print(dataset['train'][0])
# {
# 'prompt': '...',
# 'text': '...',
# 'text_token_length': 856,
# 'seed_data': 'khanacademy',
# 'format': 'educational_article',
# 'audience': 'middle_school'
# }

应用场景

  1. 小型模型预训练: 训练1B-7B参数的高效模型
  2. 领域知识增强: 特定领域的continued pretraining
  3. 合成数据研究: 对比合成vs真实数据效果
  4. 教育AI应用: 构建教育导向的语言模型

质量评估

优势

  • ✅ 内容质量高(由Mixtral-8x7B生成)
  • ✅ 无版权和隐私问题
  • ✅ 多样性丰富(8个子集)
  • ✅ 数据格式标准化

局限性

  • ⚠️ 仅支持英语
  • ⚠️ 缺乏最新事件信息
  • ⚠️ 可能继承生成模型的偏见

性能基准

基于Cosmopedia训练的phi系列模型性能:

模型 参数 HumanEval MBPP
phi-1 1.3B 50.6% 55.5%
phi-1.5 1.3B 41.4% 52.7%
Llama2-7B 7B 12.8% 27.6%

相关论文

Textbooks Are All You Need (arXiv:2309.05463)

  • 核心观点: 高质量合成数据可显著提升小型模型性能
  • 关键发现: 1.3B参数模型性能可媲美10倍大小的模型

引用

1
2
3
4
5
6
@misc{cosmopedia2024,
author = {Hugging Face Smol Models Research Team},
title = {Cosmopedia: A Large-Scale Synthetic Dataset},
year = {2024},
url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia}
}

资源链接


质量评分: 5.0/5.0 | 最后更新: 2025-11-11

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero