Cosmopedia: HuggingFace最大规模合成训练数据集

Posted on 十一月 11, 2025

Cosmopedia: 最大规模合成训练数据集

数据集概览

规模: 30.3百万条教育内容
创建者: HuggingFace Smol Models Research
许可证: Apache 2.0 (可商用)
语言: 英语
用途: 小型语言模型预训练

核心特性

Cosmopedia 由先进LLM生成的高质量合成数据组成，专门用于训练高效的小型语言模型(SLM)。它证明了合成数据可以有效替代传统网页爬取数据。

8个专业子集

子集	样本数	领域
web_samples_v1	12.4M	通用网页内容
web_samples_v2	10.3M	通用网页内容v2
stories	4.99M	故事叙述
auto_math_text	1.95M	数学教学
stanford	1.02M	斯坦福课程风格
wikihow	179k	实用教程
openstax	126k	开放教材
khanacademy	24.1k	可汗学院风格

使用示例

from datasets import load_dataset

# 加载完整数据集
dataset = load_dataset("HuggingFaceTB/cosmopedia")

# 加载特定子集
math_data = load_dataset("HuggingFaceTB/cosmopedia", "auto_math_text")

# 查看样本
print(dataset['train'][0])
# {
#   'prompt': '...',
#   'text': '...',
#   'text_token_length': 856,
#   'seed_data': 'khanacademy',
#   'format': 'educational_article',
#   'audience': 'middle_school'
# }

应用场景

小型模型预训练: 训练1B-7B参数的高效模型
领域知识增强: 特定领域的continued pretraining
合成数据研究: 对比合成vs真实数据效果
教育AI应用: 构建教育导向的语言模型

质量评估

优势

✅ 内容质量高（由Mixtral-8x7B生成）
✅ 无版权和隐私问题
✅ 多样性丰富（8个子集）
✅ 数据格式标准化

局限性

⚠️ 仅支持英语
⚠️ 缺乏最新事件信息
⚠️ 可能继承生成模型的偏见

性能基准

基于Cosmopedia训练的phi系列模型性能：

模型	参数	HumanEval	MBPP
phi-1	1.3B	50.6%	55.5%
phi-1.5	1.3B	41.4%	52.7%
Llama2-7B	7B	12.8%	27.6%

引用

@misc{cosmopedia2024,
  author = {Hugging Face Smol Models Research Team},
  title = {Cosmopedia: A Large-Scale Synthetic Dataset},
  year = {2024},
  url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia}
}

资源链接

数据集: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
论文: https://arxiv.org/abs/2309.05463
代码: https://github.com/huggingface/smollm

质量评分: 5.0/5.0 | 最后更新: 2025-11-11

Cosmopedia: 最大规模合成训练数据集

数据集概览

核心特性

8个专业子集

使用示例

应用场景

质量评估

优势

局限性

性能基准

相关论文

引用

资源链接