Cosmopedia: 最大规模合成训练数据集数据集概览
规模: 30.3百万条教育内容
创建者: HuggingFace Smol Models Research
许可证: Apache 2.0 (可商用)
语言: 英语
用途: 小型语言模型预训练
核心特性Cosmopedia 由先进LLM生成的高质量合成数据组成,专门用于训练高效的小型语言模型(SLM)。它证明了合成数据可以有效替代传统网页爬取数据。
8个专业子集
子集
样本数
领域
web_samples_v1
12.4M
通用网页内容
web_samples_v2
10.3M
通用网页内容v2
stories
4.99M
故事叙述
auto_math_text
1.95M
数学教学
stanford
1.02M
斯坦福课程风格
wikihow
179k
实用教程
openstax
126k...