Cosmopedia: HuggingFace最大规模合成训练数据集

Cosmopedia: 最大规模合成训练数据集数据集概览 规模: 30.3百万条教育内容 创建者: HuggingFace Smol Models Research 许可证: Apache 2.0 (可商用) 语言: 英语 用途: 小型语言模型预训练 核心特性Cosmopedia 由先进LLM生成的高质量合成数据组成,专门用于训练高效的小型语言模型(SLM)。它证明了合成数据可以有效替代传统网页爬取数据。 8个专业子集 子集 样本数 领域 web_samples_v1 12.4M 通用网页内容 web_samples_v2 10.3M 通用网页内容v2 stories 4.99M 故事叙述 auto_math_text 1.95M 数学教学 stanford 1.02M 斯坦福课程风格 wikihow 179k 实用教程 openstax 126k...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero