Cosmopedia: HuggingFace最大规模合成训练数据集

Cosmopedia: 最大规模合成训练数据集数据集概览规模: 30.3百万条教育内容创建者: HuggingFace Smol Models Research 许可证: Apache 2.0 (可商用) 语言: 英语用途: 小型语言模型预训练核心特性Cosmopedia 由先进LLM生成的高质量合成数据组成，专门用于训练高效的小型语言模型(SLM)。它证明了合成数据可以有效替代传统网页爬取数据。 8个专业子集子集样本数领域 web_samples_v1 12.4M 通用网页内容 web_samples_v2 10.3M 通用网页内容v2 stories 4.99M 故事叙述 auto_math_text 1.95M 数学教学 stanford 1.02M 斯坦福课程风格 wikihow 179k 实用教程 openstax 126k...

阅读全文

Cosmopedia：最大的开源合成数据集，25B token助力小模型训练

Posted on 三月 20, 2024

引领合成数据新纪元：Cosmopedia的诞生在大语言模型训练领域，数据始终是核心瓶颈。Hugging Face于2024年3月发布的Cosmopedia，以超过300万个文件、250亿token的规模，成为目前最大的开源合成数据集。这不仅是一个里程碑式的成果，更代表了合成数据生成技术从理论到实践的重大突破。数据规模与多样性：前所未有的覆盖面Cosmopedia的规模令人震撼：文件数量：超过3000万个合成文本文件 Token总量：250亿token，相当于中等规模预训练语料库内容类型：涵盖合成教科书、博客文章、故事、WikiHow风格文章主题覆盖：横跨112个不同主题领域这种规模和多样性使其成为预训练小型语言模型的理想数据源。与传统的网络爬虫数据相比，Cosmopedia的内容更加结构化、高质量，且完全避免了版权和隐私问题。生成方法论：从多源数据到高质量合成Cosm...

阅读全文

Public Multimodal Dataset (PMD)：Meta开源的7000万图文对数据集

Posted on 六月 15, 2022

多模态预训练的基石：Meta的7000万图文对开源数据集在多模态AI发展历程中，高质量的图文配对数据始终是核心瓶颈。Meta AI（原Facebook AI Research）于2022年发布的Public Multimodal Dataset（PMD），以7000万图文对、6800万唯一图像的规模，成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础，更为整个AI社区树立了大规模多模态数据集的标杆。数据集概览：规模与构成核心统计数据图文对总数：7000万对唯一图像数：6800万张来源数据集：8个高质量公开数据集主要语言：英语许可证：CC-BY-4.0（需遵守各子数据集许可）数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合，而非单一来源： Conceptual Captions - 高质量的图像描述数据 Concept...

阅读全文