Cosmopedia:最大的开源合成数据集,25B token助力小模型训练

引领合成数据新纪元:Cosmopedia的诞生在大语言模型训练领域,数据始终是核心瓶颈。Hugging Face于2024年3月发布的Cosmopedia,以超过300万个文件、250亿token的规模,成为目前最大的开源合成数据集。这不仅是一个里程碑式的成果,更代表了合成数据生成技术从理论到实践的重大突破。 数据规模与多样性:前所未有的覆盖面Cosmopedia的规模令人震撼: 文件数量:超过3000万个合成文本文件 Token总量:250亿token,相当于中等规模预训练语料库 内容类型:涵盖合成教科书、博客文章、故事、WikiHow风格文章 主题覆盖:横跨112个不同主题领域 这种规模和多样性使其成为预训练小型语言模型的理想数据源。与传统的网络爬虫数据相比,Cosmopedia的内容更加结构化、高质量,且完全避免了版权和隐私问题。 生成方法论:从多源数据到高质量合成Cosm...

阅读全文

Public Multimodal Dataset (PMD):Meta开源的7000万图文对数据集

多模态预训练的基石:Meta的7000万图文对开源数据集在多模态AI发展历程中,高质量的图文配对数据始终是核心瓶颈。Meta AI(原Facebook AI Research)于2022年发布的Public Multimodal Dataset(PMD),以7000万图文对、6800万唯一图像的规模,成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础,更为整个AI社区树立了大规模多模态数据集的标杆。 数据集概览:规模与构成核心统计数据 图文对总数:7000万对 唯一图像数:6800万张 来源数据集:8个高质量公开数据集 主要语言:英语 许可证:CC-BY-4.0(需遵守各子数据集许可) 数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合,而非单一来源: Conceptual Captions - 高质量的图像描述数据 Concept...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero