多模态预训练的基石:Meta的7000万图文对开源数据集在多模态AI发展历程中,高质量的图文配对数据始终是核心瓶颈。Meta AI(原Facebook AI Research)于2022年发布的Public Multimodal Dataset(PMD),以7000万图文对、6800万唯一图像的规模,成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础,更为整个AI社区树立了大规模多模态数据集的标杆。
数据集概览:规模与构成核心统计数据
图文对总数:7000万对
唯一图像数:6800万张
来源数据集:8个高质量公开数据集
主要语言:英语
许可证:CC-BY-4.0(需遵守各子数据集许可)
数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合,而非单一来源:
Conceptual Captions - 高质量的图像描述数据
Concept...