The Cauldron: HuggingFace多模态视觉-语言数据集合

The Cauldron: 多模态视觉-语言数据集合数据集概览 创建者: HuggingFace M4团队 关联模型: Idefics2-8B 数据类型: 多个视觉-语言子数据集的集合 更新时间: 2024年 许可证: 多种(根据子集不同) 核心特性The Cauldron 是 HuggingFace 精心策划的多模态数据集合,专门用于训练和评估视觉-语言基础模型。它为 Idefics2-8B 等先进的多模态模型提供训练数据。 数据集组成The Cauldron 整合了多个高质量的视觉-语言数据集,包括: 图像描述数据集: COCO Captions, Conceptual Captions等 视觉问答数据集: VQAv2, GQA, OKVQA等 文档理解数据集: DocVQA, InfographicVQA等 图表理解数据集: ChartQA, PlotQA等 多模态推理数据...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero