Cosmopedia: HuggingFace最大规模合成训练数据集

Cosmopedia: 最大规模合成训练数据集数据集概览 规模: 30.3百万条教育内容 创建者: HuggingFace Smol Models Research 许可证: Apache 2.0 (可商用) 语言: 英语 用途: 小型语言模型预训练 核心特性Cosmopedia 由先进LLM生成的高质量合成数据组成,专门用于训练高效的小型语言模型(SLM)。它证明了合成数据可以有效替代传统网页爬取数据。 8个专业子集 子集 样本数 领域 web_samples_v1 12.4M 通用网页内容 web_samples_v2 10.3M 通用网页内容v2 stories 4.99M 故事叙述 auto_math_text 1.95M 数学教学 stanford 1.02M 斯坦福课程风格 wikihow 179k 实用教程 openstax 126k...

阅读全文

MMIE: 大规模多模态交错理解基准测试

MMIE: 大规模多模态交错理解基准数据集概览 全称: Massive Multimodal Interleaved Comprehension Benchmark 规模: 20,103个多模态问题 许可证: MIT 发布时间: 2024年10月 下载量: 30/月 点赞数: 12 核心特性MMIE是专门评估大型视觉-语言模型(LVLMs)在”交错理解和生成”能力方面的基准测试数据集。 覆盖范围 12个主要领域: 数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术、电子工程 102个子领域: 细分的专业领域 3种任务类型: 情境分析 (Situational Analysis) 项目式学习 (Project-Based Learning) 多步推理 (Multi-Step Reasoning) 数据结构1234567891011{ &qu...

阅读全文

The Cauldron: HuggingFace多模态视觉-语言数据集合

The Cauldron: 多模态视觉-语言数据集合数据集概览 创建者: HuggingFace M4团队 关联模型: Idefics2-8B 数据类型: 多个视觉-语言子数据集的集合 更新时间: 2024年 许可证: 多种(根据子集不同) 核心特性The Cauldron 是 HuggingFace 精心策划的多模态数据集合,专门用于训练和评估视觉-语言基础模型。它为 Idefics2-8B 等先进的多模态模型提供训练数据。 数据集组成The Cauldron 整合了多个高质量的视觉-语言数据集,包括: 图像描述数据集: COCO Captions, Conceptual Captions等 视觉问答数据集: VQAv2, GQA, OKVQA等 文档理解数据集: DocVQA, InfographicVQA等 图表理解数据集: ChartQA, PlotQA等 多模态推理数据...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero