MMIE: 大规模多模态交错理解基准测试

MMIE: 大规模多模态交错理解基准数据集概览全称: Massive Multimodal Interleaved Comprehension Benchmark 规模: 20,103个多模态问题许可证: MIT 发布时间: 2024年10月下载量: 30/月点赞数: 12 核心特性MMIE是专门评估大型视觉-语言模型(LVLMs)在”交错理解和生成”能力方面的基准测试数据集。覆盖范围 12个主要领域: 数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术、电子工程 102个子领域: 细分的专业领域 3种任务类型: 情境分析 (Situational Analysis) 项目式学习 (Project-Based Learning) 多步推理 (Multi-Step Reasoning) 数据结构1234567891011{ &qu...

阅读全文

The Cauldron: HuggingFace多模态视觉-语言数据集合

Posted on 十一月 11, 2025

The Cauldron: 多模态视觉-语言数据集合数据集概览创建者: HuggingFace M4团队关联模型: Idefics2-8B 数据类型: 多个视觉-语言子数据集的集合更新时间: 2024年许可证: 多种（根据子集不同）核心特性The Cauldron 是 HuggingFace 精心策划的多模态数据集合，专门用于训练和评估视觉-语言基础模型。它为 Idefics2-8B 等先进的多模态模型提供训练数据。数据集组成The Cauldron 整合了多个高质量的视觉-语言数据集，包括：图像描述数据集: COCO Captions, Conceptual Captions等视觉问答数据集: VQAv2, GQA, OKVQA等文档理解数据集: DocVQA, InfographicVQA等图表理解数据集: ChartQA, PlotQA等多模态推理数据...

阅读全文

NExT-OMNI: 基于离散流匹配的全模态基础模型

Posted on 十月 15, 2025

NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。 NExT-OMNI: 任意模态统一建模的技术突破核心创新:离散流匹配范式NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。为什么选择离散流匹配?传统的多模态模型主要依赖自回归架构,存在以下局限: 生成效率低: 必须逐token顺序生成,无法并行跨模态建模困难: 不同模态的离散表示难以统一长序列性能下降: 对于视频、音频等长序列模态效果欠佳 DFM范式通过构建度量诱导的概率路径,实现了: 并行解...

阅读全文

Qwen3-VL 30B-A3B Thinking - 阿里巴巴大型语言模型

Posted on 九月 30, 2025

Qwen3-VL 30B-A3B Thinking - 阿里巴巴大型语言模型模型概述Qwen3-VL 30B-A3B Thinking 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-VL 30B-A3B Thinking 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 7.9K，获得了 103 个点赞，显示出强大的社区影响力和用户认可度。核心特性 30B active (A3B MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得...

阅读全文

Qwen3-VL 30B-A3B Instruct - 阿里巴巴大型语言模型

Posted on 九月 30, 2025

Qwen3-VL 30B-A3B Instruct - 阿里巴巴大型语言模型模型概述Qwen3-VL 30B-A3B Instruct 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-VL 30B-A3B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 412.4K，获得了 208 个点赞，显示出强大的社区影响力和用户认可度。核心特性 30B active (A3B MoE) 参数规模：采用大规模参数设计，在性能和效率之间...

阅读全文

VideoLLaMA3 7B - 阿里巴巴大型语言模型

Posted on 一月 22, 2024

VideoLLaMA3 7B - 阿里巴巴大型语言模型模型概述VideoLLaMA3 7B 是阿里巴巴公司于 2024 年 1月发布的大型语言模型，拥有 8.04B 参数规模。在代码生成和理解方面表现出色。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 VideoLLaMA3 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 8.04B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Vision：centric multimodal design ...

阅读全文

Multimodal-Mind2Web：让AI理解网页的多模态数据集

Posted on 一月 15, 2024

赋能Web智能体：多模态理解网页的革命性数据集在人工智能快速发展的今天，我们距离通用网页智能体（Web Agent）的目标越来越近。俄亥俄州立大学NLP团队发布的Multimodal-Mind2Web数据集，为这一目标提供了关键支撑。这个包含14,193个网页任务样本的多模态数据集，首次将网页截图与HTML文档完美对齐，让AI真正”看懂”网页。数据集核心特性规模与结构总样本数：14,193行动作记录总任务数：2,022个复杂网页任务数据大小：13.6 GB 模态类型：图像（网页截图）+ 文本（HTML + 自然语言指令）数据划分策略Multimodal-Mind2Web采用了三种不同的测试集划分方式，全面评估模型的泛化能力： Task Split（任务划分）训练集：7,775个动作（1,009个任务）测试集：1,339个动作（177个任务）目的：测试模型对新任...

阅读全文

Public Multimodal Dataset (PMD)：Meta开源的7000万图文对数据集

Posted on 六月 15, 2022

多模态预训练的基石：Meta的7000万图文对开源数据集在多模态AI发展历程中，高质量的图文配对数据始终是核心瓶颈。Meta AI（原Facebook AI Research）于2022年发布的Public Multimodal Dataset（PMD），以7000万图文对、6800万唯一图像的规模，成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础，更为整个AI社区树立了大规模多模态数据集的标杆。数据集概览：规模与构成核心统计数据图文对总数：7000万对唯一图像数：6800万张来源数据集：8个高质量公开数据集主要语言：英语许可证：CC-BY-4.0（需遵守各子数据集许可）数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合，而非单一来源： Conceptual Captions - 高质量的图像描述数据 Concept...

阅读全文