MMIE: 大规模多模态交错理解基准
数据集概览
- 全称: Massive Multimodal Interleaved Comprehension Benchmark
- 规模: 20,103个多模态问题
- 许可证: MIT
- 发布时间: 2024年10月
- 下载量: 30/月
- 点赞数: 12
核心特性
MMIE是专门评估大型视觉-语言模型(LVLMs)在”交错理解和生成”能力方面的基准测试数据集。
覆盖范围
- 12个主要领域: 数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术、电子工程
- 102个子领域: 细分的专业领域
- 3种任务类型:
- 情境分析 (Situational Analysis)
- 项目式学习 (Project-Based Learning)
- 多步推理 (Multi-Step Reasoning)
数据结构
1 | { |
使用示例
1 | from datasets import load_dataset |
配套评估工具
MMIE提供了自动化评估模型 MMIE-Score,可在HuggingFace上获取,用于:
- 自动评估模型生成的答案质量
- 计算多个维度的性能指标
- 生成详细的评估报告
应用场景
- 多模态模型评估: 测试GPT-4V、Gemini等模型的理解能力
- 教育AI研究: 评估AI在教育场景中的应用效果
- 跨领域泛化: 测试模型在不同专业领域的适应性
- 推理能力测试: 评估多步骤逻辑推理能力
与其他基准对比
| 基准 | 规模 | 模态 | 领域数 | 交错支持 |
|---|---|---|---|---|
| MMIE | 20K | 多模态 | 12 | ✅ |
| MMMU | 11K | 多模态 | 6 | ❌ |
| VQA v2 | 1.1M | 图文 | 通用 | ❌ |
| OK-VQA | 14K | 图文 | 通用 | ❌ |
关键创新
- 交错输入支持: 支持文本和视觉元素的自然混合
- 广泛覆盖: 102个细分领域,确保全面评估
- 真实场景: 问题来自实际应用场景
- 标准化评估: 提供ground truth和自动评估工具
引用
1 | @article{xia2024mmie, |
资源链接
- 数据集: https://huggingface.co/datasets/MMIE/MMIE
- 论文: https://arxiv.org/abs/2410.10139
- 评估工具: https://huggingface.co/MMIE/MMIE-Score
质量评分: 4.91/5.0 | 最后更新: 2025-11-11