MMIE: 大规模多模态交错理解基准测试

MMIE: 大规模多模态交错理解基准

数据集概览

  • 全称: Massive Multimodal Interleaved Comprehension Benchmark
  • 规模: 20,103个多模态问题
  • 许可证: MIT
  • 发布时间: 2024年10月
  • 下载量: 30/月
  • 点赞数: 12

核心特性

MMIE是专门评估大型视觉-语言模型(LVLMs)在”交错理解和生成”能力方面的基准测试数据集。

覆盖范围

  • 12个主要领域: 数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术、电子工程
  • 102个子领域: 细分的专业领域
  • 3种任务类型:
    • 情境分析 (Situational Analysis)
    • 项目式学习 (Project-Based Learning)
    • 多步推理 (Multi-Step Reasoning)

数据结构

1
2
3
4
5
6
7
8
9
10
11
{
"question_id": "mmie_001",
"domain": "mathematics",
"subdomain": "calculus",
"task_type": "multi-step reasoning",
"question": "问题文本(支持交错的文本和视觉输入)",
"options": ["A", "B", "C", "D"],
"answer": "C",
"ground_truth_reference": "详细解释",
"difficulty": "medium"
}

使用示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
from datasets import load_dataset

# 加载数据集
dataset = load_dataset("MMIE/MMIE")

# 查看数据集信息
print(f"总问题数: {len(dataset['test'])}")

# 按领域筛选
math_questions = dataset['test'].filter(
lambda x: x['domain'] == 'mathematics'
)

# 评估模型
from transformers import AutoModel, AutoProcessor

model = AutoModel.from_pretrained("your-vlm-model")
processor = AutoProcessor.from_pretrained("your-vlm-model")

for item in dataset['test']:
inputs = processor(text=item['question'], images=item.get('images', []))
outputs = model(**inputs)
# 计算准确率

配套评估工具

MMIE提供了自动化评估模型 MMIE-Score,可在HuggingFace上获取,用于:

  • 自动评估模型生成的答案质量
  • 计算多个维度的性能指标
  • 生成详细的评估报告

应用场景

  1. 多模态模型评估: 测试GPT-4V、Gemini等模型的理解能力
  2. 教育AI研究: 评估AI在教育场景中的应用效果
  3. 跨领域泛化: 测试模型在不同专业领域的适应性
  4. 推理能力测试: 评估多步骤逻辑推理能力

与其他基准对比

基准 规模 模态 领域数 交错支持
MMIE 20K 多模态 12
MMMU 11K 多模态 6
VQA v2 1.1M 图文 通用
OK-VQA 14K 图文 通用

关键创新

  1. 交错输入支持: 支持文本和视觉元素的自然混合
  2. 广泛覆盖: 102个细分领域,确保全面评估
  3. 真实场景: 问题来自实际应用场景
  4. 标准化评估: 提供ground truth和自动评估工具

引用

1
2
3
4
5
6
@article{xia2024mmie,
title={MMIE: Massive Multimodal Interleaved Comprehension Benchmark},
author={Xia et al.},
journal={arXiv preprint arXiv:2410.10139},
year={2024}
}

资源链接


质量评分: 4.91/5.0 | 最后更新: 2025-11-11

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero