Multimodal-Mind2Web:让AI理解网页的多模态数据集

赋能Web智能体:多模态理解网页的革命性数据集在人工智能快速发展的今天,我们距离通用网页智能体(Web Agent)的目标越来越近。俄亥俄州立大学NLP团队发布的Multimodal-Mind2Web数据集,为这一目标提供了关键支撑。这个包含14,193个网页任务样本的多模态数据集,首次将网页截图与HTML文档完美对齐,让AI真正”看懂”网页。 数据集核心特性规模与结构 总样本数:14,193行动作记录 总任务数:2,022个复杂网页任务 数据大小:13.6 GB 模态类型:图像(网页截图)+ 文本(HTML + 自然语言指令) 数据划分策略Multimodal-Mind2Web采用了三种不同的测试集划分方式,全面评估模型的泛化能力: Task Split(任务划分) 训练集:7,775个动作(1,009个任务) 测试集:1,339个动作(177个任务) 目的:测试模型对新任...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero