MMIE: 大规模多模态交错理解基准测试

Posted on 十一月 11, 2025

MMIE: 大规模多模态交错理解基准数据集概览全称: Massive Multimodal Interleaved Comprehension Benchmark 规模: 20,103个多模态问题许可证: MIT 发布时间: 2024年10月下载量: 30/月点赞数: 12 核心特性MMIE是专门评估大型视觉-语言模型(LVLMs)在”交错理解和生成”能力方面的基准测试数据集。覆盖范围 12个主要领域: 数学、物理、编程、统计、文学、哲学、教育、金融、健康、体育、艺术、电子工程 102个子领域: 细分的专业领域 3种任务类型: 情境分析 (Situational Analysis) 项目式学习 (Project-Based Learning) 多步推理 (Multi-Step Reasoning) 数据结构1234567891011{ &qu...

The Cauldron: HuggingFace多模态视觉-语言数据集合

Posted on 十一月 11, 2025

The Cauldron: 多模态视觉-语言数据集合数据集概览创建者: HuggingFace M4团队关联模型: Idefics2-8B 数据类型: 多个视觉-语言子数据集的集合更新时间: 2024年许可证: 多种（根据子集不同）核心特性The Cauldron 是 HuggingFace 精心策划的多模态数据集合，专门用于训练和评估视觉-语言基础模型。它为 Idefics2-8B 等先进的多模态模型提供训练数据。数据集组成The Cauldron 整合了多个高质量的视觉-语言数据集，包括：图像描述数据集: COCO Captions, Conceptual Captions等视觉问答数据集: VQAv2, GQA, OKVQA等文档理解数据集: DocVQA, InfographicVQA等图表理解数据集: ChartQA, PlotQA等多模态推理数据...

NExT-OMNI: 基于离散流匹配的全模态基础模型

Posted on 十月 15, 2025

NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。 NExT-OMNI: 任意模态统一建模的技术突破核心创新:离散流匹配范式NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。为什么选择离散流匹配?传统的多模态模型主要依赖自回归架构,存在以下局限: 生成效率低: 必须逐token顺序生成,无法并行跨模态建模困难: 不同模态的离散表示难以统一长序列性能下降: 对于视频、音频等长序列模态效果欠佳 DFM范式通过构建度量诱导的概率路径,实现了: 并行解...

GPT-5 Pro - OpenAI 大型语言模型

Posted on 十月 6, 2025

GPT-5 Pro - OpenAI 大型语言模型模型概述GPT-5 Pro 是 OpenAI 公司于 2025 年 10月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 Pro 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Extended reasoning for comprehensive answers：提供强大的AI能力支持 88.4% on GPQA without tools (state：of-the-art) Optimized for finance, legal, and...

Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型

Posted on 十月 1, 2025

Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型厂商: Liquid AI发布日期: 2025-10-01模型类型: 音频基础模型模态: 音频、文本参数规模: 1.5B许可证: Apache 2.0 (有商业使用条款)评分: 4.4/5.0 概述Liquid AI LFM2-Audio-1.5B 是 Liquid AI 于 2025 年 10 月 1 日发布的端到端音频基础模型,也是 LFM2 系列的首个音频模型。该模型专为低延迟设计,响应延迟低于 100 毫秒,仅使用 1.5B 参数就实现了出色的音频理解和生成能力。LFM2-Audio 特别适合部署在边缘设备上,包括智能手机、笔记本电脑、车载系统和可穿戴设备。 LFM2-Audio 的发布标志着 Liquid AI 在多模态模型领域的重要扩展,继 LFM2 (文本)、LFM2-VL (视觉-...

Qwen3-VL 30B-A3B Thinking - 阿里巴巴大型语言模型

Posted on 九月 30, 2025

Qwen3-VL 30B-A3B Thinking - 阿里巴巴大型语言模型模型概述Qwen3-VL 30B-A3B Thinking 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-VL 30B-A3B Thinking 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 7.9K，获得了 103 个点赞，显示出强大的社区影响力和用户认可度。核心特性 30B active (A3B MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得...

Qwen3-VL 30B-A3B Instruct - 阿里巴巴大型语言模型

Posted on 九月 30, 2025

Qwen3-VL 30B-A3B Instruct - 阿里巴巴大型语言模型模型概述Qwen3-VL 30B-A3B Instruct 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-VL 30B-A3B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 412.4K，获得了 208 个点赞，显示出强大的社区影响力和用户认可度。核心特性 30B active (A3B MoE) 参数规模：采用大规模参数设计，在性能和效率之间...

Google Gemini 2.5 Flash - Google 高性能多模态语言模型

Posted on 九月 25, 2025

Google Gemini 2.5 Flash - Google 高性能多模态语言模型厂商: Google DeepMind发布日期: 2025-09-25模型类型: 多模态语言模型模态: 文本、图像、视频、音频许可证: 专有商业模型 (Proprietary)评分: 4.5/5.0 概述Google Gemini 2.5 Flash 是 Google DeepMind 于 2025 年 9 月 25 日发布的最新多模态语言模型更新版本,是 Gemini 2.5 系列中专注于高速推理和成本效益的版本。该模型在保持 Gemini 2.5 Pro 级别能力的同时,大幅提升了响应速度和成本效率,特别适合需要大规模部署和实时响应的应用场景。 Gemini 2.5 Flash 在质量和效率方面都实现了显著改进,不仅延续了 Gemini 系列强大的多模态理解能力,还在推理速度、上下...

Tencent HunyuanImage 3.0 - 腾讯大型语言模型

Posted on 九月 25, 2025

Tencent HunyuanImage 3.0 - 腾讯大型语言模型模型概述Tencent HunyuanImage 3.0 是腾讯公司于 2025 年 9月发布的大型语言模型，拥有 83B (MoE, 64 experts, 13B active per token) 参数规模。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Tencent HunyuanImage 3.0 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 2.6K，获得了 853 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Comparable to or surpassing leading closed-source models。核心特性 83B (MoE, 64 experts, 13B active per token...

Qwen-Image-Edit-2509 - 阿里巴巴大型语言模型

Posted on 九月 22, 2025

Qwen-Image-Edit-2509 - 阿里巴巴大型语言模型模型概述Qwen-Image-Edit-2509 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 undisclosed (diffusion model) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen-Image-Edit-2509 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 72.9K，获得了 546 个点赞，显示出强大的社区影响力和用户认可度。 Qwen-Image-Edit-2509 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。...

Qwen3-Omni 30B-A3B Instruct - 阿里巴巴大型语言模型

Posted on 九月 20, 2025

Qwen3-Omni 30B-A3B Instruct - 阿里巴巴大型语言模型模型概述Qwen3-Omni 30B-A3B Instruct 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。 Qwen3-Omni 30B-A3B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 293.6K，获得了 619 个点赞，显示出强大的社区影响力和用户认可度。 Qwen3-Omni 30B-A3B Instruct 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能...

xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%

Posted on 九月 19, 2025

概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率: 价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98% 思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40% Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....

Magistral Small 1.2 2509 - Mistral AI 大型语言模型

Posted on 九月 12, 2025

Magistral Small 1.2 2509 - Mistral AI 大型语言模型模型概述Magistral Small 1.2 2509 是 Mistral AI 公司于 2025 年 9月发布的大型语言模型，拥有 24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Magistral Small 1.2 2509 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.7K，获得了 235 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Smal...

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型

Posted on 八月 15, 2025

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型模型概述Intern-S1 是 InternLM (Shanghai AI Lab) 公司于 2025 年 8月发布的大型语言模型，拥有 235B total (28B activated, MoE) + 6B vision encoder 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Intern-S1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Intern-S1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

GPT-5 - OpenAI 大型语言模型

Posted on 八月 7, 2025

GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Unified system：smart efficient model + GPT-5 thinking reasoning model + real-time router State-of-the-art across all domains：coding, math, writing, he...

Claude Opus 4.1

Posted on 八月 1, 2025

模型概述Claude Opus 4.1是Anthropic推出的Claude 4系列旗舰模型的重大更新版本。该模型在Claude Opus 4的基础上进行了显著改进,专为需要最高智能水平的复杂任务而设计。 Opus 4.1继承了Opus 4在推理、分析和创意写作方面的卓越能力,同时在性能和效率上实现了进一步提升。作为Claude 4系列的顶级模型,Opus 4.1仅向付费客户和API合作伙伴开放,定价为每百万token输入15美元、输出75美元。该模型特别适合需要深度推理、复杂分析和高质量输出的专业应用场景。技术规格核心参数参数规模: 未公开(推测为Claude 4系列最大规模) 上下文长度: 200,000 tokens 架构: 先进Transformer架构,针对推理和分析优化训练数据: 未公开详细信息,训练数据截至2024年关键创新增强推理能力 - 在Claud...

Gemini 2.5 深度思考

Posted on 八月 1, 2025

模型概述Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。技术规格核心参数参数规模: 未公开(基于Gemini 2.5 Pro架构) 上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出 ...

Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品

Posted on 八月 1, 2025

概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。 Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法: 同时探索多个假设: 模型可以并行探...

Grok 4

Posted on 七月 10, 2025

模型概述Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。 Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。技术规格核心参数参数规模: 约1.7万亿参数上下文长度: 256,000 tokens 架构: 大规模Transformer架构,采用混合专家系统(MoE) 训练数据: 未公开详细信...

xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

Posted on 七月 10, 2025

概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。 Grok 4 Heavy 的表现: Humanity’s Last Exam: 50.7%(首个突破 50% 的模型) 带工具使用: 44.4%(使用多个 AI 智能体协作) 相比之下,竞争对手的表现: G...

Voxtral Small 24B 2507 - Mistral AI 大型语言模型

Posted on 七月 1, 2025

Voxtral Small 24B 2507 - Mistral AI 大型语言模型模型概述Voxtral Small 24B 2507 是 Mistral AI 公司于 2025 年 7月发布的大型语言模型，拥有 24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Voxtral Small 24B 2507 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 40.0K，获得了 412 个点赞，显示出强大的社区影响力和用户认可度。 Voxtral Small 24B 2507 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布...

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型

Posted on 六月 19, 2025

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型模型概述Mistral Small 3.2 24B Instruct 2506 是 Mistral AI 公司于 2025 年 6月发布的大型语言模型，拥有 24B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral Small 3.2 24B Instruct 2506 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 726.8K，获得了 476 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规...

Lingshu-7B - 阿里巴巴大型语言模型

Posted on 六月 15, 2025

Lingshu-7B - 阿里巴巴大型语言模型模型概述Lingshu-7B 是阿里巴巴公司于 2025 年 6月发布的大型语言模型，拥有 7B (also 32B variant available) 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B (also ...

Gemma 3n E4B IT - 谷歌大型语言模型

Posted on 六月 3, 2025

Gemma 3n E4B IT - 谷歌大型语言模型模型概述Gemma 3n E4B IT 是谷歌公司于 2025 年 6月发布的大型语言模型，拥有 E4B (4B effective, 8B raw with MatFormer) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型支持商业使用，为企业部署提供了法律保障。 Gemma 3n E4B IT 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 699.2K，获得了 794 个点赞，显示出强大的社区影响力和用户认可度。 Gemma 3n E4B IT 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代...

Llama 4 系列：Meta的开源多模态MoE模型

Posted on 四月 5, 2025

Llama 4 系列：Meta的开源多模态MoE模型概述2025年4月5日，Meta正式发布了Llama 4系列模型，包括Llama 4 Scout和Llama 4 Maverick。这是Meta在开源AI领域的又一重大突破，首次将多模态能力、混合专家（MoE）架构和超长上下文窗口结合在一起，为开源社区提供了极具竞争力的大语言模型。系列模型对比模型名称激活参数总参数量专家数量上下文长度主要特点 Llama 4 Scout 17B 109B 16 10M tokens 超长上下文，适合文档分析 Llama 4 Maverick 17B 400B 128 未公开大规模专家网络，最强性能 Llama 4 Behemoth 288B ~2T 16 未公开推迟发布，旗舰级模型注：Behemoth模型在发布时仍在训练中，预计2025年秋季或更晚发布核心...

Llama 4 Scout - Meta 大型语言模型

Posted on 四月 5, 2025

Llama 4 Scout - Meta 大型语言模型模型概述Llama 4 Scout 是 Meta 公司于 2025 年 4月发布的大型语言模型，拥有 17B active (16 experts, MoE) 参数规模。作为基座模型，它为下游任务提供了强大的基础能力。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 4 Scout 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 17B active (16 experts, MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 First open：wei...

Gemini 2.5 系列：Google DeepMind的突破性思考模型

Posted on 三月 25, 2025

Gemini 2.5 系列：Google DeepMind的突破性思考模型概述2025年3月25日，Google DeepMind发布了Gemini 2.5系列，这是一个具有革命性意义的多模态推理AI模型家族。Gemini 2.5最大的突破在于其”思考能力”（Thinking Capability），能够在回应之前进行深度推理，这使其成为Google迄今为止最智能的AI模型。系列模型对比模型名称主要特点发布时间最佳用途 Gemini 2.5 Pro 旗舰推理模型，支持深度思考模式 2025-03-25 复杂推理、科学研究、高级编程 Gemini 2.5 Flash 快速推理，高效率 2025-09-25 生产环境、实时应用 Gemini 2.5 Flash Image 最先进的图像生成和编辑 2025-08-26 图像创作、视觉内容生成 Gemini ...

Gemma 3 27B IT - 谷歌大型语言模型

Posted on 三月 1, 2025

Gemma 3 27B IT - 谷歌大型语言模型模型概述Gemma 3 27B IT 是谷歌公司于 2025 年 3月发布的大型语言模型，拥有 27B 参数规模。该模型支持商业使用，为企业部署提供了法律保障。 Gemma 3 27B IT 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.2M，获得了 1,639 个点赞，显示出强大的社区影响力和用户认可度。 Gemma 3 27B IT 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 27B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Multimodal：te...

xAI Grok 3 - xAI 推理语言模型

Posted on 二月 17, 2025

xAI Grok 3 - xAI 推理语言模型厂商: xAI (Elon Musk)发布日期: 2025-02-17模型类型: 推理语言模型模态: 文本、图像许可证: 专有商业模型 (Proprietary)评分: 4.2/5.0 概述xAI Grok 3 是由 Elon Musk 创立的 xAI 公司于 2025 年 2 月 17 日正式发布的最新旗舰 AI 模型。该模型被誉为”推理代理时代”的里程碑,在强大的预训练知识基础上融合了卓越的推理能力。Grok 3 在 Colossus 超级集群上训练,使用的计算量是此前最先进模型的 10 倍,展现了 xAI 在 AI 基础设施方面的雄心。 Grok 3 的发布标志着 xAI 在与 OpenAI、Anthropic、Google 等巨头的竞争中迈出了重要一步。该模型不仅在多个基准测试中展现出色表现,还通过与 X 平台(原 ...

自动提示工程综述：优化视角

Posted on 二月 17, 2025

A Survey of Automatic Prompt Engineering: An Optimization Perspective ArXiv ID: 2502.11560作者: Wenwu Li, Xiangfeng Wang, Wenhao Li, Bo Jin发布日期: 2025-02-17分类: prompt-engineering, optimization 摘要基础模型的兴起使研究焦点从资源密集型的微调转向提示工程——一种通过输入设计而非权重更新来引导模型行为的范式。本综述首次从统一的优化视角对自动提示工程进行了全面考察。我们将提示优化形式化为离散、连续和混合提示空间上的最大化问题，考察了基于基础模型的优化、进化方法、基于梯度的优化和强化学习方法。通过分析优化变量 (指令、软提示、样例)、任务特定目标和计算框架，我们在理论形式化与跨文本、视觉和多模态领域的实际实...

Janus-Pro-7B - DeepSeek 大型语言模型

Posted on 一月 26, 2025

Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 78.7K，获得了 3,508 个点赞，显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得...

Gemini 2.0 Flash - 谷歌大型语言模型

Posted on 十二月 19, 2024

Gemini 2.0 Flash - 谷歌大型语言模型模型概述Gemini 2.0 Flash 是谷歌公司于 2024 年 12月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 Gemini 2.0 Flash 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Native multimodal input：images, video, audio, and text Native multimodal output：text, images, and steerable TTS audio Designed for agentic AI ...

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型

Posted on 五月 13, 2024

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。在性能方面，Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Native multim...

VideoLLaMA3 7B - 阿里巴巴大型语言模型

Posted on 一月 22, 2024

VideoLLaMA3 7B - 阿里巴巴大型语言模型模型概述VideoLLaMA3 7B 是阿里巴巴公司于 2024 年 1月发布的大型语言模型，拥有 8.04B 参数规模。在代码生成和理解方面表现出色。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 VideoLLaMA3 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 8.04B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Vision：centric multimodal design ...

Multimodal-Mind2Web：让AI理解网页的多模态数据集

Posted on 一月 15, 2024

赋能Web智能体：多模态理解网页的革命性数据集在人工智能快速发展的今天，我们距离通用网页智能体（Web Agent）的目标越来越近。俄亥俄州立大学NLP团队发布的Multimodal-Mind2Web数据集，为这一目标提供了关键支撑。这个包含14,193个网页任务样本的多模态数据集，首次将网页截图与HTML文档完美对齐，让AI真正”看懂”网页。数据集核心特性规模与结构总样本数：14,193行动作记录总任务数：2,022个复杂网页任务数据大小：13.6 GB 模态类型：图像（网页截图）+ 文本（HTML + 自然语言指令）数据划分策略Multimodal-Mind2Web采用了三种不同的测试集划分方式，全面评估模型的泛化能力： Task Split（任务划分）训练集：7,775个动作（1,009个任务）测试集：1,339个动作（177个任务）目的：测试模型对新任...

Public Multimodal Dataset (PMD)：Meta开源的7000万图文对数据集

Posted on 六月 15, 2022

多模态预训练的基石：Meta的7000万图文对开源数据集在多模态AI发展历程中，高质量的图文配对数据始终是核心瓶颈。Meta AI（原Facebook AI Research）于2022年发布的Public Multimodal Dataset（PMD），以7000万图文对、6800万唯一图像的规模，成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础，更为整个AI社区树立了大规模多模态数据集的标杆。数据集概览：规模与构成核心统计数据图文对总数：7000万对唯一图像数：6800万张来源数据集：8个高质量公开数据集主要语言：英语许可证：CC-BY-4.0（需遵守各子数据集许可）数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合，而非单一来源： Conceptual Captions - 高质量的图像描述数据 Concept...