NExT-OMNI: 基于离散流匹配的全模态基础模型

Posted on 十月 15, 2025

NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。 NExT-OMNI: 任意模态统一建模的技术突破核心创新:离散流匹配范式NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。为什么选择离散流匹配?传统的多模态模型主要依赖自回归架构,存在以下局限: 生成效率低: 必须逐token顺序生成,无法并行跨模态建模困难: 不同模态的离散表示难以统一长序列性能下降: 对于视频、音频等长序列模态效果欠佳 DFM范式通过构建度量诱导的概率路径,实现了: 并行解...

Anthropic 发布 Claude Haiku 4.5：性能接近旗舰,成本仅三分之一

Posted on 十月 15, 2025

概述2025年10月15日,Anthropic 发布了 Claude Haiku 4.5,这是该公司最新的小型 AI 模型。虽然定位为「小型模型」,但 Haiku 4.5 的性能表现却远超预期,在编程能力上达到了旗舰模型 Sonnet 4.5 的 90%,而成本仅为 Sonnet 4 的三分之一,速度则快了两倍以上。核心优势接近旗舰的编程能力Claude Haiku 4.5 在代码生成和调试方面表现出色,在 SWE-bench Verified 基准测试中取得了 73.3% 的成绩,仅比旗舰模型 Sonnet 4.5(77.2%)低约 5 个百分点。在 Augment 的智能编程评估中,Haiku 4.5 达到了 Sonnet 4.5 性能的 90%。这意味着开发者可以用更低的成本获得接近旗舰级的编程辅助能力。极致的性价比Haiku 4.5 的定价策略极具竞争力: 输入: 每百...

LFM2-8B-A1B - Liquid AI 大型语言模型

Posted on 十月 7, 2025

LFM2-8B-A1B - Liquid AI 大型语言模型模型概述LFM2-8B-A1B 是 Liquid AI 公司于 2025 年 10月发布的大型语言模型，拥有 8.3B total (1.5B active per token, MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型支持商业使用，为企业部署提供了法律保障。 LFM2-8B-A1B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 2.4K，获得了 152 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 32K tokens 的超长上下文窗口。 LFM2-8B-A1B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语...

GPT-5 Pro - OpenAI 大型语言模型

Posted on 十月 6, 2025

GPT-5 Pro - OpenAI 大型语言模型模型概述GPT-5 Pro 是 OpenAI 公司于 2025 年 10月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 Pro 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Extended reasoning for comprehensive answers：提供强大的AI能力支持 88.4% on GPQA without tools (state：of-the-art) Optimized for finance, legal, and...

Ling-1T - inclusionAI 大型语言模型

Posted on 十月 2, 2025

Ling-1T - inclusionAI 大型语言模型模型概述Ling-1T 是 inclusionAI 公司于 2025 年 10月发布的大型语言模型，拥有 1T total (~50B active per token, MoE 1/32 activation ratio) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Ling-1T 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 715，获得了 197 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，State-of-the-art on complex reasoning benchmarks。核心特性 1T total (~50B active p...

IBM Granite 4.0 H-Small - IBM 大型语言模型

Posted on 十月 2, 2025

IBM Granite 4.0 H-Small - IBM 大型语言模型模型概述IBM Granite 4.0 H-Small 是 IBM 公司于 2025 年 10月发布的大型语言模型，拥有 32.2B (MoE Hybrid) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 IBM Granite 4.0 H-Small 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 22.1K，获得了 241 个点赞，显示出强大的社区影响力和用户认可度。核心特性 32.2B (MoE Hybrid) 参数规模：采用大...

Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型

Posted on 十月 1, 2025

Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型厂商: Liquid AI发布日期: 2025-10-01模型类型: 音频基础模型模态: 音频、文本参数规模: 1.5B许可证: Apache 2.0 (有商业使用条款)评分: 4.4/5.0 概述Liquid AI LFM2-Audio-1.5B 是 Liquid AI 于 2025 年 10 月 1 日发布的端到端音频基础模型,也是 LFM2 系列的首个音频模型。该模型专为低延迟设计,响应延迟低于 100 毫秒,仅使用 1.5B 参数就实现了出色的音频理解和生成能力。LFM2-Audio 特别适合部署在边缘设备上,包括智能手机、笔记本电脑、车载系统和可穿戴设备。 LFM2-Audio 的发布标志着 Liquid AI 在多模态模型领域的重要扩展,继 LFM2 (文本)、LFM2-VL (视觉-...

Qwen3-VL 30B-A3B Thinking - 阿里巴巴大型语言模型

Posted on 九月 30, 2025

Qwen3-VL 30B-A3B Thinking - 阿里巴巴大型语言模型模型概述Qwen3-VL 30B-A3B Thinking 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-VL 30B-A3B Thinking 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 7.9K，获得了 103 个点赞，显示出强大的社区影响力和用户认可度。核心特性 30B active (A3B MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得...

Qwen3-VL 30B-A3B Instruct - 阿里巴巴大型语言模型

Posted on 九月 30, 2025

Qwen3-VL 30B-A3B Instruct - 阿里巴巴大型语言模型模型概述Qwen3-VL 30B-A3B Instruct 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-VL 30B-A3B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 412.4K，获得了 208 个点赞，显示出强大的社区影响力和用户认可度。核心特性 30B active (A3B MoE) 参数规模：采用大规模参数设计，在性能和效率之间...

Claude Sonnet 4.5 - Anthropic 大型语言模型

Posted on 九月 29, 2025

Claude Sonnet 4.5 - Anthropic 大型语言模型模型概述Claude Sonnet 4.5 是 Anthropic 公司于 2025 年 9月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4.5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model：77.2% on SWE-bench Verified World’s best agent model：61.4% on OSWor...

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型

Posted on 九月 29, 2025

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型模型概述DeepSeek-V3.2-Exp 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型，拥有 685B (MoE with DeepSeek Sparse Attention) 参数规模。在代码生成和理解方面表现出色。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3.2-Exp 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 42.9K，获得了 607 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-V3.2-Exp 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成...

GLM-4.6 - 智谱AI 大型语言模型

Posted on 九月 29, 2025

GLM-4.6 - 智谱AI 大型语言模型模型概述GLM-4.6 是智谱AI 公司于 2025 年 9月发布的大型语言模型，拥有 356.8B total (MoE) 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 GLM-4.6 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.6K，获得了 672 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with DeepSeek-V3.1-Terminus and Claude Sonnet 4。 GLM-4.6 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是...

Google Gemini 2.5 Flash - Google 高性能多模态语言模型

Posted on 九月 25, 2025

Google Gemini 2.5 Flash - Google 高性能多模态语言模型厂商: Google DeepMind发布日期: 2025-09-25模型类型: 多模态语言模型模态: 文本、图像、视频、音频许可证: 专有商业模型 (Proprietary)评分: 4.5/5.0 概述Google Gemini 2.5 Flash 是 Google DeepMind 于 2025 年 9 月 25 日发布的最新多模态语言模型更新版本,是 Gemini 2.5 系列中专注于高速推理和成本效益的版本。该模型在保持 Gemini 2.5 Pro 级别能力的同时,大幅提升了响应速度和成本效率,特别适合需要大规模部署和实时响应的应用场景。 Gemini 2.5 Flash 在质量和效率方面都实现了显著改进,不仅延续了 Gemini 系列强大的多模态理解能力,还在推理速度、上下...

Tencent HunyuanImage 3.0 - 腾讯大型语言模型

Posted on 九月 25, 2025

Tencent HunyuanImage 3.0 - 腾讯大型语言模型模型概述Tencent HunyuanImage 3.0 是腾讯公司于 2025 年 9月发布的大型语言模型，拥有 83B (MoE, 64 experts, 13B active per token) 参数规模。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Tencent HunyuanImage 3.0 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 2.6K，获得了 853 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Comparable to or surpassing leading closed-source models。核心特性 83B (MoE, 64 experts, 13B active per token...

DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型

Posted on 九月 22, 2025

DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型模型概述DeepSeek-V3.1-Terminus 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型，拥有 685B total (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3.1-Terminus 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 20.7K，获得了 314 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-V3.1-Terminus 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表...

Qwen-Image-Edit-2509 - 阿里巴巴大型语言模型

Posted on 九月 22, 2025

Qwen-Image-Edit-2509 - 阿里巴巴大型语言模型模型概述Qwen-Image-Edit-2509 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 undisclosed (diffusion model) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen-Image-Edit-2509 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 72.9K，获得了 546 个点赞，显示出强大的社区影响力和用户认可度。 Qwen-Image-Edit-2509 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。...

Qwen3-Omni 30B-A3B Instruct - 阿里巴巴大型语言模型

Posted on 九月 20, 2025

Qwen3-Omni 30B-A3B Instruct - 阿里巴巴大型语言模型模型概述Qwen3-Omni 30B-A3B Instruct 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 30B active (A3B MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。 Qwen3-Omni 30B-A3B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 293.6K，获得了 619 个点赞，显示出强大的社区影响力和用户认可度。 Qwen3-Omni 30B-A3B Instruct 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能...

xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%

Posted on 九月 19, 2025

概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率: 价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98% 思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40% Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....

Magistral Small 1.2 2509 - Mistral AI 大型语言模型

Posted on 九月 12, 2025

Magistral Small 1.2 2509 - Mistral AI 大型语言模型模型概述Magistral Small 1.2 2509 是 Mistral AI 公司于 2025 年 9月发布的大型语言模型，拥有 24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Magistral Small 1.2 2509 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.7K，获得了 235 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Smal...

S1-Base-671B - ScienceOne AI 大型语言模型

Posted on 九月 1, 2025

S1-Base-671B - ScienceOne AI 大型语言模型模型概述S1-Base-671B 是 ScienceOne AI 公司于 2025 年 9月发布的大型语言模型，拥有 671B (Heterogeneous Mixture-of-Experts) 参数规模。具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 S1-Base-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 S1-Base-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工...

Microsoft MAI-1-Preview - 微软大型语言模型

Posted on 八月 28, 2025

Microsoft MAI-1-Preview - 微软大型语言模型模型概述Microsoft MAI-1-Preview 是微软公司于 2025 年 8月发布的大型语言模型，拥有 undisclosed (Mixture-of-Experts) 参数规模。作为基座模型，它为下游任务提供了强大的基础能力。该模型支持商业使用，为企业部署提供了法律保障。 Microsoft MAI-1-Preview 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 undisclosed (Mixture-of-Experts) 参数规模：采用大规模参数设计，在性能和效率之间取...

Microsoft MAI-Voice-1 - 微软大型语言模型

Posted on 八月 28, 2025

Microsoft MAI-Voice-1 - 微软大型语言模型模型概述Microsoft MAI-Voice-1 是微软公司于 2025 年 8月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 Microsoft MAI-Voice-1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Ultra-fast generation：1 minute of audio in <1 second on single GPU Highly expressive and natural speech synthesis：提供强大的AI能力支持...

NVIDIA Nemotron Nano 9B v2 - 英伟达大型语言模型

Posted on 八月 18, 2025

NVIDIA Nemotron Nano 9B v2 - 英伟达大型语言模型模型概述NVIDIA Nemotron Nano 9B v2 是英伟达公司于 2025 年 8月发布的大型语言模型，拥有 9B (pruned from 12B base) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 NVIDIA Nemotron Nano 9B v2 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 NVIDIA Nemotron Nano 9B v2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型...

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型

Posted on 八月 15, 2025

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型模型概述Intern-S1 是 InternLM (Shanghai AI Lab) 公司于 2025 年 8月发布的大型语言模型，拥有 235B total (28B activated, MoE) + 6B vision encoder 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Intern-S1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Intern-S1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

GPT-5：OpenAI发布的统一智能系统

Posted on 八月 7, 2025

GPT-5：OpenAI发布的统一智能系统概述2025年8月7日，OpenAI正式发布了其最新一代AI系统GPT-5，这是一个突破性的统一智能系统，标志着人工智能发展的新里程碑。GPT-5不仅在性能上实现了显著提升，更重要的是它引入了”自适应思考”的能力，能够智能判断何时快速响应，何时需要深度推理。核心特性统一系统架构GPT-5采用了创新的统一系统架构，这是其与前代模型最大的区别。该系统能够：智能模式切换：根据问题的复杂度自动选择快速响应模式或深度思考模式实时路由：通过内置的智能路由系统，将任务分配给最适合的处理模式双模协同：在即时响应和延展思考之间无缝切换，提供最优的性能-延迟平衡这种统一架构使得GPT-5在处理简单查询时保持极快的响应速度，同时在面对复杂问题时能够进行深入的推理和分析。卓越的性能表现GPT-5在多个基准测试中取得了突破性的成绩： AIME 202...

GPT-5 - OpenAI 大型语言模型

Posted on 八月 7, 2025

GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Unified system：smart efficient model + GPT-5 thinking reasoning model + real-time router State-of-the-art across all domains：coding, math, writing, he...

Claude Opus 4.1

Posted on 八月 1, 2025

模型概述Claude Opus 4.1是Anthropic推出的Claude 4系列旗舰模型的重大更新版本。该模型在Claude Opus 4的基础上进行了显著改进,专为需要最高智能水平的复杂任务而设计。 Opus 4.1继承了Opus 4在推理、分析和创意写作方面的卓越能力,同时在性能和效率上实现了进一步提升。作为Claude 4系列的顶级模型,Opus 4.1仅向付费客户和API合作伙伴开放,定价为每百万token输入15美元、输出75美元。该模型特别适合需要深度推理、复杂分析和高质量输出的专业应用场景。技术规格核心参数参数规模: 未公开(推测为Claude 4系列最大规模) 上下文长度: 200,000 tokens 架构: 先进Transformer架构,针对推理和分析优化训练数据: 未公开详细信息,训练数据截至2024年关键创新增强推理能力 - 在Claud...

Gemini 2.5 深度思考

Posted on 八月 1, 2025

模型概述Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。技术规格核心参数参数规模: 未公开(基于Gemini 2.5 Pro架构) 上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出 ...

Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品

Posted on 八月 1, 2025

概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。 Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法: 同时探索多个假设: 模型可以并行探...

Grok 4

Posted on 七月 10, 2025

模型概述Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。 Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。技术规格核心参数参数规模: 约1.7万亿参数上下文长度: 256,000 tokens 架构: 大规模Transformer架构,采用混合专家系统(MoE) 训练数据: 未公开详细信...

xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

Posted on 七月 10, 2025

概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。 Grok 4 Heavy 的表现: Humanity’s Last Exam: 50.7%(首个突破 50% 的模型) 带工具使用: 44.4%(使用多个 AI 智能体协作) 相比之下,竞争对手的表现: G...

Grok 4：xAI的突破性推理模型与高端订阅服务

Posted on 七月 9, 2025

Grok 4：xAI的突破性推理模型与高端订阅服务概述2025年7月9日，Elon Musk旗下的xAI公司正式发布了Grok 4系列模型，并同时推出了价格高达每月300美元的SuperGrok Heavy订阅服务。Grok 4在AGI基准测试ARC-AGI-2上取得了突破性的15.9%成绩，几乎是之前商业最先进水平的两倍，标志着AI向通用人工智能迈出的重要一步。发布活动盛大的线上发布会直播规模：在X平台（前Twitter）进行直播 Elon Musk亲自主持演示超过150万人在线观看创造了AI产品发布的观看记录发布形式：实时产品演示互动问答环节性能基准展示用户体验分享系列模型概览模型名称定价主要特点目标用户 Grok 4 $30/月标准推理能力普通用户、开发者 Grok 4 Heavy $300/月 (Sup...

Voxtral Small 24B 2507 - Mistral AI 大型语言模型

Posted on 七月 1, 2025

Voxtral Small 24B 2507 - Mistral AI 大型语言模型模型概述Voxtral Small 24B 2507 是 Mistral AI 公司于 2025 年 7月发布的大型语言模型，拥有 24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Voxtral Small 24B 2507 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 40.0K，获得了 412 个点赞，显示出强大的社区影响力和用户认可度。 Voxtral Small 24B 2507 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布...

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型

Posted on 六月 19, 2025

Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型模型概述Mistral Small 3.2 24B Instruct 2506 是 Mistral AI 公司于 2025 年 6月发布的大型语言模型，拥有 24B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral Small 3.2 24B Instruct 2506 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 726.8K，获得了 476 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规...

Lingshu-7B - 阿里巴巴大型语言模型

Posted on 六月 15, 2025

Lingshu-7B - 阿里巴巴大型语言模型模型概述Lingshu-7B 是阿里巴巴公司于 2025 年 6月发布的大型语言模型，拥有 7B (also 32B variant available) 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B (also ...

Gemma 3n E4B IT - 谷歌大型语言模型

Posted on 六月 3, 2025

Gemma 3n E4B IT - 谷歌大型语言模型模型概述Gemma 3n E4B IT 是谷歌公司于 2025 年 6月发布的大型语言模型，拥有 E4B (4B effective, 8B raw with MatFormer) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型支持商业使用，为企业部署提供了法律保障。 Gemma 3n E4B IT 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 699.2K，获得了 794 个点赞，显示出强大的社区影响力和用户认可度。 Gemma 3n E4B IT 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代...

DeepSeek-R1-0528 - DeepSeek 大型语言模型

Posted on 五月 28, 2025

DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 599.4K，获得了 2,377 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领...

Claude 4 系列：Anthropic发布的世界级编码和推理模型

Posted on 五月 22, 2025

Claude 4 系列：Anthropic发布的世界级编码和推理模型概述2025年5月22日，Anthropic在旧金山举行的首届开发者大会上正式发布了Claude 4系列模型，包括Claude Opus 4和Claude Sonnet 4。这两款模型在编码能力、高级推理和AI智能体应用方面树立了新的行业标准，特别是Claude Opus 4被誉为”世界最佳编码模型”。系列模型对比模型名称参数规模主要优势定价（输入/输出）最佳用途 Claude Opus 4 未公开世界级编码能力，持续多小时工作 $15/$75 per M tokens 复杂软件开发、长期任务 Claude Sonnet 4 未公开优秀的编码和推理，精准指令遵循 $3/$15 per M tokens 日常开发、生产应用 Claude Opus 4：世界...

Claude Opus 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Opus 4 - Anthropic 大型语言模型模型概述Claude Opus 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Opus 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model at release：72.5% on SWE-bench 43.2% on Terminal：bench Hybrid dual-mode：near-ins...

Claude Sonnet 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Sonnet 4 - Anthropic 大型语言模型模型概述Claude Sonnet 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Significant upgrade from Claude Sonnet 3.7：提供强大的AI能力支持 Superior coding and reasoning capabilities：提...

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型

Posted on 四月 30, 2025

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型，拥有 671B (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.6K，获得了 811 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

Qwen3：阿里云通义千问混合推理大模型

Posted on 四月 28, 2025

概述Qwen3是阿里云通义千问团队于2025年4月28日发布的第三代大语言模型系列，包含从0.6B到235B参数的多个变体，支持密集和混合专家(MoE)两种架构。该系列模型的核心创新在于统一的混合推理框架，能够在思考模式(用于复杂多步推理)和非思考模式(用于快速响应)之间无缝切换，无需在不同模型间切换。Qwen3在36万亿tokens数据上进行预训练，是前代Qwen2.5的两倍，并将多语言支持从29种扩展到119种语言和方言。核心创新Qwen3最突出的创新是其统一的混合推理框架。传统方法需要为不同任务部署不同的模型(如ChatGPT用于通用对话，o1用于复杂推理)，而Qwen3将这两种能力整合到单一模型中。通过动态思考预算机制，用户可以根据任务复杂度自适应地分配计算资源，在延迟和性能之间找到最佳平衡点。这种设计理念的实现依赖于Qwen3创新的训练策略。团队在预训练阶段使用了36万...

Qwen3-0.6B - 阿里巴巴大型语言模型

Posted on 四月 27, 2025

Qwen3-0.6B - 阿里巴巴大型语言模型模型概述Qwen3-0.6B 是阿里巴巴公司于 2025 年 4月发布的大型语言模型，拥有 0.6B (751.6M total) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen3-0.6B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 19.5M，获得了 695 个点赞，显示出强大的社区影响力和用户认可度。核心特性 0.6B (751.6M total) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Unique think...

Llama 4 系列：Meta的开源多模态MoE模型

Posted on 四月 5, 2025

Llama 4 系列：Meta的开源多模态MoE模型概述2025年4月5日，Meta正式发布了Llama 4系列模型，包括Llama 4 Scout和Llama 4 Maverick。这是Meta在开源AI领域的又一重大突破，首次将多模态能力、混合专家（MoE）架构和超长上下文窗口结合在一起，为开源社区提供了极具竞争力的大语言模型。系列模型对比模型名称激活参数总参数量专家数量上下文长度主要特点 Llama 4 Scout 17B 109B 16 10M tokens 超长上下文，适合文档分析 Llama 4 Maverick 17B 400B 128 未公开大规模专家网络，最强性能 Llama 4 Behemoth 288B ~2T 16 未公开推迟发布，旗舰级模型注：Behemoth模型在发布时仍在训练中，预计2025年秋季或更晚发布核心...

Llama 4 Scout - Meta 大型语言模型

Posted on 四月 5, 2025

Llama 4 Scout - Meta 大型语言模型模型概述Llama 4 Scout 是 Meta 公司于 2025 年 4月发布的大型语言模型，拥有 17B active (16 experts, MoE) 参数规模。作为基座模型，它为下游任务提供了强大的基础能力。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 4 Scout 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 17B active (16 experts, MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 First open：wei...

Gemini 2.5 系列：Google DeepMind的突破性思考模型

Posted on 三月 25, 2025

Gemini 2.5 系列：Google DeepMind的突破性思考模型概述2025年3月25日，Google DeepMind发布了Gemini 2.5系列，这是一个具有革命性意义的多模态推理AI模型家族。Gemini 2.5最大的突破在于其”思考能力”（Thinking Capability），能够在回应之前进行深度推理，这使其成为Google迄今为止最智能的AI模型。系列模型对比模型名称主要特点发布时间最佳用途 Gemini 2.5 Pro 旗舰推理模型，支持深度思考模式 2025-03-25 复杂推理、科学研究、高级编程 Gemini 2.5 Flash 快速推理，高效率 2025-09-25 生产环境、实时应用 Gemini 2.5 Flash Image 最先进的图像生成和编辑 2025-08-26 图像创作、视觉内容生成 Gemini ...

Gemma 3 27B IT - 谷歌大型语言模型

Posted on 三月 1, 2025

Gemma 3 27B IT - 谷歌大型语言模型模型概述Gemma 3 27B IT 是谷歌公司于 2025 年 3月发布的大型语言模型，拥有 27B 参数规模。该模型支持商业使用，为企业部署提供了法律保障。 Gemma 3 27B IT 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.2M，获得了 1,639 个点赞，显示出强大的社区影响力和用户认可度。 Gemma 3 27B IT 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 27B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Multimodal：te...

xAI Grok 3 - xAI 推理语言模型

Posted on 二月 17, 2025

xAI Grok 3 - xAI 推理语言模型厂商: xAI (Elon Musk)发布日期: 2025-02-17模型类型: 推理语言模型模态: 文本、图像许可证: 专有商业模型 (Proprietary)评分: 4.2/5.0 概述xAI Grok 3 是由 Elon Musk 创立的 xAI 公司于 2025 年 2 月 17 日正式发布的最新旗舰 AI 模型。该模型被誉为”推理代理时代”的里程碑,在强大的预训练知识基础上融合了卓越的推理能力。Grok 3 在 Colossus 超级集群上训练,使用的计算量是此前最先进模型的 10 倍,展现了 xAI 在 AI 基础设施方面的雄心。 Grok 3 的发布标志着 xAI 在与 OpenAI、Anthropic、Google 等巨头的竞争中迈出了重要一步。该模型不仅在多个基准测试中展现出色表现,还通过与 X 平台(原 ...

Phi-4-mini-instruct 3.8B - 微软大型语言模型

Posted on 二月 1, 2025

Phi-4-mini-instruct 3.8B - 微软大型语言模型模型概述Phi-4-mini-instruct 3.8B 是微软公司于 2025 年 2月发布的大型语言模型，拥有 3.8B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Phi-4-mini-instruct 3.8B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with 7-8B models。核心特性 3.8B 参数规模：采用大规模参数设计，在性能和效率...

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型

Posted on 一月 28, 2025

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型模型概述Mistral Small 24B Instruct 2501 是 Mistral AI 公司于 2025 年 1月发布的大型语言模型，拥有 24B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral Small 24B Instruct 2501 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 765.1K，获得了 946 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规模：采用大规模参数设计，...

Janus-Pro-7B - DeepSeek 大型语言模型

Posted on 一月 26, 2025

Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 78.7K，获得了 3,508 个点赞，显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得...

DeepSeek R1：首个开源推理大模型

Posted on 一月 20, 2025

DeepSeek R1：首个开源推理大模型发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948 概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型，采用纯强化学习 (RL) 训练方法，无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构，总参数量 671B，每次推理激活 37B 参数，支持 128K 上下文长度。这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...

DeepSeek-R1 - DeepSeek 大型语言模型

Posted on 一月 20, 2025

DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 548.2K，获得了 12,773 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特...

SmolLM3 3B - Hugging Face 大型语言模型

Posted on 一月 15, 2025

SmolLM3 3B - Hugging Face 大型语言模型模型概述SmolLM3 3B 是 Hugging Face 公司于 2025 年 1月发布的大型语言模型，拥有 3B (3.08B) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 SmolLM3 3B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SmolLM3 3B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型...

METAGENE-1 - Meta 大型语言模型

Posted on 一月 6, 2025

METAGENE-1 - Meta 大型语言模型模型概述METAGENE-1 是 Meta 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。 METAGENE-1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 METAGENE-1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 7B parameters for metagenomic analysis：提供强大的...

DeepSeek-V3 - DeepSeek 大型语言模型

Posted on 十二月 25, 2024

DeepSeek-V3 - DeepSeek 大型语言模型模型概述DeepSeek-V3 是 DeepSeek 公司于 2024 年 12月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 247.1K，获得了 3,977 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，GPT-4 class capabilities。 DeepSeek-V3 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客...

Gemini 2.0 Flash - 谷歌大型语言模型

Posted on 十二月 19, 2024

Gemini 2.0 Flash - 谷歌大型语言模型模型概述Gemini 2.0 Flash 是谷歌公司于 2024 年 12月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 Gemini 2.0 Flash 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Native multimodal input：images, video, audio, and text Native multimodal output：text, images, and steerable TTS audio Designed for agentic AI ...

Llama 3.3 70B Instruct - Meta 大型语言模型

Posted on 十一月 26, 2024

Llama 3.3 70B Instruct - Meta 大型语言模型模型概述Llama 3.3 70B Instruct 是 Meta 公司于 2024 年 11月发布的大型语言模型，拥有 70B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 3.3 70B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 588.9K，获得了 2,526 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，Competitive with 405B models。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间...

ChemDFM-v1.5 8B - OpenDFM 大型语言模型

Posted on 十一月 9, 2024

ChemDFM-v1.5 8B - OpenDFM 大型语言模型模型概述ChemDFM-v1.5 8B 是 OpenDFM 公司于 2024 年 11月发布的大型语言模型，拥有 8B 参数规模。 ChemDFM-v1.5 8B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Comparable or higher than GPT-4 on chemistry tasks。 ChemDFM-v1.5 8B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜...

LFM2 1.2B - Liquid AI 大型语言模型

Posted on 十月 1, 2024

LFM2 1.2B - Liquid AI 大型语言模型模型概述LFM2 1.2B 是 Liquid AI 公司于 2024 年 10月发布的大型语言模型，拥有 1.2B (1.17B) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。 LFM2 1.2B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Outperforms similar-sized models on knowledge, math, instruction-following。核心特性 1.2B (1.17B) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Hybri...

Qwen2.5-7B-Instruct - 阿里巴巴大型语言模型

Posted on 九月 16, 2024

Qwen2.5-7B-Instruct - 阿里巴巴大型语言模型模型概述Qwen2.5-7B-Instruct 是阿里巴巴公司于 2024 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2.5-7B-Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 5.2M，获得了 816 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口。核心特性 7B 参数规模：采用大规模参数设计，在性能和...

Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型

Posted on 九月 15, 2024

Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型模型概述Pharia-1-LLM 7B Control 是 Aleph Alpha 公司于 2024 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。 Pharia-1-LLM 7B Control 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Pharia-1-LLM 7B Control 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域...

OpenAI o1-mini - OpenAI 大型语言模型

Posted on 九月 12, 2024

OpenAI o1-mini - OpenAI 大型语言模型模型概述OpenAI o1-mini 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 OpenAI o1-mini 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 80% cheaper than o1：preview Faster inference speed for cost：effective reasoning Specialized for STEM：math an...

OpenAI o1-preview - OpenAI 大型语言模型

Posted on 九月 12, 2024

OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Advanced chain：of-thought reasoning before answering PhD：level performance on physics, chemistry, and biology benc...

Prithvi-WxC 2.3B - IBM 大型语言模型

Posted on 九月 1, 2024

Prithvi-WxC 2.3B - IBM 大型语言模型模型概述Prithvi-WxC 2.3B 是 IBM 公司于 2024 年 9月发布的大型语言模型，拥有 2.3B 参数规模。该模型支持商业使用，为企业部署提供了法律保障。 Prithvi-WxC 2.3B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Prithvi-WxC 2.3B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2.3B 参数规模：采用大规模参数设计，在性能和效率之间取...

InkubaLM 0.4B - Lelapa AI 大型语言模型

Posted on 八月 15, 2024

InkubaLM 0.4B - Lelapa AI 大型语言模型模型概述InkubaLM 0.4B 是 Lelapa AI 公司于 2024 年 8月发布的大型语言模型，拥有 0.4B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。 InkubaLM 0.4B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Comparable to larger models on domain tasks。 InkubaLM 0.4B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创...

EvoLLM-JP 10B - Sakana AI 大型语言模型

Posted on 八月 1, 2024

EvoLLM-JP 10B - Sakana AI 大型语言模型模型概述EvoLLM-JP 10B 是 Sakana AI 公司于 2024 年 8月发布的大型语言模型，拥有 9.86B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。 EvoLLM-JP 10B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 9.86B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Evolutionary Model Merge methodology：提供强大的AI能力支持 Merged from 3 base models (Shisa...

Llama 3.1 405B Instruct - Meta 大型语言模型

Posted on 七月 16, 2024

Llama 3.1 405B Instruct - Meta 大型语言模型模型概述Llama 3.1 405B Instruct 是 Meta 公司于 2024 年 7月发布的大型语言模型，拥有 405B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 3.1 405B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 799.5K，获得了 580 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，Competitive with GPT-4 class models。核心特性 40...

SeaLLMs-v3 7B - SeaLLMs 大型语言模型

Posted on 七月 15, 2024

SeaLLMs-v3 7B - SeaLLMs 大型语言模型模型概述SeaLLMs-v3 7B 是 SeaLLMs 公司于 2024 年 7月发布的大型语言模型，拥有 7.62B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 SeaLLMs-v3 7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SeaLLMs-v3 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成...

Gemma-2-27B - Gemma 2 27B flagship model

Posted on 六月 27, 2024

Gemma-2-27B - Gemma 2 27B flagship model模型概述Gemma-2-27B 是谷歌公司于 2024 年 6月发布的大型语言模型，拥有 27B 参数规模。 Gemma-2-27B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 27B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2-27B 属于 Gemma 系列模型。该系列通常...

Gemma-2-9B - Gemma 2 9B with improved architecture

Posted on 六月 27, 2024

Gemma-2-9B - Gemma 2 9B with improved architecture模型概述Gemma-2-9B 是谷歌公司于 2024 年 6月发布的大型语言模型，拥有 9B 参数规模。 Gemma-2-9B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 9B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2-9B 属于 Gemma 系列模型。...

Claude 3.5 Sonnet - Anthropic 大型语言模型

Posted on 六月 21, 2024

Claude 3.5 Sonnet - Anthropic 大型语言模型模型概述Claude 3.5 Sonnet 是 Anthropic 公司于 2024 年 6月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude 3.5 Sonnet 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Industry：leading performance across reasoning, knowledge, and coding Solved 64% of problems i...

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation

Posted on 六月 17, 2024

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation模型概述DeepSeek-Coder-V2 是 DeepSeek 公司于 2024 年 6月发布的大型语言模型，拥有 236B 参数规模。 DeepSeek-Coder-V2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 236B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持...

Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model

Posted on 六月 7, 2024

Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model模型概述Qwen2-0.5B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 0.5B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-0.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 0.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源...

Qwen2-1.5B - Qwen2 1.5B lightweight model

Posted on 六月 7, 2024

Qwen2-1.5B - Qwen2 1.5B lightweight model模型概述Qwen2-1.5B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 1.5B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-1.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 1.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源：模型权重和...

Qwen2-72B - Qwen2 72B flagship model

Posted on 六月 7, 2024

Qwen2-72B - Qwen2 72B flagship model模型概述Qwen2-72B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 72B 参数规模。 Qwen2-72B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 72B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen2-72B 属于 Qwen 系列模型。该系列通常包含多个不同规模的...

Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities

Posted on 六月 7, 2024

Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities模型概述Qwen2-7B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源：模型...

AIFS 1.0 - ECMWF 大型语言模型

Posted on 六月 1, 2024

AIFS 1.0 - ECMWF 大型语言模型模型概述AIFS 1.0 是 ECMWF 公司于 2024 年 6月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 AIFS 1.0 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 First operational AI weather forecasting system：提供强大的AI能力支持 GNN + sliding window transformer architecture：提供强大的AI能力支持 ERA5 reanalysis training (1979：2022) 商业部署友好...

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型

Posted on 五月 13, 2024

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。在性能方面，Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Native multim...

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture

Posted on 五月 6, 2024

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture模型概述DeepSeek-V2 是 DeepSeek 公司于 2024 年 5月发布的大型语言模型，拥有 236B 参数规模。 DeepSeek-V2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 236B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型D...

BioMedLM - Stanford CRFM / MosaicML 大型语言模型

Posted on 三月 15, 2024

BioMedLM - Stanford CRFM / MosaicML 大型语言模型模型概述BioMedLM 是 Stanford CRFM / MosaicML 公司于 2024 年 3月发布的大型语言模型，拥有 2.7B 参数规模。 BioMedLM 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 BioMedLM 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2.7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平...

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型

Posted on 三月 6, 2024

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型模型概述SaulLM-7B (Saul-7B-Base) 是 Mistral AI 公司于 2024 年 3月发布的大型语言模型，拥有 7.24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 SaulLM-7B (Saul-7B-Base) 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SaulLM-7B (Saul-7B-Base) 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模...

Gemma-2B - Google's first 开源 lightweight model

Posted on 二月 21, 2024

Gemma-2B - Google’s first 开源 lightweight model模型概述Gemma-2B 是谷歌公司于 2024 年 2月发布的大型语言模型，拥有 2B 参数规模。 Gemma-2B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2B 属于 Gemma 系列模型。该系列通常包含多个不...

Gemma-7B - Google's Gemma 7B model

Posted on 二月 21, 2024

Gemma-7B - Google’s Gemma 7B model模型概述Gemma-7B 是谷歌公司于 2024 年 2月发布的大型语言模型，拥有 7B 参数规模。 Gemma-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-7B 属于 Gemma 系列模型。该系列通常包含多个不同规模的版本：小型版...

Qwen1.5-14B - Qwen1.5 14B model

Posted on 二月 5, 2024

Qwen1.5-14B - Qwen1.5 14B model模型概述Qwen1.5-14B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 14B 参数规模。 Qwen1.5-14B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 14B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-14B 属于 Qwen 系列模型。该系列通常包含多个不同规模...

Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model

Posted on 二月 5, 2024

Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model模型概述Qwen1.5-0.5B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 0.5B 参数规模。 Qwen1.5-0.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 0.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-0.5B 属...

Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model

Posted on 二月 5, 2024

Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model模型概述Qwen1.5-1.8B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 1.8B 参数规模。 Qwen1.5-1.8B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 1.8B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-1.8B 属于 Qwen...

Qwen1.5-72B - Qwen1.5 72B flagship model

Posted on 二月 5, 2024

Qwen1.5-72B - Qwen1.5 72B flagship model模型概述Qwen1.5-72B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 72B 参数规模。 Qwen1.5-72B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 72B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-72B 属于 Qwen 系列模型。该系列通...

Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities

Posted on 二月 5, 2024

Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities模型概述Qwen1.5-7B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 7B 参数规模。 Qwen1.5-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-7B ...

VideoLLaMA3 7B - 阿里巴巴大型语言模型

Posted on 一月 22, 2024

VideoLLaMA3 7B - 阿里巴巴大型语言模型模型概述VideoLLaMA3 7B 是阿里巴巴公司于 2024 年 1月发布的大型语言模型，拥有 8.04B 参数规模。在代码生成和理解方面表现出色。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 VideoLLaMA3 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 8.04B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Vision：centric multimodal design ...

Airavata 7B - AI4Bharat 大型语言模型

Posted on 一月 15, 2024

Airavata 7B - AI4Bharat 大型语言模型模型概述Airavata 7B 是 AI4Bharat 公司于 2024 年 1月发布的大型语言模型，拥有 6.87B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Airavata 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 6.87B 参数规模：采用大规模参数设计，在性能...

StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型

Posted on 十二月 15, 2023

StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型模型概述StripedHyena-Hessian-7B 是 Together AI / hessian.AI 公司于 2023 年 12月发布的大型语言模型，拥有 7.65B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 StripedHyena-Hessian-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 StripedHyena-Hessian-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理...

Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following

Posted on 十二月 11, 2023

Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following模型概述Mistral-7B-Instruct-v0.2 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-Instruct-v0.2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数...

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型

Posted on 十二月 10, 2023

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型模型概述Mixtral 8x7B Instruct v0.1 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型，拥有 46.7B total (8x7B MoE) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mixtral 8x7B Instruct v0.1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 288.3K，获得了 4,569 个点赞，显示出强大的社区影响力和用户认可度。核心特性 46.7B total ...

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks

Posted on 十一月 2, 2023

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks模型概述DeepSeek-Coder-33B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型，拥有 33B 参数规模。 DeepSeek-Coder-33B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 33B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流...

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation

Posted on 十一月 2, 2023

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation模型概述DeepSeek-Coder-6.7B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型，拥有 6.7B 参数规模。 DeepSeek-Coder-6.7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 6.7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持...

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance

Posted on 九月 27, 2023

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance模型概述Mistral-7B-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-v0.1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能...

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following

Posted on 九月 27, 2023

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following模型概述Mistral-7B-Instruct-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-Instruct-v0.1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数...

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis模型概述CodeLlama-34B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 34B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-34B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 34B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提...

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis模型概述CodeLlama-13B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-13B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提...