NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。
NExT-OMNI: 任意模态统一建模的技术突破核心创新:离散流匹配范式NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。
为什么选择离散流匹配?传统的多模态模型主要依赖自回归架构,存在以下局限:
生成效率低: 必须逐token顺序生成,无法并行
跨模态建模困难: 不同模态的离散表示难以统一
长序列性能下降: 对于视频、音频等长序列模态效果欠佳
DFM范式通过构建度量诱导的概率路径,实现了:
并行解...
Anthropic 发布 Claude Haiku 4.5:性能接近旗舰,成本仅三分之一
概述2025年10月15日,Anthropic 发布了 Claude Haiku 4.5,这是该公司最新的小型 AI 模型。虽然定位为「小型模型」,但 Haiku 4.5 的性能表现却远超预期,在编程能力上达到了旗舰模型 Sonnet 4.5 的 90%,而成本仅为 Sonnet 4 的三分之一,速度则快了两倍以上。
核心优势接近旗舰的编程能力Claude Haiku 4.5 在代码生成和调试方面表现出色,在 SWE-bench Verified 基准测试中取得了 73.3% 的成绩,仅比旗舰模型 Sonnet 4.5(77.2%)低约 5 个百分点。在 Augment 的智能编程评估中,Haiku 4.5 达到了 Sonnet 4.5 性能的 90%。这意味着开发者可以用更低的成本获得接近旗舰级的编程辅助能力。
极致的性价比Haiku 4.5 的定价策略极具竞争力:
输入: 每百...
LFM2-8B-A1B - Liquid AI 大型语言模型
LFM2-8B-A1B - Liquid AI 大型语言模型模型概述LFM2-8B-A1B 是 Liquid AI 公司于 2025 年 10月发布的大型语言模型,拥有 8.3B total (1.5B active per token, MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型支持商业使用,为企业部署提供了法律保障。 LFM2-8B-A1B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 2.4K,获得了 152 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 32K tokens 的超长上下文窗口。 LFM2-8B-A1B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语...
GPT-5 Pro - OpenAI 大型语言模型
GPT-5 Pro - OpenAI 大型语言模型模型概述GPT-5 Pro 是 OpenAI 公司于 2025 年 10月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 GPT-5 Pro 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Extended reasoning for comprehensive answers:提供强大的AI能力支持
88.4% on GPQA without tools (state:of-the-art)
Optimized for finance, legal, and...
Ling-1T - inclusionAI 大型语言模型
Ling-1T - inclusionAI 大型语言模型模型概述Ling-1T 是 inclusionAI 公司于 2025 年 10月发布的大型语言模型,拥有 1T total (~50B active per token, MoE 1/32 activation ratio) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Ling-1T 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 715,获得了 197 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口,State-of-the-art on complex reasoning benchmarks。
核心特性
1T total (~50B active p...
IBM Granite 4.0 H-Small - IBM 大型语言模型
IBM Granite 4.0 H-Small - IBM 大型语言模型模型概述IBM Granite 4.0 H-Small 是 IBM 公司于 2025 年 10月发布的大型语言模型,拥有 32.2B (MoE Hybrid) 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 IBM Granite 4.0 H-Small 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 22.1K,获得了 241 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
32.2B (MoE Hybrid) 参数规模:采用大...
Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型
Liquid AI LFM2-Audio-1.5B - 端到端音频基础模型
厂商: Liquid AI发布日期: 2025-10-01模型类型: 音频基础模型模态: 音频、文本参数规模: 1.5B许可证: Apache 2.0 (有商业使用条款)评分: 4.4/5.0
概述Liquid AI LFM2-Audio-1.5B 是 Liquid AI 于 2025 年 10 月 1 日发布的端到端音频基础模型,也是 LFM2 系列的首个音频模型。该模型专为低延迟设计,响应延迟低于 100 毫秒,仅使用 1.5B 参数就实现了出色的音频理解和生成能力。LFM2-Audio 特别适合部署在边缘设备上,包括智能手机、笔记本电脑、车载系统和可穿戴设备。
LFM2-Audio 的发布标志着 Liquid AI 在多模态模型领域的重要扩展,继 LFM2 (文本)、LFM2-VL (视觉-...
Qwen3-VL 30B-A3B Thinking - 阿里巴巴 大型语言模型
Qwen3-VL 30B-A3B Thinking - 阿里巴巴 大型语言模型模型概述Qwen3-VL 30B-A3B Thinking 是 阿里巴巴 公司于 2025 年 9月发布的大型语言模型,拥有 30B active (A3B MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen3-VL 30B-A3B Thinking 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 7.9K,获得了 103 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
30B active (A3B MoE) 参数规模:采用大规模参数设计,在性能和效率之间取得...
Qwen3-VL 30B-A3B Instruct - 阿里巴巴 大型语言模型
Qwen3-VL 30B-A3B Instruct - 阿里巴巴 大型语言模型模型概述Qwen3-VL 30B-A3B Instruct 是 阿里巴巴 公司于 2025 年 9月发布的大型语言模型,拥有 30B active (A3B MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen3-VL 30B-A3B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 412.4K,获得了 208 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
30B active (A3B MoE) 参数规模:采用大规模参数设计,在性能和效率之间...
Claude Sonnet 4.5 - Anthropic 大型语言模型
Claude Sonnet 4.5 - Anthropic 大型语言模型模型概述Claude Sonnet 4.5 是 Anthropic 公司于 2025 年 9月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude Sonnet 4.5 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
World’s best coding model:77.2% on SWE-bench Verified
World’s best agent model:61.4% on OSWor...
DeepSeek-V3.2-Exp - DeepSeek 大型语言模型
DeepSeek-V3.2-Exp - DeepSeek 大型语言模型模型概述DeepSeek-V3.2-Exp 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型,拥有 685B (MoE with DeepSeek Sparse Attention) 参数规模。 在代码生成和理解方面表现出色。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-V3.2-Exp 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 42.9K,获得了 607 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-V3.2-Exp 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成...
GLM-4.6 - 智谱AI 大型语言模型
GLM-4.6 - 智谱AI 大型语言模型模型概述GLM-4.6 是 智谱AI 公司于 2025 年 9月发布的大型语言模型,拥有 356.8B total (MoE) 参数规模。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 GLM-4.6 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 24.6K,获得了 672 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Competitive with DeepSeek-V3.1-Terminus and Claude Sonnet 4。 GLM-4.6 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是...
Google Gemini 2.5 Flash - Google 高性能多模态语言模型
Google Gemini 2.5 Flash - Google 高性能多模态语言模型
厂商: Google DeepMind发布日期: 2025-09-25模型类型: 多模态语言模型模态: 文本、图像、视频、音频许可证: 专有商业模型 (Proprietary)评分: 4.5/5.0
概述Google Gemini 2.5 Flash 是 Google DeepMind 于 2025 年 9 月 25 日发布的最新多模态语言模型更新版本,是 Gemini 2.5 系列中专注于高速推理和成本效益的版本。该模型在保持 Gemini 2.5 Pro 级别能力的同时,大幅提升了响应速度和成本效率,特别适合需要大规模部署和实时响应的应用场景。
Gemini 2.5 Flash 在质量和效率方面都实现了显著改进,不仅延续了 Gemini 系列强大的多模态理解能力,还在推理速度、上下...
Tencent HunyuanImage 3.0 - 腾讯 大型语言模型
Tencent HunyuanImage 3.0 - 腾讯 大型语言模型模型概述Tencent HunyuanImage 3.0 是 腾讯 公司于 2025 年 9月发布的大型语言模型,拥有 83B (MoE, 64 experts, 13B active per token) 参数规模。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Tencent HunyuanImage 3.0 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 2.6K,获得了 853 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Comparable to or surpassing leading closed-source models。
核心特性
83B (MoE, 64 experts, 13B active per token...
DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型
DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型模型概述DeepSeek-V3.1-Terminus 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型,拥有 685B total (MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-V3.1-Terminus 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 20.7K,获得了 314 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-V3.1-Terminus 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表...
Qwen-Image-Edit-2509 - 阿里巴巴 大型语言模型
Qwen-Image-Edit-2509 - 阿里巴巴 大型语言模型模型概述Qwen-Image-Edit-2509 是 阿里巴巴 公司于 2025 年 9月发布的大型语言模型,拥有 undisclosed (diffusion model) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen-Image-Edit-2509 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 72.9K,获得了 546 个点赞,显示出强大的社区影响力和用户认可度。 Qwen-Image-Edit-2509 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。...
Qwen3-Omni 30B-A3B Instruct - 阿里巴巴 大型语言模型
Qwen3-Omni 30B-A3B Instruct - 阿里巴巴 大型语言模型模型概述Qwen3-Omni 30B-A3B Instruct 是 阿里巴巴 公司于 2025 年 9月发布的大型语言模型,拥有 30B active (A3B MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 Qwen3-Omni 30B-A3B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 293.6K,获得了 619 个点赞,显示出强大的社区影响力和用户认可度。 Qwen3-Omni 30B-A3B Instruct 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能...
xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%
概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。
核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率:
价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98%
思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40%
Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....
Magistral Small 1.2 2509 - Mistral AI 大型语言模型
Magistral Small 1.2 2509 - Mistral AI 大型语言模型模型概述Magistral Small 1.2 2509 是 Mistral AI 公司于 2025 年 9月发布的大型语言模型,拥有 24B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Magistral Small 1.2 2509 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 24.7K,获得了 235 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
24B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Smal...
S1-Base-671B - ScienceOne AI 大型语言模型
S1-Base-671B - ScienceOne AI 大型语言模型模型概述S1-Base-671B 是 ScienceOne AI 公司于 2025 年 9月发布的大型语言模型,拥有 671B (Heterogeneous Mixture-of-Experts) 参数规模。 具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 S1-Base-671B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 S1-Base-671B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工...
Microsoft MAI-1-Preview - 微软 大型语言模型
Microsoft MAI-1-Preview - 微软 大型语言模型模型概述Microsoft MAI-1-Preview 是 微软 公司于 2025 年 8月发布的大型语言模型,拥有 undisclosed (Mixture-of-Experts) 参数规模。作为基座模型,它为下游任务提供了强大的基础能力。 该模型支持商业使用,为企业部署提供了法律保障。 Microsoft MAI-1-Preview 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
undisclosed (Mixture-of-Experts) 参数规模:采用大规模参数设计,在性能和效率之间取...
Microsoft MAI-Voice-1 - 微软 大型语言模型
Microsoft MAI-Voice-1 - 微软 大型语言模型模型概述Microsoft MAI-Voice-1 是 微软 公司于 2025 年 8月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 Microsoft MAI-Voice-1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Ultra-fast generation:1 minute of audio in <1 second on single GPU
Highly expressive and natural speech synthesis:提供强大的AI能力支持...
NVIDIA Nemotron Nano 9B v2 - 英伟达 大型语言模型
NVIDIA Nemotron Nano 9B v2 - 英伟达 大型语言模型模型概述NVIDIA Nemotron Nano 9B v2 是 英伟达 公司于 2025 年 8月发布的大型语言模型,拥有 9B (pruned from 12B base) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 NVIDIA Nemotron Nano 9B v2 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 NVIDIA Nemotron Nano 9B v2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型...
Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型
Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型模型概述Intern-S1 是 InternLM (Shanghai AI Lab) 公司于 2025 年 8月发布的大型语言模型,拥有 235B total (28B activated, MoE) + 6B vision encoder 参数规模。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Intern-S1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Intern-S1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...
GPT-5:OpenAI发布的统一智能系统
GPT-5:OpenAI发布的统一智能系统概述2025年8月7日,OpenAI正式发布了其最新一代AI系统GPT-5,这是一个突破性的统一智能系统,标志着人工智能发展的新里程碑。GPT-5不仅在性能上实现了显著提升,更重要的是它引入了”自适应思考”的能力,能够智能判断何时快速响应,何时需要深度推理。
核心特性统一系统架构GPT-5采用了创新的统一系统架构,这是其与前代模型最大的区别。该系统能够:
智能模式切换:根据问题的复杂度自动选择快速响应模式或深度思考模式
实时路由:通过内置的智能路由系统,将任务分配给最适合的处理模式
双模协同:在即时响应和延展思考之间无缝切换,提供最优的性能-延迟平衡
这种统一架构使得GPT-5在处理简单查询时保持极快的响应速度,同时在面对复杂问题时能够进行深入的推理和分析。
卓越的性能表现GPT-5在多个基准测试中取得了突破性的成绩:
AIME 202...
GPT-5 - OpenAI 大型语言模型
GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Unified system:smart efficient model + GPT-5 thinking reasoning model + real-time router
State-of-the-art across all domains:coding, math, writing, he...
Claude Opus 4.1
模型概述Claude Opus 4.1是Anthropic推出的Claude 4系列旗舰模型的重大更新版本。该模型在Claude Opus 4的基础上进行了显著改进,专为需要最高智能水平的复杂任务而设计。
Opus 4.1继承了Opus 4在推理、分析和创意写作方面的卓越能力,同时在性能和效率上实现了进一步提升。作为Claude 4系列的顶级模型,Opus 4.1仅向付费客户和API合作伙伴开放,定价为每百万token输入15美元、输出75美元。该模型特别适合需要深度推理、复杂分析和高质量输出的专业应用场景。
技术规格核心参数
参数规模: 未公开(推测为Claude 4系列最大规模)
上下文长度: 200,000 tokens
架构: 先进Transformer架构,针对推理和分析优化
训练数据: 未公开详细信息,训练数据截至2024年
关键创新
增强推理能力 - 在Claud...
Gemini 2.5 深度思考
模型概述Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。
通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。
技术规格核心参数
参数规模: 未公开(基于Gemini 2.5 Pro架构)
上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出
...
Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品
概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。
Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。
核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法:
同时探索多个假设: 模型可以并行探...
Grok 4
模型概述Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。
Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。
技术规格核心参数
参数规模: 约1.7万亿参数
上下文长度: 256,000 tokens
架构: 大规模Transformer架构,采用混合专家系统(MoE)
训练数据: 未公开详细信...
xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型
概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。
核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。
Grok 4 Heavy 的表现:
Humanity’s Last Exam: 50.7%(首个突破 50% 的模型)
带工具使用: 44.4%(使用多个 AI 智能体协作)
相比之下,竞争对手的表现:
G...
Grok 4:xAI的突破性推理模型与高端订阅服务
Grok 4:xAI的突破性推理模型与高端订阅服务概述2025年7月9日,Elon Musk旗下的xAI公司正式发布了Grok 4系列模型,并同时推出了价格高达每月300美元的SuperGrok Heavy订阅服务。Grok 4在AGI基准测试ARC-AGI-2上取得了突破性的15.9%成绩,几乎是之前商业最先进水平的两倍,标志着AI向通用人工智能迈出的重要一步。
发布活动盛大的线上发布会直播规模:
在X平台(前Twitter)进行直播
Elon Musk亲自主持演示
超过150万人在线观看
创造了AI产品发布的观看记录
发布形式:
实时产品演示
互动问答环节
性能基准展示
用户体验分享
系列模型概览
模型名称
定价
主要特点
目标用户
Grok 4
$30/月
标准推理能力
普通用户、开发者
Grok 4 Heavy
$300/月 (Sup...
Voxtral Small 24B 2507 - Mistral AI 大型语言模型
Voxtral Small 24B 2507 - Mistral AI 大型语言模型模型概述Voxtral Small 24B 2507 是 Mistral AI 公司于 2025 年 7月发布的大型语言模型,拥有 24B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Voxtral Small 24B 2507 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 40.0K,获得了 412 个点赞,显示出强大的社区影响力和用户认可度。 Voxtral Small 24B 2507 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布...
Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型
Mistral Small 3.2 24B Instruct 2506 - Mistral AI 大型语言模型模型概述Mistral Small 3.2 24B Instruct 2506 是 Mistral AI 公司于 2025 年 6月发布的大型语言模型,拥有 24B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral Small 3.2 24B Instruct 2506 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 726.8K,获得了 476 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
24B 参数规...
Lingshu-7B - 阿里巴巴 大型语言模型
Lingshu-7B - 阿里巴巴 大型语言模型模型概述Lingshu-7B 是 阿里巴巴 公司于 2025 年 6月发布的大型语言模型,拥有 7B (also 32B variant available) 参数规模。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B (also ...
Gemma 3n E4B IT - 谷歌 大型语言模型
Gemma 3n E4B IT - 谷歌 大型语言模型模型概述Gemma 3n E4B IT 是 谷歌 公司于 2025 年 6月发布的大型语言模型,拥有 E4B (4B effective, 8B raw with MatFormer) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型支持商业使用,为企业部署提供了法律保障。 Gemma 3n E4B IT 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 699.2K,获得了 794 个点赞,显示出强大的社区影响力和用户认可度。 Gemma 3n E4B IT 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代...
DeepSeek-R1-0528 - DeepSeek 大型语言模型
DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 599.4K,获得了 2,377 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领...
Claude 4 系列:Anthropic发布的世界级编码和推理模型
Claude 4 系列:Anthropic发布的世界级编码和推理模型概述2025年5月22日,Anthropic在旧金山举行的首届开发者大会上正式发布了Claude 4系列模型,包括Claude Opus 4和Claude Sonnet 4。这两款模型在编码能力、高级推理和AI智能体应用方面树立了新的行业标准,特别是Claude Opus 4被誉为”世界最佳编码模型”。
系列模型对比
模型名称
参数规模
主要优势
定价(输入/输出)
最佳用途
Claude Opus 4
未公开
世界级编码能力,持续多小时工作
$15/$75 per M tokens
复杂软件开发、长期任务
Claude Sonnet 4
未公开
优秀的编码和推理,精准指令遵循
$3/$15 per M tokens
日常开发、生产应用
Claude Opus 4:世界...
Claude Opus 4 - Anthropic 大型语言模型
Claude Opus 4 - Anthropic 大型语言模型模型概述Claude Opus 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude Opus 4 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
World’s best coding model at release:72.5% on SWE-bench
43.2% on Terminal:bench
Hybrid dual-mode:near-ins...
Claude Sonnet 4 - Anthropic 大型语言模型
Claude Sonnet 4 - Anthropic 大型语言模型模型概述Claude Sonnet 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude Sonnet 4 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Significant upgrade from Claude Sonnet 3.7:提供强大的AI能力支持
Superior coding and reasoning capabilities:提...
DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型
DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型,拥有 671B (MoE) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 1.6K,获得了 811 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...
Qwen3:阿里云通义千问混合推理大模型
概述Qwen3是阿里云通义千问团队于2025年4月28日发布的第三代大语言模型系列,包含从0.6B到235B参数的多个变体,支持密集和混合专家(MoE)两种架构。该系列模型的核心创新在于统一的混合推理框架,能够在思考模式(用于复杂多步推理)和非思考模式(用于快速响应)之间无缝切换,无需在不同模型间切换。Qwen3在36万亿tokens数据上进行预训练,是前代Qwen2.5的两倍,并将多语言支持从29种扩展到119种语言和方言。
核心创新Qwen3最突出的创新是其统一的混合推理框架。传统方法需要为不同任务部署不同的模型(如ChatGPT用于通用对话,o1用于复杂推理),而Qwen3将这两种能力整合到单一模型中。通过动态思考预算机制,用户可以根据任务复杂度自适应地分配计算资源,在延迟和性能之间找到最佳平衡点。
这种设计理念的实现依赖于Qwen3创新的训练策略。团队在预训练阶段使用了36万...
Qwen3-0.6B - 阿里巴巴 大型语言模型
Qwen3-0.6B - 阿里巴巴 大型语言模型模型概述Qwen3-0.6B 是 阿里巴巴 公司于 2025 年 4月发布的大型语言模型,拥有 0.6B (751.6M total) 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen3-0.6B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 19.5M,获得了 695 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
0.6B (751.6M total) 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Unique think...
Llama 4 系列:Meta的开源多模态MoE模型
Llama 4 系列:Meta的开源多模态MoE模型概述2025年4月5日,Meta正式发布了Llama 4系列模型,包括Llama 4 Scout和Llama 4 Maverick。这是Meta在开源AI领域的又一重大突破,首次将多模态能力、混合专家(MoE)架构和超长上下文窗口结合在一起,为开源社区提供了极具竞争力的大语言模型。
系列模型对比
模型名称
激活参数
总参数量
专家数量
上下文长度
主要特点
Llama 4 Scout
17B
109B
16
10M tokens
超长上下文,适合文档分析
Llama 4 Maverick
17B
400B
128
未公开
大规模专家网络,最强性能
Llama 4 Behemoth
288B
~2T
16
未公开
推迟发布,旗舰级模型
注:Behemoth模型在发布时仍在训练中,预计2025年秋季或更晚发布
核心...
Llama 4 Scout - Meta 大型语言模型
Llama 4 Scout - Meta 大型语言模型模型概述Llama 4 Scout 是 Meta 公司于 2025 年 4月发布的大型语言模型,拥有 17B active (16 experts, MoE) 参数规模。作为基座模型,它为下游任务提供了强大的基础能力。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 4 Scout 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
17B active (16 experts, MoE) 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
First open:wei...
Gemini 2.5 系列:Google DeepMind的突破性思考模型
Gemini 2.5 系列:Google DeepMind的突破性思考模型概述2025年3月25日,Google DeepMind发布了Gemini 2.5系列,这是一个具有革命性意义的多模态推理AI模型家族。Gemini 2.5最大的突破在于其”思考能力”(Thinking Capability),能够在回应之前进行深度推理,这使其成为Google迄今为止最智能的AI模型。
系列模型对比
模型名称
主要特点
发布时间
最佳用途
Gemini 2.5 Pro
旗舰推理模型,支持深度思考模式
2025-03-25
复杂推理、科学研究、高级编程
Gemini 2.5 Flash
快速推理,高效率
2025-09-25
生产环境、实时应用
Gemini 2.5 Flash Image
最先进的图像生成和编辑
2025-08-26
图像创作、视觉内容生成
Gemini ...
Gemma 3 27B IT - 谷歌 大型语言模型
Gemma 3 27B IT - 谷歌 大型语言模型模型概述Gemma 3 27B IT 是 谷歌 公司于 2025 年 3月发布的大型语言模型,拥有 27B 参数规模。 该模型支持商业使用,为企业部署提供了法律保障。 Gemma 3 27B IT 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 1.2M,获得了 1,639 个点赞,显示出强大的社区影响力和用户认可度。 Gemma 3 27B IT 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
27B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Multimodal:te...
xAI Grok 3 - xAI 推理语言模型
xAI Grok 3 - xAI 推理语言模型
厂商: xAI (Elon Musk)发布日期: 2025-02-17模型类型: 推理语言模型模态: 文本、图像许可证: 专有商业模型 (Proprietary)评分: 4.2/5.0
概述xAI Grok 3 是由 Elon Musk 创立的 xAI 公司于 2025 年 2 月 17 日正式发布的最新旗舰 AI 模型。该模型被誉为”推理代理时代”的里程碑,在强大的预训练知识基础上融合了卓越的推理能力。Grok 3 在 Colossus 超级集群上训练,使用的计算量是此前最先进模型的 10 倍,展现了 xAI 在 AI 基础设施方面的雄心。
Grok 3 的发布标志着 xAI 在与 OpenAI、Anthropic、Google 等巨头的竞争中迈出了重要一步。该模型不仅在多个基准测试中展现出色表现,还通过与 X 平台(原 ...
Phi-4-mini-instruct 3.8B - 微软 大型语言模型
Phi-4-mini-instruct 3.8B - 微软 大型语言模型模型概述Phi-4-mini-instruct 3.8B 是 微软 公司于 2025 年 2月发布的大型语言模型,拥有 3.8B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Phi-4-mini-instruct 3.8B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Competitive with 7-8B models。
核心特性
3.8B 参数规模:采用大规模参数设计,在性能和效率...
Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型
Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型模型概述Mistral Small 24B Instruct 2501 是 Mistral AI 公司于 2025 年 1月发布的大型语言模型,拥有 24B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral Small 24B Instruct 2501 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 765.1K,获得了 946 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
24B 参数规模:采用大规模参数设计,...
Janus-Pro-7B - DeepSeek 大型语言模型
Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型,拥有 7B 参数规模。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 78.7K,获得了 3,508 个点赞,显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得...
DeepSeek R1:首个开源推理大模型
DeepSeek R1:首个开源推理大模型
发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948
概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型,采用纯强化学习 (RL) 训练方法,无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构,总参数量 671B,每次推理激活 37B 参数,支持 128K 上下文长度。
这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。
核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...
DeepSeek-R1 - DeepSeek 大型语言模型
DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 548.2K,获得了 12,773 个点赞,显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特...
SmolLM3 3B - Hugging Face 大型语言模型
SmolLM3 3B - Hugging Face 大型语言模型模型概述SmolLM3 3B 是 Hugging Face 公司于 2025 年 1月发布的大型语言模型,拥有 3B (3.08B) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 SmolLM3 3B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 SmolLM3 3B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型...
METAGENE-1 - Meta 大型语言模型
METAGENE-1 - Meta 大型语言模型模型概述METAGENE-1 是 Meta 公司于 2025 年 1月发布的大型语言模型,拥有 7B 参数规模。 METAGENE-1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 METAGENE-1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
7B parameters for metagenomic analysis:提供强大的...
DeepSeek-V3 - DeepSeek 大型语言模型
DeepSeek-V3 - DeepSeek 大型语言模型模型概述DeepSeek-V3 是 DeepSeek 公司于 2024 年 12月发布的大型语言模型,拥有 671B total (MoE) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 DeepSeek-V3 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 247.1K,获得了 3,977 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,GPT-4 class capabilities。 DeepSeek-V3 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客...
Gemini 2.0 Flash - 谷歌 大型语言模型
Gemini 2.0 Flash - 谷歌 大型语言模型模型概述Gemini 2.0 Flash 是 谷歌 公司于 2024 年 12月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 Gemini 2.0 Flash 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Native multimodal input:images, video, audio, and text
Native multimodal output:text, images, and steerable TTS audio
Designed for agentic AI ...
Llama 3.3 70B Instruct - Meta 大型语言模型
Llama 3.3 70B Instruct - Meta 大型语言模型模型概述Llama 3.3 70B Instruct 是 Meta 公司于 2024 年 11月发布的大型语言模型,拥有 70B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 3.3 70B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 588.9K,获得了 2,526 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口,Competitive with 405B models。
核心特性
70B 参数规模:采用大规模参数设计,在性能和效率之间...
ChemDFM-v1.5 8B - OpenDFM 大型语言模型
ChemDFM-v1.5 8B - OpenDFM 大型语言模型模型概述ChemDFM-v1.5 8B 是 OpenDFM 公司于 2024 年 11月发布的大型语言模型,拥有 8B 参数规模。 ChemDFM-v1.5 8B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Comparable or higher than GPT-4 on chemistry tasks。 ChemDFM-v1.5 8B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜...
LFM2 1.2B - Liquid AI 大型语言模型
LFM2 1.2B - Liquid AI 大型语言模型模型概述LFM2 1.2B 是 Liquid AI 公司于 2024 年 10月发布的大型语言模型,拥有 1.2B (1.17B) 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 LFM2 1.2B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Outperforms similar-sized models on knowledge, math, instruction-following。
核心特性
1.2B (1.17B) 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Hybri...
Qwen2.5-7B-Instruct - 阿里巴巴 大型语言模型
Qwen2.5-7B-Instruct - 阿里巴巴 大型语言模型模型概述Qwen2.5-7B-Instruct 是 阿里巴巴 公司于 2024 年 9月发布的大型语言模型,拥有 7B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2.5-7B-Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 5.2M,获得了 816 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口。
核心特性
7B 参数规模:采用大规模参数设计,在性能和...
Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型
Pharia-1-LLM 7B Control - Aleph Alpha 大型语言模型模型概述Pharia-1-LLM 7B Control 是 Aleph Alpha 公司于 2024 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 Pharia-1-LLM 7B Control 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Pharia-1-LLM 7B Control 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域...
OpenAI o1-mini - OpenAI 大型语言模型
OpenAI o1-mini - OpenAI 大型语言模型模型概述OpenAI o1-mini 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 OpenAI o1-mini 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
80% cheaper than o1:preview
Faster inference speed for cost:effective reasoning
Specialized for STEM:math an...
OpenAI o1-preview - OpenAI 大型语言模型
OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Advanced chain:of-thought reasoning before answering
PhD:level performance on physics, chemistry, and biology benc...
Prithvi-WxC 2.3B - IBM 大型语言模型
Prithvi-WxC 2.3B - IBM 大型语言模型模型概述Prithvi-WxC 2.3B 是 IBM 公司于 2024 年 9月发布的大型语言模型,拥有 2.3B 参数规模。 该模型支持商业使用,为企业部署提供了法律保障。 Prithvi-WxC 2.3B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 Prithvi-WxC 2.3B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
2.3B 参数规模:采用大规模参数设计,在性能和效率之间取...
InkubaLM 0.4B - Lelapa AI 大型语言模型
InkubaLM 0.4B - Lelapa AI 大型语言模型模型概述InkubaLM 0.4B 是 Lelapa AI 公司于 2024 年 8月发布的大型语言模型,拥有 0.4B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 InkubaLM 0.4B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,Comparable to larger models on domain tasks。 InkubaLM 0.4B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创...
EvoLLM-JP 10B - Sakana AI 大型语言模型
EvoLLM-JP 10B - Sakana AI 大型语言模型模型概述EvoLLM-JP 10B 是 Sakana AI 公司于 2024 年 8月发布的大型语言模型,拥有 9.86B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 EvoLLM-JP 10B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
9.86B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Evolutionary Model Merge methodology:提供强大的AI能力支持
Merged from 3 base models (Shisa...
Llama 3.1 405B Instruct - Meta 大型语言模型
Llama 3.1 405B Instruct - Meta 大型语言模型模型概述Llama 3.1 405B Instruct 是 Meta 公司于 2024 年 7月发布的大型语言模型,拥有 405B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 Llama 3.1 405B Instruct 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 799.5K,获得了 580 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口,Competitive with GPT-4 class models。
核心特性
40...
SeaLLMs-v3 7B - SeaLLMs 大型语言模型
SeaLLMs-v3 7B - SeaLLMs 大型语言模型模型概述SeaLLMs-v3 7B 是 SeaLLMs 公司于 2024 年 7月发布的大型语言模型,拥有 7.62B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 SeaLLMs-v3 7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 SeaLLMs-v3 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成...
Gemma-2-27B - Gemma 2 27B flagship model
Gemma-2-27B - Gemma 2 27B flagship model模型概述Gemma-2-27B 是 谷歌 公司于 2024 年 6月发布的大型语言模型,拥有 27B 参数规模。 Gemma-2-27B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
27B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Gemma-2-27B 属于 Gemma 系列模型。该系列通常...
Gemma-2-9B - Gemma 2 9B with improved architecture
Gemma-2-9B - Gemma 2 9B with improved architecture模型概述Gemma-2-9B 是 谷歌 公司于 2024 年 6月发布的大型语言模型,拥有 9B 参数规模。 Gemma-2-9B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
9B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Gemma-2-9B 属于 Gemma 系列模型。...
Claude 3.5 Sonnet - Anthropic 大型语言模型
Claude 3.5 Sonnet - Anthropic 大型语言模型模型概述Claude 3.5 Sonnet 是 Anthropic 公司于 2024 年 6月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude 3.5 Sonnet 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Industry:leading performance across reasoning, knowledge, and coding
Solved 64% of problems i...
DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation
DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation模型概述DeepSeek-Coder-V2 是 DeepSeek 公司于 2024 年 6月发布的大型语言模型,拥有 236B 参数规模。 DeepSeek-Coder-V2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
236B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持...
Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model
Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model模型概述Qwen2-0.5B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 0.5B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-0.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
0.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发
完全开源...
Qwen2-1.5B - Qwen2 1.5B lightweight model
Qwen2-1.5B - Qwen2 1.5B lightweight model模型概述Qwen2-1.5B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 1.5B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-1.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
1.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发
完全开源:模型权重和...
Qwen2-72B - Qwen2 72B flagship model
Qwen2-72B - Qwen2 72B flagship model模型概述Qwen2-72B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 72B 参数规模。 Qwen2-72B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
72B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen2-72B 属于 Qwen 系列模型。该系列通常包含多个不同规模的...
Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities
Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities模型概述Qwen2-7B 是 阿里巴巴 公司于 2024 年 6月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Qwen2-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Apache 2.0 开源许可:完全商业友好,无使用限制,支持二次开发
完全开源:模型...
AIFS 1.0 - ECMWF 大型语言模型
AIFS 1.0 - ECMWF 大型语言模型模型概述AIFS 1.0 是 ECMWF 公司于 2024 年 6月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 AIFS 1.0 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
First operational AI weather forecasting system:提供强大的AI能力支持
GNN + sliding window transformer architecture:提供强大的AI能力支持
ERA5 reanalysis training (1979:2022)
商业部署友好...
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 在性能方面,Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Native multim...
DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture
DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture模型概述DeepSeek-V2 是 DeepSeek 公司于 2024 年 5月发布的大型语言模型,拥有 236B 参数规模。 DeepSeek-V2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
236B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型D...
BioMedLM - Stanford CRFM / MosaicML 大型语言模型
BioMedLM - Stanford CRFM / MosaicML 大型语言模型模型概述BioMedLM 是 Stanford CRFM / MosaicML 公司于 2024 年 3月发布的大型语言模型,拥有 2.7B 参数规模。 BioMedLM 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 BioMedLM 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
2.7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平...
SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型
SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型模型概述SaulLM-7B (Saul-7B-Base) 是 Mistral AI 公司于 2024 年 3月发布的大型语言模型,拥有 7.24B 参数规模。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 SaulLM-7B (Saul-7B-Base) 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 SaulLM-7B (Saul-7B-Base) 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模...
Gemma-2B - Google's first 开源 lightweight model
Gemma-2B - Google’s first 开源 lightweight model模型概述Gemma-2B 是 谷歌 公司于 2024 年 2月发布的大型语言模型,拥有 2B 参数规模。 Gemma-2B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
2B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Gemma-2B 属于 Gemma 系列模型。该系列通常包含多个不...
Gemma-7B - Google's Gemma 7B model
Gemma-7B - Google’s Gemma 7B model模型概述Gemma-7B 是 谷歌 公司于 2024 年 2月发布的大型语言模型,拥有 7B 参数规模。 Gemma-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Gemma-7B 属于 Gemma 系列模型。该系列通常包含多个不同规模的版本:
小型版...
Qwen1.5-14B - Qwen1.5 14B model
Qwen1.5-14B - Qwen1.5 14B model模型概述Qwen1.5-14B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 14B 参数规模。 Qwen1.5-14B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
14B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-14B 属于 Qwen 系列模型。该系列通常包含多个不同规模...
Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model
Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model模型概述Qwen1.5-0.5B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 0.5B 参数规模。 Qwen1.5-0.5B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
0.5B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-0.5B 属...
Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model
Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model模型概述Qwen1.5-1.8B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 1.8B 参数规模。 Qwen1.5-1.8B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
1.8B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-1.8B 属于 Qwen...
Qwen1.5-72B - Qwen1.5 72B flagship model
Qwen1.5-72B - Qwen1.5 72B flagship model模型概述Qwen1.5-72B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 72B 参数规模。 Qwen1.5-72B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
72B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-72B 属于 Qwen 系列模型。该系列通...
Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities
Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities模型概述Qwen1.5-7B 是 阿里巴巴 公司于 2024 年 2月发布的大型语言模型,拥有 7B 参数规模。 Qwen1.5-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流深度学习框架
同系列模型Qwen1.5-7B ...
VideoLLaMA3 7B - 阿里巴巴 大型语言模型
VideoLLaMA3 7B - 阿里巴巴 大型语言模型模型概述VideoLLaMA3 7B 是 阿里巴巴 公司于 2024 年 1月发布的大型语言模型,拥有 8.04B 参数规模。 在代码生成和理解方面表现出色。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 VideoLLaMA3 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
8.04B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
Vision:centric multimodal design
...
Airavata 7B - AI4Bharat 大型语言模型
Airavata 7B - AI4Bharat 大型语言模型模型概述Airavata 7B 是 AI4Bharat 公司于 2024 年 1月发布的大型语言模型,拥有 6.87B 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Airavata 7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
6.87B 参数规模:采用大规模参数设计,在性能...
StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型
StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型模型概述StripedHyena-Hessian-7B 是 Together AI / hessian.AI 公司于 2023 年 12月发布的大型语言模型,拥有 7.65B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 StripedHyena-Hessian-7B 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 N/A,获得了 N/A 个点赞,显示出强大的社区影响力和用户认可度。 StripedHyena-Hessian-7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理...
Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following
Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following模型概述Mistral-7B-Instruct-v0.2 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-Instruct-v0.2 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数...
Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型
Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型模型概述Mixtral 8x7B Instruct v0.1 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型,拥有 46.7B total (8x7B MoE) 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mixtral 8x7B Instruct v0.1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 288.3K,获得了 4,569 个点赞,显示出强大的社区影响力和用户认可度。
核心特性
46.7B total ...
DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks
DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks模型概述DeepSeek-Coder-33B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型,拥有 33B 参数规模。 DeepSeek-Coder-33B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
33B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持主流...
DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation
DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation模型概述DeepSeek-Coder-6.7B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型,拥有 6.7B 参数规模。 DeepSeek-Coder-6.7B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
6.7B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提供标准的API接口,支持...
Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance
Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance模型概述Mistral-7B-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-v0.1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数设计,在性能...
Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following
Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following模型概述Mistral-7B-Instruct-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型,拥有 7B 参数规模。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mistral-7B-Instruct-v0.1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
7B 参数规模:采用大规模参数...
CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis
CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis模型概述CodeLlama-34B 是 Meta 公司于 2023 年 8月发布的大型语言模型,拥有 34B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 CodeLlama-34B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
34B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提...
CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis
CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis模型概述CodeLlama-13B 是 Meta 公司于 2023 年 8月发布的大型语言模型,拥有 13B 参数规模。 使用 LLaMA 系列许可证,支持商业使用,但需遵守一定的使用条款和限制。 CodeLlama-13B 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
13B 参数规模:采用大规模参数设计,在性能和效率之间取得最佳平衡
完全开源:模型权重和代码完全开放,便于研究和定制化开发
高效推理:采用优化的模型架构,支持快速推理和批量处理
易于集成:提...