GPT-5 Pro - OpenAI 大型语言模型

Posted on 十月 6, 2025

GPT-5 Pro - OpenAI 大型语言模型模型概述GPT-5 Pro 是 OpenAI 公司于 2025 年 10月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 Pro 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Extended reasoning for comprehensive answers：提供强大的AI能力支持 88.4% on GPQA without tools (state：of-the-art) Optimized for finance, legal, and...

Ling-1T - inclusionAI 大型语言模型

Posted on 十月 2, 2025

Ling-1T - inclusionAI 大型语言模型模型概述Ling-1T 是 inclusionAI 公司于 2025 年 10月发布的大型语言模型，拥有 1T total (~50B active per token, MoE 1/32 activation ratio) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Ling-1T 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 715，获得了 197 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，State-of-the-art on complex reasoning benchmarks。核心特性 1T total (~50B active p...

Claude Sonnet 4.5 - Anthropic 大型语言模型

Posted on 九月 29, 2025

Claude Sonnet 4.5 - Anthropic 大型语言模型模型概述Claude Sonnet 4.5 是 Anthropic 公司于 2025 年 9月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4.5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model：77.2% on SWE-bench Verified World’s best agent model：61.4% on OSWor...

GLM-4.6 - 智谱AI 大型语言模型

Posted on 九月 29, 2025

GLM-4.6 - 智谱AI 大型语言模型模型概述GLM-4.6 是智谱AI 公司于 2025 年 9月发布的大型语言模型，拥有 356.8B total (MoE) 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 GLM-4.6 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.6K，获得了 672 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with DeepSeek-V3.1-Terminus and Claude Sonnet 4。 GLM-4.6 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是...

xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%

Posted on 九月 19, 2025

概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率: 价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98% 思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40% Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....

Magistral Small 1.2 2509 - Mistral AI 大型语言模型

Posted on 九月 12, 2025

Magistral Small 1.2 2509 - Mistral AI 大型语言模型模型概述Magistral Small 1.2 2509 是 Mistral AI 公司于 2025 年 9月发布的大型语言模型，拥有 24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Magistral Small 1.2 2509 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.7K，获得了 235 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Smal...

GPT-5：OpenAI发布的统一智能系统

Posted on 八月 7, 2025

GPT-5：OpenAI发布的统一智能系统概述2025年8月7日，OpenAI正式发布了其最新一代AI系统GPT-5，这是一个突破性的统一智能系统，标志着人工智能发展的新里程碑。GPT-5不仅在性能上实现了显著提升，更重要的是它引入了”自适应思考”的能力，能够智能判断何时快速响应，何时需要深度推理。核心特性统一系统架构GPT-5采用了创新的统一系统架构，这是其与前代模型最大的区别。该系统能够：智能模式切换：根据问题的复杂度自动选择快速响应模式或深度思考模式实时路由：通过内置的智能路由系统，将任务分配给最适合的处理模式双模协同：在即时响应和延展思考之间无缝切换，提供最优的性能-延迟平衡这种统一架构使得GPT-5在处理简单查询时保持极快的响应速度，同时在面对复杂问题时能够进行深入的推理和分析。卓越的性能表现GPT-5在多个基准测试中取得了突破性的成绩： AIME 202...

GPT-5 - OpenAI 大型语言模型

Posted on 八月 7, 2025

GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Unified system：smart efficient model + GPT-5 thinking reasoning model + real-time router State-of-the-art across all domains：coding, math, writing, he...

Claude Opus 4.1

Posted on 八月 1, 2025

模型概述Claude Opus 4.1是Anthropic推出的Claude 4系列旗舰模型的重大更新版本。该模型在Claude Opus 4的基础上进行了显著改进,专为需要最高智能水平的复杂任务而设计。 Opus 4.1继承了Opus 4在推理、分析和创意写作方面的卓越能力,同时在性能和效率上实现了进一步提升。作为Claude 4系列的顶级模型,Opus 4.1仅向付费客户和API合作伙伴开放,定价为每百万token输入15美元、输出75美元。该模型特别适合需要深度推理、复杂分析和高质量输出的专业应用场景。技术规格核心参数参数规模: 未公开(推测为Claude 4系列最大规模) 上下文长度: 200,000 tokens 架构: 先进Transformer架构,针对推理和分析优化训练数据: 未公开详细信息,训练数据截至2024年关键创新增强推理能力 - 在Claud...

Gemini 2.5 深度思考

Posted on 八月 1, 2025

模型概述Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。技术规格核心参数参数规模: 未公开(基于Gemini 2.5 Pro架构) 上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出 ...

Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品

Posted on 八月 1, 2025

概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。 Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法: 同时探索多个假设: 模型可以并行探...

Grok 4

Posted on 七月 10, 2025

模型概述Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。 Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。技术规格核心参数参数规模: 约1.7万亿参数上下文长度: 256,000 tokens 架构: 大规模Transformer架构,采用混合专家系统(MoE) 训练数据: 未公开详细信...

xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

Posted on 七月 10, 2025

概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。 Grok 4 Heavy 的表现: Humanity’s Last Exam: 50.7%(首个突破 50% 的模型) 带工具使用: 44.4%(使用多个 AI 智能体协作) 相比之下,竞争对手的表现: G...

Grok 4：xAI的突破性推理模型与高端订阅服务

Posted on 七月 9, 2025

Grok 4：xAI的突破性推理模型与高端订阅服务概述2025年7月9日，Elon Musk旗下的xAI公司正式发布了Grok 4系列模型，并同时推出了价格高达每月300美元的SuperGrok Heavy订阅服务。Grok 4在AGI基准测试ARC-AGI-2上取得了突破性的15.9%成绩，几乎是之前商业最先进水平的两倍，标志着AI向通用人工智能迈出的重要一步。发布活动盛大的线上发布会直播规模：在X平台（前Twitter）进行直播 Elon Musk亲自主持演示超过150万人在线观看创造了AI产品发布的观看记录发布形式：实时产品演示互动问答环节性能基准展示用户体验分享系列模型概览模型名称定价主要特点目标用户 Grok 4 $30/月标准推理能力普通用户、开发者 Grok 4 Heavy $300/月 (Sup...

DeepSeek-R1-0528 - DeepSeek 大型语言模型

Posted on 五月 28, 2025

DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 599.4K，获得了 2,377 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领...

Claude 4 系列：Anthropic发布的世界级编码和推理模型

Posted on 五月 22, 2025

Claude 4 系列：Anthropic发布的世界级编码和推理模型概述2025年5月22日，Anthropic在旧金山举行的首届开发者大会上正式发布了Claude 4系列模型，包括Claude Opus 4和Claude Sonnet 4。这两款模型在编码能力、高级推理和AI智能体应用方面树立了新的行业标准，特别是Claude Opus 4被誉为”世界最佳编码模型”。系列模型对比模型名称参数规模主要优势定价（输入/输出）最佳用途 Claude Opus 4 未公开世界级编码能力，持续多小时工作 $15/$75 per M tokens 复杂软件开发、长期任务 Claude Sonnet 4 未公开优秀的编码和推理，精准指令遵循 $3/$15 per M tokens 日常开发、生产应用 Claude Opus 4：世界...

Claude Opus 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Opus 4 - Anthropic 大型语言模型模型概述Claude Opus 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Opus 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model at release：72.5% on SWE-bench 43.2% on Terminal：bench Hybrid dual-mode：near-ins...

Claude Sonnet 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Sonnet 4 - Anthropic 大型语言模型模型概述Claude Sonnet 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Significant upgrade from Claude Sonnet 3.7：提供强大的AI能力支持 Superior coding and reasoning capabilities：提...

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型

Posted on 四月 30, 2025

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型，拥有 671B (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.6K，获得了 811 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

DeepSeek-R1 - DeepSeek 大型语言模型

Posted on 一月 20, 2025

DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 548.2K，获得了 12,773 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特...

OpenAI o1-mini - OpenAI 大型语言模型

Posted on 九月 12, 2024

OpenAI o1-mini - OpenAI 大型语言模型模型概述OpenAI o1-mini 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 OpenAI o1-mini 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 80% cheaper than o1：preview Faster inference speed for cost：effective reasoning Specialized for STEM：math an...

OpenAI o1-preview - OpenAI 大型语言模型

Posted on 九月 12, 2024

OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Advanced chain：of-thought reasoning before answering PhD：level performance on physics, chemistry, and biology benc...