Anthropic 发布 Claude Haiku 4.5：性能接近旗舰,成本仅三分之一

Posted on 十月 15, 2025

概述2025年10月15日,Anthropic 发布了 Claude Haiku 4.5,这是该公司最新的小型 AI 模型。虽然定位为「小型模型」,但 Haiku 4.5 的性能表现却远超预期,在编程能力上达到了旗舰模型 Sonnet 4.5 的 90%,而成本仅为 Sonnet 4 的三分之一,速度则快了两倍以上。核心优势接近旗舰的编程能力Claude Haiku 4.5 在代码生成和调试方面表现出色,在 SWE-bench Verified 基准测试中取得了 73.3% 的成绩,仅比旗舰模型 Sonnet 4.5(77.2%)低约 5 个百分点。在 Augment 的智能编程评估中,Haiku 4.5 达到了 Sonnet 4.5 性能的 90%。这意味着开发者可以用更低的成本获得接近旗舰级的编程辅助能力。极致的性价比Haiku 4.5 的定价策略极具竞争力: 输入: 每百...

GPT-5 Pro - OpenAI 大型语言模型

Posted on 十月 6, 2025

GPT-5 Pro - OpenAI 大型语言模型模型概述GPT-5 Pro 是 OpenAI 公司于 2025 年 10月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 Pro 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Extended reasoning for comprehensive answers：提供强大的AI能力支持 88.4% on GPQA without tools (state：of-the-art) Optimized for finance, legal, and...

Claude Sonnet 4.5 - Anthropic 大型语言模型

Posted on 九月 29, 2025

Claude Sonnet 4.5 - Anthropic 大型语言模型模型概述Claude Sonnet 4.5 是 Anthropic 公司于 2025 年 9月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4.5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model：77.2% on SWE-bench Verified World’s best agent model：61.4% on OSWor...

xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%

Posted on 九月 19, 2025

概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率: 价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98% 思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40% Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....

Microsoft MAI-1-Preview - 微软大型语言模型

Posted on 八月 28, 2025

Microsoft MAI-1-Preview - 微软大型语言模型模型概述Microsoft MAI-1-Preview 是微软公司于 2025 年 8月发布的大型语言模型，拥有 undisclosed (Mixture-of-Experts) 参数规模。作为基座模型，它为下游任务提供了强大的基础能力。该模型支持商业使用，为企业部署提供了法律保障。 Microsoft MAI-1-Preview 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 undisclosed (Mixture-of-Experts) 参数规模：采用大规模参数设计，在性能和效率之间取...

Microsoft MAI-Voice-1 - 微软大型语言模型

Posted on 八月 28, 2025

Microsoft MAI-Voice-1 - 微软大型语言模型模型概述Microsoft MAI-Voice-1 是微软公司于 2025 年 8月发布的大型语言模型。该模型支持商业使用，为企业部署提供了法律保障。 Microsoft MAI-Voice-1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Ultra-fast generation：1 minute of audio in <1 second on single GPU Highly expressive and natural speech synthesis：提供强大的AI能力支持...

GPT-5：OpenAI发布的统一智能系统

Posted on 八月 7, 2025

GPT-5：OpenAI发布的统一智能系统概述2025年8月7日，OpenAI正式发布了其最新一代AI系统GPT-5，这是一个突破性的统一智能系统，标志着人工智能发展的新里程碑。GPT-5不仅在性能上实现了显著提升，更重要的是它引入了”自适应思考”的能力，能够智能判断何时快速响应，何时需要深度推理。核心特性统一系统架构GPT-5采用了创新的统一系统架构，这是其与前代模型最大的区别。该系统能够：智能模式切换：根据问题的复杂度自动选择快速响应模式或深度思考模式实时路由：通过内置的智能路由系统，将任务分配给最适合的处理模式双模协同：在即时响应和延展思考之间无缝切换，提供最优的性能-延迟平衡这种统一架构使得GPT-5在处理简单查询时保持极快的响应速度，同时在面对复杂问题时能够进行深入的推理和分析。卓越的性能表现GPT-5在多个基准测试中取得了突破性的成绩： AIME 202...

GPT-5 - OpenAI 大型语言模型

Posted on 八月 7, 2025

GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Unified system：smart efficient model + GPT-5 thinking reasoning model + real-time router State-of-the-art across all domains：coding, math, writing, he...

Claude Opus 4.1

Posted on 八月 1, 2025

模型概述Claude Opus 4.1是Anthropic推出的Claude 4系列旗舰模型的重大更新版本。该模型在Claude Opus 4的基础上进行了显著改进,专为需要最高智能水平的复杂任务而设计。 Opus 4.1继承了Opus 4在推理、分析和创意写作方面的卓越能力,同时在性能和效率上实现了进一步提升。作为Claude 4系列的顶级模型,Opus 4.1仅向付费客户和API合作伙伴开放,定价为每百万token输入15美元、输出75美元。该模型特别适合需要深度推理、复杂分析和高质量输出的专业应用场景。技术规格核心参数参数规模: 未公开(推测为Claude 4系列最大规模) 上下文长度: 200,000 tokens 架构: 先进Transformer架构,针对推理和分析优化训练数据: 未公开详细信息,训练数据截至2024年关键创新增强推理能力 - 在Claud...

Gemini 2.5 深度思考

Posted on 八月 1, 2025

模型概述Gemini 2.5 Deep Think是Google DeepMind推出的增强推理模型,采用创新的并行思考方法。该模型的核心创新在于能够同时探索多个假设,在响应前进行修正和组合。通过延长推理时间,模型有更多时间探索不同假设,Google开发了新颖的强化学习技术来鼓励模型利用这些扩展推理路径。在数学奥林匹克IMO 2025基准测试中达到铜牌级别,在美国数学奥林匹克(USAMO)中达到第65百分位(相比Gemini 2.5 Pro的第50百分位有显著提升)。在人类最后考试(HLE)中得分34.8%(无工具),超越xAI Grok 4的25.4%和OpenAI o3的20.3%,成为该基准测试的最高分。技术规格核心参数参数规模: 未公开(基于Gemini 2.5 Pro架构) 上下文长度: 1,000,000 tokens输入 + 192,000 tokens输出 ...

Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品

Posted on 八月 1, 2025

概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。 Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法: 同时探索多个假设: 模型可以并行探...

Grok 4

Posted on 七月 10, 2025

模型概述Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。 Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。技术规格核心参数参数规模: 约1.7万亿参数上下文长度: 256,000 tokens 架构: 大规模Transformer架构,采用混合专家系统(MoE) 训练数据: 未公开详细信...

xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

Posted on 七月 10, 2025

概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。 Grok 4 Heavy 的表现: Humanity’s Last Exam: 50.7%(首个突破 50% 的模型) 带工具使用: 44.4%(使用多个 AI 智能体协作) 相比之下,竞争对手的表现: G...

Grok 4：xAI的突破性推理模型与高端订阅服务

Posted on 七月 9, 2025

Grok 4：xAI的突破性推理模型与高端订阅服务概述2025年7月9日，Elon Musk旗下的xAI公司正式发布了Grok 4系列模型，并同时推出了价格高达每月300美元的SuperGrok Heavy订阅服务。Grok 4在AGI基准测试ARC-AGI-2上取得了突破性的15.9%成绩，几乎是之前商业最先进水平的两倍，标志着AI向通用人工智能迈出的重要一步。发布活动盛大的线上发布会直播规模：在X平台（前Twitter）进行直播 Elon Musk亲自主持演示超过150万人在线观看创造了AI产品发布的观看记录发布形式：实时产品演示互动问答环节性能基准展示用户体验分享系列模型概览模型名称定价主要特点目标用户 Grok 4 $30/月标准推理能力普通用户、开发者 Grok 4 Heavy $300/月 (Sup...

Claude 4 系列：Anthropic发布的世界级编码和推理模型

Posted on 五月 22, 2025

Claude 4 系列：Anthropic发布的世界级编码和推理模型概述2025年5月22日，Anthropic在旧金山举行的首届开发者大会上正式发布了Claude 4系列模型，包括Claude Opus 4和Claude Sonnet 4。这两款模型在编码能力、高级推理和AI智能体应用方面树立了新的行业标准，特别是Claude Opus 4被誉为”世界最佳编码模型”。系列模型对比模型名称参数规模主要优势定价（输入/输出）最佳用途 Claude Opus 4 未公开世界级编码能力，持续多小时工作 $15/$75 per M tokens 复杂软件开发、长期任务 Claude Sonnet 4 未公开优秀的编码和推理，精准指令遵循 $3/$15 per M tokens 日常开发、生产应用 Claude Opus 4：世界...

Claude Opus 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Opus 4 - Anthropic 大型语言模型模型概述Claude Opus 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Opus 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 World’s best coding model at release：72.5% on SWE-bench 43.2% on Terminal：bench Hybrid dual-mode：near-ins...

Claude Sonnet 4 - Anthropic 大型语言模型

Posted on 五月 22, 2025

Claude Sonnet 4 - Anthropic 大型语言模型模型概述Claude Sonnet 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Claude Sonnet 4 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Significant upgrade from Claude Sonnet 3.7：提供强大的AI能力支持 Superior coding and reasoning capabilities：提...

Gemini 2.5 系列：Google DeepMind的突破性思考模型

Posted on 三月 25, 2025

Gemini 2.5 系列：Google DeepMind的突破性思考模型概述2025年3月25日，Google DeepMind发布了Gemini 2.5系列，这是一个具有革命性意义的多模态推理AI模型家族。Gemini 2.5最大的突破在于其”思考能力”（Thinking Capability），能够在回应之前进行深度推理，这使其成为Google迄今为止最智能的AI模型。系列模型对比模型名称主要特点发布时间最佳用途 Gemini 2.5 Pro 旗舰推理模型，支持深度思考模式 2025-03-25 复杂推理、科学研究、高级编程 Gemini 2.5 Flash 快速推理，高效率 2025-09-25 生产环境、实时应用 Gemini 2.5 Flash Image 最先进的图像生成和编辑 2025-08-26 图像创作、视觉内容生成 Gemini ...

OpenAI o1-preview - OpenAI 大型语言模型

Posted on 九月 12, 2024

OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Advanced chain：of-thought reasoning before answering PhD：level performance on physics, chemistry, and biology benc...

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型

Posted on 五月 13, 2024

GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型支持商业使用，为企业部署提供了法律保障。在性能方面，Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 Native multim...