概述2025年10月15日,Anthropic 发布了 Claude Haiku 4.5,这是该公司最新的小型 AI 模型。虽然定位为「小型模型」,但 Haiku 4.5 的性能表现却远超预期,在编程能力上达到了旗舰模型 Sonnet 4.5 的 90%,而成本仅为 Sonnet 4 的三分之一,速度则快了两倍以上。
核心优势接近旗舰的编程能力Claude Haiku 4.5 在代码生成和调试方面表现出色,在 SWE-bench Verified 基准测试中取得了 73.3% 的成绩,仅比旗舰模型 Sonnet 4.5(77.2%)低约 5 个百分点。在 Augment 的智能编程评估中,Haiku 4.5 达到了 Sonnet 4.5 性能的 90%。这意味着开发者可以用更低的成本获得接近旗舰级的编程辅助能力。
极致的性价比Haiku 4.5 的定价策略极具竞争力:
输入: 每百...
GPT-5 Pro - OpenAI 大型语言模型
GPT-5 Pro - OpenAI 大型语言模型模型概述GPT-5 Pro 是 OpenAI 公司于 2025 年 10月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 GPT-5 Pro 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Extended reasoning for comprehensive answers:提供强大的AI能力支持
88.4% on GPQA without tools (state:of-the-art)
Optimized for finance, legal, and...
Claude Sonnet 4.5 - Anthropic 大型语言模型
Claude Sonnet 4.5 - Anthropic 大型语言模型模型概述Claude Sonnet 4.5 是 Anthropic 公司于 2025 年 9月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude Sonnet 4.5 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
World’s best coding model:77.2% on SWE-bench Verified
World’s best agent model:61.4% on OSWor...
xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%
概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。
核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率:
价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98%
思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40%
Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....
Microsoft MAI-1-Preview - 微软 大型语言模型
Microsoft MAI-1-Preview - 微软 大型语言模型模型概述Microsoft MAI-1-Preview 是 微软 公司于 2025 年 8月发布的大型语言模型,拥有 undisclosed (Mixture-of-Experts) 参数规模。作为基座模型,它为下游任务提供了强大的基础能力。 该模型支持商业使用,为企业部署提供了法律保障。 Microsoft MAI-1-Preview 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
undisclosed (Mixture-of-Experts) 参数规模:采用大规模参数设计,在性能和效率之间取...
Microsoft MAI-Voice-1 - 微软 大型语言模型
Microsoft MAI-Voice-1 - 微软 大型语言模型模型概述Microsoft MAI-Voice-1 是 微软 公司于 2025 年 8月发布的大型语言模型。 该模型支持商业使用,为企业部署提供了法律保障。 Microsoft MAI-Voice-1 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Ultra-fast generation:1 minute of audio in <1 second on single GPU
Highly expressive and natural speech synthesis:提供强大的AI能力支持...
GPT-5 - OpenAI 大型语言模型
GPT-5 - OpenAI 大型语言模型模型概述GPT-5 是 OpenAI 公司于 2025 年 8月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 GPT-5 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Unified system:smart efficient model + GPT-5 thinking reasoning model + real-time router
State-of-the-art across all domains:coding, math, writing, he...
Google 发布 Gemini 2.5 Deep Think: 并行思考推理模型,编程能力超越竞品
概述2025年8月1日,Google 正式发布了 Gemini 2.5 Deep Think,这是一个增强推理模式,使用前沿的并行思考和强化学习技术,显著提升了 Gemini 在解决复杂问题方面的能力。该模型在 5月20日的 Google I/O 大会上首次预览,并在两个多月后向 Google AI Ultra 订阅用户正式开放。
Gemini 2.5 Deep Think 的核心创新在于其「并行思考」方法,允许模型同时探索多个想法,在给出答案前进行修订和组合。这种方法使其在编程竞赛(LiveCodeBench V6: 87.6%)和数学奥林匹克(IMO 2025: Bronze 级别 60.7%)等基准测试中取得了业界领先的成绩。
核心技术创新并行思考机制Gemini 2.5 Deep Think 最大的突破在于其独特的并行思考方法:
同时探索多个假设: 模型可以并行探...
xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型
概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。
核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。
Grok 4 Heavy 的表现:
Humanity’s Last Exam: 50.7%(首个突破 50% 的模型)
带工具使用: 44.4%(使用多个 AI 智能体协作)
相比之下,竞争对手的表现:
G...
Claude Opus 4 - Anthropic 大型语言模型
Claude Opus 4 - Anthropic 大型语言模型模型概述Claude Opus 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude Opus 4 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
World’s best coding model at release:72.5% on SWE-bench
43.2% on Terminal:bench
Hybrid dual-mode:near-ins...
Claude Sonnet 4 - Anthropic 大型语言模型
Claude Sonnet 4 - Anthropic 大型语言模型模型概述Claude Sonnet 4 是 Anthropic 公司于 2025 年 5月发布的大型语言模型。 在代码生成和理解方面表现出色,具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 Claude Sonnet 4 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Significant upgrade from Claude Sonnet 3.7:提供强大的AI能力支持
Superior coding and reasoning capabilities:提...
OpenAI o1-preview - OpenAI 大型语言模型
OpenAI o1-preview - OpenAI 大型语言模型模型概述OpenAI o1-preview 是 OpenAI 公司于 2024 年 9月发布的大型语言模型。 具备强大的逻辑推理和数学推理能力。 该模型支持商业使用,为企业部署提供了法律保障。 OpenAI o1-preview 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Advanced chain:of-thought reasoning before answering
PhD:level performance on physics, chemistry, and biology benc...
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型
GPT-4o (GPT-4 Omni) - OpenAI 大型语言模型模型概述GPT-4o (GPT-4 Omni) 是 OpenAI 公司于 2024 年 5月发布的大型语言模型。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务,在代码生成和理解方面表现出色。 该模型支持商业使用,为企业部署提供了法律保障。 在性能方面,Matches GPT-4 Turbo performance on text in English and code。 GPT-4o (GPT-4 Omni) 采用了先进的 Transformer 架构和优化的训练方法,在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性,特别是在需要高质量语言理解和生成的应用场景中,如智能客服、内容创作、代码辅助等领域,都展现出了巨大的应用潜力。
核心特性
Native multim...