Agentic Reasoning for Large Language Models

Posted on 一月 18, 2026

Agentic Reasoning for Large Language Models ArXiv ID: 2601.12538作者: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang 等 29 位作者发布日期: 2026-01-18分类: ai-agents 摘要推理是人类推断、问题求解和决策的基本认知过程。虽然大语言模型（LLM）在封闭世界环境中展现了强大的推理能力，但在开放式动态环境中仍面临挑战。本文综述了**智能体推理（Agentic Reasoning）**这一范式转变：将 LLM 重新定义为能够自主规划、行动并通过持续交互学习的智能体。研究框架沿三个互补维度组织：基础智能体推理 – 在稳定环境中建立核心单智能体能力（规划、工具使用、搜索）自进化智能体推理 – 研究智能体如何通过反馈、记忆和适应...

阅读全文

Claude高级工具使用：工具搜索、程序化调用与使用示例三大新功能

Posted on 十一月 24, 2025

Claude高级工具使用：工具搜索、程序化调用与使用示例三大新功能来源: Anthropic Engineering Blog作者: Bin Wu 及 Claude Developer Platform 团队发布日期: 2025-11-24分类: ai-agents 概述Anthropic在Claude开发者平台推出三项高级工具使用Beta功能，分别解决传统工具使用的三大瓶颈：工具定义的上下文膨胀（可超过50,000 tokens）、每次调用的推理开销、以及JSON Schema无法表达使用模式的参数歧义问题。这三项功能将AI Agent从”简单函数调用”推向”智能编排”的新阶段。核心内容传统工具使用的三大瓶颈上下文膨胀：工具Schema在Agent处理用户请求前就可能消耗50,000+个token 推理开销：每次工具调用需要完整模型推理，中间结果在上下文中累积参数歧义：J...

阅读全文

xAI 发布 Grok 4 Fast: 性能比肩旗舰,成本降低 98%%

Posted on 九月 19, 2025

概述2025年9月19日,xAI 发布了 Grok 4 Fast,这是一个针对成本优化的推理模型,在保持与旗舰模型 Grok 4 相当性能的同时,将成本降低了 98%。通过平均减少 40% 的思考 token 使用量,Grok 4 Fast 在 LMArena 的文本竞技场中排名第 8,与 Grok 4 并驾齐驱,同时提供了业界最具竞争力的性价比。核心优势极致的成本效率Grok 4 Fast 最大的突破在于其卓越的成本效率: 价格降低 98%: 相比 Grok 4,在前沿基准测试中达到相同性能所需的成本降低了 98% 思考 token 减少 40%: 平均使用的思考 token 比 Grok 4 少 40% Token 使用量优化: 在 Artificial Analysis Intelligence Index 中使用了 6100 万 tokens,显著少于 Gemini 2....

阅读全文

Grok 4

Posted on 七月 10, 2025

模型概述Grok 4是xAI发布的第四代大型语言模型,在独立AI基准测试中首次夺得榜首位置。该模型拥有约1.7万亿参数,使用比Grok 2多100倍的计算资源进行训练,并采用强化学习计算量增加10倍。 Grok 4基于xAI的Colossus超级计算机(配备20万个GPU)构建,在数学推理方面实现重大突破,Grok 4 Heavy在AIME 2025数学竞赛中达到100%满分。该模型在人类最后考试(Humanity’s Last Exam)中得分25.4%(无工具),超越Gemini 2.5 Pro和OpenAI o3。模型支持25.6万token上下文窗口,并提供原生多模态能力和工具使用集成。技术规格核心参数参数规模: 约1.7万亿参数上下文长度: 256,000 tokens 架构: 大规模Transformer架构,采用混合专家系统(MoE) 训练数据: 未公开详细信...

阅读全文

xAI 发布 Grok 4: 首个在「人类最后考试」中突破 50%% 的 AI 模型

Posted on 七月 10, 2025

概述2025年7月10日,埃隆·马斯克旗下的 xAI 公司发布了其旗舰 AI 模型 Grok 4,这是一个在多个前沿基准测试中创造新纪录的突破性模型。Grok 4 成为首个在「人类最后考试」(Humanity’s Last Exam)中突破 50% 准确率的 AI 模型,标志着人工智能在解决博士级别复杂问题方面迈出了历史性的一步。核心突破「人类最后考试」历史性突破「人类最后考试」是一个包含 2,500 道精心策划的博士级别问题的基准测试,涵盖数学、物理、化学、语言学和工程学等领域。这个基准被设计为「同类中最后一个封闭式学术基准」,旨在测试 AI 在人类知识巅峰领域的能力。 Grok 4 Heavy 的表现: Humanity’s Last Exam: 50.7%(首个突破 50% 的模型) 带工具使用: 44.4%(使用多个 AI 智能体协作) 相比之下,竞争对手的表现: G...

阅读全文

ReAct: 在语言模型中协同推理与行动

Posted on 十月 6, 2022

论文概述ReAct引入了一种范式，其中大型语言模型以交错的方式生成推理轨迹和特定任务的行动，在两种能力之间创造协同效应。推理轨迹帮助模型推导、跟踪和更新行动计划，同时处理异常情况，而行动允许它与外部源（如知识库或环境）交互以收集额外信息。这种方法克服了纯推理或纯行动方法的局限性，在可解释性和可信度方面取得了显著改进。论文信息：发布时间：2022-10-06 作者：Shunyu Yao, Jeffrey Zhao, Dian Yu等机构：Princeton University, Google Research 研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术：推理与行动协同 (ReAct) 研究背景大型语言模型在各类任务中展现出强大的能力，但纯推理方法容易产生幻觉，而纯行动方法缺乏规划能力。本研究针对...

阅读全文