Anthropic Engineering Blog 技术文章精选

Anthropic Engineering Blog 技术文章精选 来源: Anthropic Engineering Blog发布日期: 2026-03-06类型: 技术文集 概述本文汇总了 Anthropic Engineering Blog 发布的核心技术文章,涵盖 AI Agent 架构、工具使用、安全沙箱、评估方法等多个主题。这些文章代表了 Anthropic 工程团队在构建生产级 AI 系统方面的最佳实践和经验总结,为开发者提供了宝贵的参考资源。 文章分类汇总AI Agent 架构 文章 发布日期 主题 Building Effective Agents 2024-12-19 Agent 工作流和架构模式 Multi-Agent Research Systems 2025-04-22 多 Agent 协作系统 Effective Harnesses ...

阅读全文

Claude Code 最佳实践指南

Claude Code 最佳实践指南 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2026 年 3 月 1 日类型: 最佳实践指南阅读时间: 约 15 分钟 概述本文提供了 Claude Code 的完整最佳实践指南,涵盖配置优化、工作流设计、提示工程、调试技巧和生产部署等方面。通过在 Anthropic 内部的实践经验,我们总结了一套高效使用 Claude Code 进行软件开发的方法论,包括项目上下文管理、任务分解策略、代码审查流程和安全性考虑。遵循这些最佳实践,开发团队可以将 Claude Code 的效率提升 2-3 倍,同时保持代码质量和安全性。 引言Claude Code 作为 AI 辅助编程工具,正在改变软件开发的工作方式。然而,要充分发挥其潜力,需要理解最佳实践和正确的工作流程...

阅读全文

使用并行 Claude 团队协作构建 C 语言编译器

使用并行 Claude 团队协作构建 C 语言编译器 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2026 年 2 月 5 日类型: 技术案例研究阅读时间: 约 12 分钟 概述本文详细介绍了 Anthropic 团队如何使用并行 Claude 团队协作的方式,在创纪录的时间内构建了一个功能完整的 C 语言编译器前端。通过多 Agent 协作模式,团队将词法分析、语法分析、语义分析和代码生成等任务分配给不同的 Claude 实例并行处理,同时使用协调 Agent 进行任务编排和质量控制。该项目展示了 AI Agent 协作在复杂软件工程任务中的巨大潜力,为大型软件开发提供了新的范式。 项目背景与挑战为什么构建 C 编译器C 语言编译器是验证 AI 编程能力的理想基准: 复杂性高:涉及词法分析...

阅读全文

量化 Agentic 代码评估中的基础设施噪声

量化 Agentic 代码评估中的基础设施噪声 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2026 年 2 月 3 日类型: 技术研究阅读时间: 约 10 分钟 概述本文深入分析了在评估 Agentic AI 系统时代码基础设施噪声对测试结果的影响。研究发现,基础设施噪声(如测试环境差异、网络延迟、资源竞争等)可能导致评估结果波动高达 15-20%。通过系统性的测量和分析,Anthropic 团队开发了一套减少噪声的方法论,包括环境标准化、多次运行平均、统计显著性检验等。这些方法显著提高了评估的可靠性和可重复性,为 AI Agent 性能评估提供了更准确的基础。 什么是基础设施噪声在评估 Agentic AI 系统时,”基础设施噪声”指的是所有非模型因素导致的性能波动: 噪声来源 测试环境差...

阅读全文

Prompt对决优化器(PDO):基于对决赌博机的无标签提示优化

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill发布日期: 2025-10-14 (修订: 2026-01-28)内容级别: Analysis 摘要大多数自动提示优化(APO)方法依赖真实标签(ground-truth),但在实际应用中获取标注数据成本高昂。本文提出Prompt对决优化器(PDO),将提示选择建模为对决赌博机(dueling-bandit)问题,仅使用LLM评判器的成对偏好反馈进行无标签提示优化...

阅读全文

思维策略(PoT):通过测试时策略进化扩展LLM推理 -- 4B模型超越GPT-4o

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution ArXiv ID: 2601.20379作者: Zhengbo Jiao, Hongyu Xian, Qinglong Wang, Yunpu Ma, Zhebo Wang, Zifan Zhang, Dezhang Kong, Meng Han发布日期: 2026-01-28内容级别: Deep Dive 摘要现有测试时计算扩展方法将反馈仅作为外部过滤机制,无法真正改进模型的推理策略。本文提出思维策略(Policy of Thoughts, PoT),将推理重构为实例级在线优化过程。PoT通过蒙特卡洛树搜索(MCTS)生成多样候选解,然后利用群组相对策略优化(GRPO)更新瞬时LoRA适配器,实现测试时的实时策略进化。核心理念源自波普尔...

阅读全文

设计抗AI技术评估:Anthropic的三轮迭代之旅

设计抗AI技术评估:Anthropic的三轮迭代之旅 来源: Anthropic Engineering Blog作者: Tristan Hume (Performance Optimization Team Lead)发布日期: 2026-01-21分类: ai-agents 概述Anthropic性能优化团队负责人Tristan Hume记录了团队在三轮迭代中维护高预测性技术招聘评估的过程。随着Claude模型能力不断增强,每个版本的性能工程笔试都被连续击败,团队不得不持续创新评估设计。文章揭示了一个根本性矛盾:模拟真实工作曾是评估成功的关键,但AI在已知领域的快速进步使得”现实性可能已是我们无法承受的奢侈品”。 核心内容问题的本质技术招聘评估面临根本性挑战:今天能有效区分人类技能水平的笔试,明天可能被AI模型轻松解决。Anthropic亲身经历了这一挑战的三轮迭代。 第一版:...

阅读全文

Agentic Reasoning for Large Language Models

Agentic Reasoning for Large Language Models ArXiv ID: 2601.12538作者: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang 等 29 位作者发布日期: 2026-01-18分类: ai-agents 摘要推理是人类推断、问题求解和决策的基本认知过程。虽然大语言模型(LLM)在封闭世界环境中展现了强大的推理能力,但在开放式动态环境中仍面临挑战。本文综述了**智能体推理(Agentic Reasoning)**这一范式转变:将 LLM 重新定义为能够自主规划、行动并通过持续交互学习的智能体。 研究框架沿三个互补维度组织: 基础智能体推理 – 在稳定环境中建立核心单智能体能力(规划、工具使用、搜索) 自进化智能体推理 – 研究智能体如何通过反馈、记忆和适应...

阅读全文

Think-with-Me:交互式测试时干预解决LLM过度思考问题

Beyond Model Scaling: Test-Time Intervention for Efficient Deep Reasoning ArXiv ID: 2601.11252作者: Qianyue Wang, Jinwu Hu, Yufeng Wang, Huanxiang Lin, Bolin Chen, Zhiquan Wen, Yaofo Chen, Mingkui Tan发布日期: 2026-01-16内容级别: Analysis 摘要大型推理模型(如QwQ-32B、DeepSeek-R1)在面对推理任务时常常”过度思考”–即使已经得到正确答案仍继续冗余推理,导致上下文窗口浪费和推理延迟增加。本文提出Think-with-Me,一种测试时交互式推理范式,在推理过程中的转折连词处引入外部反馈干预,自适应决定终止或继续推理。 在AIME24上,Think-with...

阅读全文

少即是多:最小测试时干预(MTI)精准提升LLM推理 -- 免训练+9%

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention ArXiv ID: 2510.13940作者: Zhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Ying-Cong Chen发布日期: 2025-10-15 (修订: 2026-01-11)内容级别: Deep Dive 摘要本文揭示了LLM推理中一个被忽视但关键的现象:推理不确定性高度局部化。仅一小部分高熵token对输出正确性产生决定性影响。基于这一发现,提出最小测试时干预(Minimal Test-Time Intervention, MTI),一个完全免训练的框架。MTI仅在不确定位置应用分类器无关引导(CFG),通过轻量级负向提示引...

阅读全文

AI Agent评估体系全面指南:从理论到实践

AI Agent评估体系全面指南:从理论到实践 来源: Anthropic Engineering Blog作者: Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe发布日期: 2026-01-09分类: ai-agents 概述Anthropic发布了一篇关于AI Agent评估体系的全面指南,系统阐述了评估的核心概念、三种评分器类型(代码、模型、人工)、五类Agent的评估方法(编码、对话、研究、计算机操作、通用),以及从零开始构建评估体系的完整八步路线图。这是目前最全面、最具实操性的Agent评估实践指南之一。 核心内容为什么需要Agent评估没有结构化测试的团队陷入被动循环——只在用户遇到问题后才发现问题。”Agent变差了”却无法量化时,就到了构建评估体系的时候。 跳过评估的代价: 无法区分真...

阅读全文

揭开 AI Agent 评估的神秘面纱

揭开 AI Agent 评估的神秘面纱 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2026 年 1 月 8 日类型: 技术指南阅读时间: 约 14 分钟 概述本文全面解析 AI Agent 评估方法,包括评估指标设计、测试用例构建、评估流程实施和结果解读。我们分享了 Anthropic 内部使用的评估框架,涵盖了从单元测试到端到端评估的多层次评估策略,以及如何设计可靠、可重复、有意义的评估体系。 为什么评估很重要评估的目的能力评估: Agent 能完成什么任务? 任务完成的质量如何? 在什么条件下会失败? 性能评估: 任务执行速度如何? 资源消耗是多少? 并发能力如何? 可靠性评估: 失败率是多少? 错误类型有哪些? 恢复能力如何? 评估的挑战 挑战 描述 解决方案 主...

阅读全文

Memory in the Age of AI Agents

Memory in the Age of AI Agents ArXiv ID: 2512.13564作者: Yuyang Hu, Wangchunshu Zhou, Yixin Liu 等 47 位作者发布日期: 2025-12-15分类: context-engineering 摘要记忆已成为(并将持续是)基础模型智能体的核心能力。随着智能体记忆研究的快速扩展和前所未有的关注,该领域也变得日益碎片化 – 现有工作在动机、实现和评估协议上存在显著差异。传统的长期/短期记忆分类已不足以涵盖当代智能体记忆系统的多样性。 本文提供了一个全面的、多视角的智能体记忆研究全景,明确界定了智能体记忆的范畴,并将其与 LLM 记忆、RAG 和上下文工程等相关概念区分开来。 主要贡献1. 三视角分析框架提出了一个从三个维度理解智能体记忆的统一框架: 形式视角 (Forms) Token ...

阅读全文

Towards a Science of Scaling Agent Systems

Towards a Science of Scaling Agent Systems ArXiv ID: 2512.08296作者: Yubin Kim, Ken Gu, Chanwoo Park 等 (MIT, Google DeepMind)发布日期: 2025-12-09分类: ai-agents 摘要智能体 – 基于语言模型的能够推理、规划和行动的系统 – 正在成为实际 AI 应用的主导范式。然而,决定其性能的原则仍然未被充分探索。本文通过推导多智能体系统的定量扩展原则来解决这一问题,将智能体数量、协调结构、模型能力和任务属性之间的相互作用形式化为可预测的扩展定律。 核心发现:更多智能体并不总是更好 – 架构必须匹配任务结构,拓扑、验证和任务分解等设计选择与模型大小同等重要。 主要贡献1. 形式化的智能体评估定义首次为多智能体系统提出严格的评估框架,包括效率、开销、错误放大...

阅读全文

聚焦思维链 (F-CoT): 先整理再推理,token 减少 2-3 倍

聚焦思维链 (F-CoT): 先整理再推理,token 减少 2-3 倍 ArXiv ID: 2511.22176作者: Lukas Struppek, Dominik Hintersdorf, Hannah Struppek, Daniel Neider, Kristian Kersting机构: TU Darmstadt, Fraunhofer IAIS发布日期: 2025-11-27内容级别: Quick 摘要标准思维链(CoT)让模型在推理过程中同时处理信息理解和逻辑推导,导致冗余 token 生成。受认知心理学中注意聚焦理论启发,本文提出 F-CoT(Focused Chain-of-Thought),一种免训练的输入导向方法。F-CoT 在推理前先将查询中的关键信息组织为简洁的结构化上下文,将信息提取与推理过程分离。在算术问题上实现2-3 倍 token 生成量减少,...

阅读全文

Focused Chain-of-Thought: 通过结构化输入信息实现高效 LLM 推理

Focused Chain-of-Thought: 通过结构化输入信息实现高效 LLM 推理 ArXiv ID: 2511.22176作者: Lukas Struppek, Dominik Hintersdorf, Hannah Struppek, Daniel Neider, Kristian Kersting发布日期: 2025-11-27分类: prompt-engineering, reasoning-efficiency 摘要受认知心理学启发,本文提出了 Focused Chain-of-Thought (F-CoT),一种将信息提取与推理过程分离的方法。F-CoT 首先将查询中的关键信息组织成简洁的结构化上下文,然后引导模型仅在此上下文上进行推理。在算术应用题上,F-CoT 将生成的 token 减少 2-3 倍,同时保持与标准零样本 CoT 相当的准确率。这是一种无需...

阅读全文

长运行Agent的有效框架:跨上下文窗口的一致性进度

长运行Agent的有效框架:跨上下文窗口的一致性进度 来源: Anthropic Engineering Blog作者: Justin Young发布日期: 2025-11-26分类: ai-agents 概述AI Agent在跨多个上下文窗口工作时面临根本性挑战:每个新会话开始时都没有之前的记忆。Anthropic通过让Claude Opus 4.5仅用高层提示构建claude.ai克隆的实验,发现了两种典型失败模式——过度野心执行和过早完成声明。文章提出了初始化Agent+编码Agent的两部分架构,以及从人类软件工程实践中汲取灵感的一系列关键实践。 核心内容问题的本质上下文窗口有限且复杂项目无法在单个窗口中完成。关键矛盾在于”每个新会话开始时都没有之前的记忆”——Agent工作在离散会话中,而项目需要连续进度。 两种典型失败模式通过让Claude Opus 4.5尝试仅用高层...

阅读全文

Claude高级工具使用:工具搜索、程序化调用与使用示例三大新功能

Claude高级工具使用:工具搜索、程序化调用与使用示例三大新功能 来源: Anthropic Engineering Blog作者: Bin Wu 及 Claude Developer Platform 团队发布日期: 2025-11-24分类: ai-agents 概述Anthropic在Claude开发者平台推出三项高级工具使用Beta功能,分别解决传统工具使用的三大瓶颈:工具定义的上下文膨胀(可超过50,000 tokens)、每次调用的推理开销、以及JSON Schema无法表达使用模式的参数歧义问题。这三项功能将AI Agent从”简单函数调用”推向”智能编排”的新阶段。 核心内容传统工具使用的三大瓶颈 上下文膨胀:工具Schema在Agent处理用户请求前就可能消耗50,000+个token 推理开销:每次工具调用需要完整模型推理,中间结果在上下文中累积 参数歧义:J...

阅读全文

长时运行 Agent 的有效控制框架

长时运行 Agent 的有效控制框架 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 11 月 21 日类型: 技术架构阅读时间: 约 13 分钟 概述本文探讨了长时运行 AI Agent 的有效控制框架设计。随着 AI Agent 在生产环境中的广泛应用,如何管理和控制长时间运行的 Agent 成为关键挑战。我们分享了状态管理、错误恢复、任务调度、资源监控等方面的实践经验和架构设计。 长时运行 Agent 的挑战什么是长时运行 Agent定义:执行时间超过数分钟至数小时的 AI Agent 任务 典型场景: 大型代码库重构(1-4 小时) 全面数据分析报告(30 分钟 -2 小时) 复杂研究任务(2-8 小时) 自动化工作流(持续运行) 主要挑战 挑战 描述 影响 状...

阅读全文

通过 MCP 执行代码:构建更高效的 AI Agent

通过 MCP 执行代码:构建更高效的 AI Agent 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 10 月 30 日类型: 技术架构阅读时间: 约 12 分钟 概述本文介绍了如何通过模型上下文协议 (MCP) 实现安全的代码执行能力,构建更高效的 AI Agent 系统。通过在隔离的沙箱环境中执行代码,AI Agent 可以获得强大的计算能力、数据处理能力和自动化能力。我们分享了代码执行架构设计、安全隔离机制、性能优化技巧和实际应用场景。 为什么需要代码执行AI 模型的局限纯语言模型在处理某些任务时有天然局限: 数学计算: 模型:$237 \times 492 = ?$ (可能出错) 代码:237 * 492 (准确结果) 数据处理: 模型:分析 10000 行...

阅读全文

Agentic RAG: AI Agent驱动的检索增强生成

Agentic RAG: AI Agent驱动的检索增强生成 ArXiv ID: 2501.09136作者: Aditi Singh, Abul Ehtesham, Saket Kumar, Tala Talaei Khoei发布日期: 2025年1月15日 (最后更新: 2025年2月4日)分类: AI Agents / Context Engineering 核心特性Agentic RAG是什么?传统RAG系统采用被动检索模式: 接收查询 → 检索 → 生成答案。这种模式存在局限: 静态流程: 无法根据中间结果动态调整检索策略 单次检索: 难以处理需要多步推理的复杂问题 缺乏自主性: 不能主动判断何时需要检索 Agentic RAG通过将自主AI Agent嵌入RAG管道,实现: 自主决策: Agent决定何时检索、检索什么、如何组合信息 动态规划: 根据任务复...

阅读全文

Adaptive Graph of Thoughts: 测试时自适应推理框架

Adaptive Graph of Thoughts: 测试时自适应推理框架 ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025年2月7日分类: Prompt Engineering 核心创新统一CoT, ToT, GoT的自适应框架大语言模型的推理能力高度依赖于提示策略和模型规模。现有方法包括: Chain-of-Thought (CoT): 线性推理链 → 适合简单任务,但难以处理复杂问题 Tree of Thoughts (ToT): 树形探索多个推理路径 → 适合需要回溯的任务,但计算开销大 Graph of Thoughts (GoT): 图结构允许路径合并和循环 → 灵活但需要人工设计图结构 AGoT的突破: 在测试时动态选...

阅读全文

Graph Retrieval-Augmented Generation: 图结构增强的RAG系统综述

Graph Retrieval-Augmented Generation: 图结构增强的RAG系统综述 ArXiv ID: 2408.08921作者: Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi, Chuntao Hong, Yan Zhang, Siliang Tang发布日期: 2024年8月15日 (最后更新: 2024年9月10日)分类: Context EngineeringGitHub: pengboci/GraphRAG-Survey 论文摘要本文是GraphRAG(Graph Retrieval-Augmented Generation)领域的首个综合性调研,系统地回顾了将图结构融入检索增强生成(RAG)系统的方法论。 传统的RAG系统主要依赖非结构化文本检索,往往难以捕捉实体间的复杂关...

阅读全文

Agentic Context Engineering: 自进化的上下文优化框架

Agentic Context Engineering: 自进化的上下文优化框架 ArXiv ID: 2510.04618作者: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun发布日期: 2025年10月6日分类: Context Engineering机构: Stanford University等 论文摘要ACE (Agentic Context Engineering) 是一个革命性的上下文适配框架,它将上下文视为不断进化的策略手册,通过生成、反思和整理三个模块,实现上...

阅读全文

A Survey of Context Engineering for Large Language Models: 上下文工程全景综述

A Survey of Context Engineering for Large Language Models: 上下文工程全景综述 ArXiv ID: 2507.13334作者: Lingrui Mei, Jiayu Yao, Yuyao Ge, Yiwei Wang, Baolong Bi, Yujun Cai, Jiazhi Liu, Mingyu Li, Zhong-Zhi Li, Duzhen Zhang, Chenlin Zhou, Jiayi Mao, Tianze Xia, Jiafeng Guo, Shenghua Liu (15位作者)发布日期: 2025年7月17日 (最后更新: 2025年7月21日)分类: Context Engineering论文规模: 分析了超过1400篇研究论文 论文摘要这是上下文工程(Context Engineering)领域...

阅读全文

LinearRAG: 基于线性图的大规模语料检索增强生成

论文概述LinearRAG是一种针对大规模语料库的新型检索增强生成框架,旨在解决当前RAG系统在处理大规模非结构化语料和不可靠知识图谱构建方面的局限性。该方法的核心创新在于构建了一个名为”三图”(Tri-Graph)的轻量级图结构,通过避免不稳定的关系建模,实现了与语料库规模呈线性关系的扩展能力。LinearRAG采用两阶段检索策略,在处理复杂推理任务时能够更准确地定位相关段落,有效减少了大语言模型的幻觉问题。 论文信息: 发布时间:2025-10-11 作者:Luyao Zhuang, Shengyuan Chen, Yilin Xiao, Huachi Zhou, Yujing Zhang, Hao Chen, Qinggang Zhang, Xiao Huang 研究方向:上下文工程 (Context Engineering), 检索增强生成 (Retrieval-Augme...

阅读全文

GraphSearch: 用于图检索增强生成的智能体深度搜索工作流

图Search: An Agentic Deep Searching Workflow for 图 检索-Augmented Generation论文概述本文是一篇关于图检索增强生成的研究论文,由 Cehao Yang 等8位研究者共同完成。 研究目标本研究的主要目标包括: Identifies two core limitations of existing 图检索增强生成: shallow 检索 and inefficient 图 utilization Proposes 图Search, an agentic deep searching workflow with modular architecture Introduces dual-channel 检索 combining semantic queries over text and relational querie...

阅读全文

三个近期问题的事故复盘

三个近期问题的事故复盘 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 9 月 17 日类型: 事故复盘报告阅读时间: 约 14 分钟 概述本文详细复盘了 Anthropic 工程团队近期遇到的三个生产环境问题的根因分析、解决方案和预防措施。这些问题包括:API 延迟激增事故、上下文污染问题和工具调用循环问题。通过透明的分享,我们希望帮助其他团队避免类似问题,并促进 AI 工程领域的最佳实践发展。 问题 1:API 延迟激增事故事故概述时间:2025 年 8 月 15 日 14:30-16:45 UTC影响:API 延迟从平均 200ms 激增至 2500ms,错误率从 0.1% 上升至 15%严重程度:P0 时间线 时间 事件 14:30 监控系统检测到 API 延迟异常...

阅读全文

Youtu-GraphRAG: 用于图检索增强复杂推理的垂直统一智能体

Youtu-GraphRAG: 用于图检索增强复杂推理的垂直统一智能体论文概述本文是一篇关于图检索增强生成的研究论文,由 Junnan Dong 等8位研究者共同完成。 研究目标本研究的主要目标包括: 提出垂直统一智能体范式,整合整个图检索增强生成框架 引入种子图模式并持续扩展以实现领域可扩展性 开发双重感知社区检测,融合结构拓扑和子图语义 研究背景当前挑战 性能优化:如何提升大型语言模型 (LLM)在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型 (LLM)的性能和实用性。 核心方法方法概述Youtu-GraphRAG采用垂直统一方法,包含四个关键组件:(1) 种子图模式 - 通过目标实体...

阅读全文

Memory-R1: 通过强化学习增强大语言模型Agent的记忆管理能力

论文概述Memory-R1是一个创新性的强化学习框架,旨在解决大语言模型的无状态特性所带来的记忆局限问题。该框架通过引入两个专门化的智能体来实现自适应的外部记忆管理:记忆管理器(Memory Manager)负责学习结构化的记忆操作(ADD、UPDATE、DELETE),而回答智能体(Answer Agent)则负责预选和推理相关的记忆条目。Memory-R1的突破性在于使用结果驱动的强化学习技术,在极少监督的情况下实现高效的记忆管理。 论文信息: 发布时间:2025-08-27 作者:Sikuan Yan, Xiufeng Yang, Zuchao Huang, Ercong Nie, Zifeng Ding, Zonggen Li, Xiaowen Ma, Kristian Kersting, Jeff Z. Pan, Hinrich Schütze, Volker Tresp...

阅读全文

LLM的链式思维推理是海市蜃楼吗?从数据分布视角的分析

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens ArXiv ID: 2508.01191作者: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu发布日期: 2025年8月2日最后更新: 2025年8月13日 摘要链式思维(Chain-of-Thought, CoT)提示已被证明能够提升大语言模型(LLM)的性能。然而,本文质疑CoT推理是否真的如表面所示那样深入,还是仅仅是一种表面现象。通过数据分布的视角,研究者开发了”DataAlchemy”研究环境来调查CoT推理。研究揭示,CoT推理实际上是”脆弱的”,高度依赖于训练数据的分布...

阅读全文

大语言模型的链式思维推理是海市蜃楼吗?数据分布视角

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens ArXiv ID: 2508.01191作者: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu发布日期: 2025-08-13 摘要链式思维(CoT)提示已成为增强大语言模型推理能力的强大技术。然而,一个根本问题仍然存在:CoT代表真正的推理能力,还是仅仅是从训练数据中学到的复杂模式匹配?本文从数据分布视角研究CoT推理,系统考察大语言模型是否能将CoT推理泛化到训练分布之外。我们开发了DataAlchemy,一个用于跨三个维度(任务复杂度、推理链长度、输出格式)训练和探测大语言模型...

阅读全文

Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架

Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架论文概述本文是一篇关于图检索增强生成的框架设计论文,由 Haoran Luo 等8位研究者共同完成。 研究目标本研究的主要目标包括: 提出Graph-R1,一个使用端到端强化学习的智能体式图检索增强生成框架 引入轻量级知识超图构建以降低构建成本 将检索建模为多轮智能体-环境交互,而非固定的一次性检索 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述Graph-R1采用三管齐下的方法:(1) 轻量级超图构建 - 高效构建捕捉n元关系的知识超图,同时最小化计算开...

阅读全文

Promptomatix: 面向大型语言模型的自动提示优化框架

Promptomatix: 面向大型语言模型的自动提示优化框架论文概述本文是一篇关于提示工程的框架设计论文,由 Rithesh Murthy 等8位研究者共同完成。 Promptomatix是一个自动提示优化框架,能够将自然语言任务描述转换为高质量提示,无需手动调优或领域专业知识。该系统支持轻量级元提示优化器和DSPy驱动的编译器,具有模块化设计便于未来扩展。系统会分析用户意图,生成合成训练数据,选择合适的提示策略,并使用成本感知目标迭代优化提示,在减少提示长度和计算开销的同时实现竞争力或更优的性能。 研究目标本研究的主要目标包括: 引入Promptomatix框架,可从自然语言描述自动优化提示 支持基于元提示和DSPy驱动的两种优化方法 实现成本感知优化目标,平衡性能和效率 研究背景当前挑战 提示设计复杂:如何设计有效的提示来引导模型生成高质量输出 优化困难:手动优化提示既耗时...

阅读全文

Towards Practical GraphRAG: 高效知识图谱构建与混合检索的大规模应用

Towards Practical GraphRAG: Efficient Knowledge Graph Construction and Hybrid Retrieval at Scale ArXiv ID: 2507.03226作者: Congmin Min, Sahil Bansal, Joyce Pan, Abbas Keshavarzi, Rhea Mathew, Amar Viswanathan Kannan机构: Samsung Research发布日期: 2025-07-04分类: context-engineering, information-retrieval 摘要GraphRAG 在企业级环境中的部署面临着成本和可扩展性的双重挑战。本文提出了一个可扩展、成本高效的企业级 GraphRAG 框架,包含两个核心创新:一个利用依存句法分析的高效知识图谱构建管线,...

阅读全文

为 AI Agent 编写高效工具

为 AI Agent 编写高效工具 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 6 月 18 日类型: 技术指南阅读时间: 约 12 分钟 概述本文详细介绍了如何为 AI Agent 设计和编写高效工具。工具是 AI Agent 与外部世界交互的桥梁,良好的工具设计可以显著提升 Agent 的性能和可靠性。我们分享了工具设计的核心原则、接口设计规范、错误处理策略、性能优化技巧,以及实际案例分析。遵循这些最佳实践,开发者可以创建出易于理解、可靠执行、高效运行的 AI Agent 工具。 为什么工具设计很重要工具的作用工具是 AI Agent 能力的延伸: 感知扩展:让 Agent 获取外部信息 执行能力:让 Agent 执行实际操作 记忆增强:让 Agent 访问持久化数据 计算...

阅读全文

何时在检索增强生成中使用图: 图检索增强生成的综合性分析

何时在检索增强生成中使用图: 图检索增强生成的综合性分析论文概述本文是一篇关于图检索增强生成的研究论文,由 Zhishang Xiang 等7位研究者共同完成。 研究目标本研究的主要目标包括: 解决关键问题:在现实世界场景中图检索增强生成何时优于普通检索增强生成 引入GraphRAG-Bench,用于评估图检索增强生成系统的综合基准测试 提供对整个图检索增强生成流程的系统性评估:图构建、检索和生成 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述本文引入GraphRAG-Bench,这是一个包含多个难度级别和类型任务的综合...

阅读全文

我应该使用哪种提示技术?软件工程任务提示技术实证研究

我应该使用哪种提示技术?软件工程任务提示技术实证研究论文概述本文是一篇关于提示工程的实证研究论文,由 E. G. Santana Jr 等8位研究者共同完成。 This 综合性 实证 study 系统性ally evaluates 14 established 提示工程 techniques across 10 软件工程 tasks using 4 大语言模型 models. The research reveals which prompting techniques are most effective for different types of SE tasks, providing practical guidance on technique selection based on task complexity, 推理 requirements, and contextu...

阅读全文

理解偏好学习中的性能差距:RLHF与DPO的二分法分析

Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日 摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...

阅读全文

理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法

理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法论文概述本文是一篇关于大语言模型的研究论文,由 R 等77位研究者共同完成。 研究目标本研究的主要目标包括: 对RLHF与DPO性能差距进行细粒度理论分解,分为显式和隐式表示差距 基于模型类误配置特征,确定RLHF、DPO或在线DPO何时优于其他方法 证明在同构模型类下,在线DPO可以同时超越RLHF和标准DPO 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述本文采用严格的理论分析来分解RLHF和DPO方法之间的性能差距。在精确优化机制下,他们分析了...

阅读全文

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning ArXiv ID: 2505.16782作者: Xinghao Chen, Anhao Zhao, Heming Xia, Xuan Lu, Hanlin Wang, Yanjun Chen, Wei Zhang, Jian Wang, Wenjie Li, Xiaoyu Shen发布日期: 2025-05-22分类: prompt-engineering 摘要传统的链式思维(CoT)推理依赖于显式的语言生成 – 模型必须将每个推理步骤以文本形式输出。本文综述了一个新兴且快速增长的研究方向:潜在 CoT 推理(Latent CoT Reasoning),其中推理过程嵌入在潜在空间中而非通过显式语言表达。通过将推...

阅读全文

DPO遇见PPO:RLHF的强化令牌优化

DPO Meets PPO: Reinforced Token Optimization for RLHF ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日 摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...

阅读全文

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory ArXiv ID: 2504.19413作者: Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav发布日期: 2025-04-28分类: context-engineering 摘要大语言模型的固定上下文窗口在维持长期多轮对话一致性方面存在根本性挑战。Mem0 提出了一种面向生产环境的可扩展记忆架构,能够从持续对话中动态提取、整合和检索关键信息。增强版本利用图结构记忆表示来建模对话元素间的关系。 主要贡献1. 可扩展记忆架构Mem0 的核心是一个以记忆为中心的架构,具备三个关键能力: 动态提取:从对话流中自动识别和提取关键信息 智能整合:将分散...

阅读全文

迈向评估性思维: 基于演化奖励模型的元策略优化

迈向评估性思维: 基于演化奖励模型的元策略优化论文概述本文是一篇关于奖励模型的优化方法论文,由 Zae Myung Kim 等4位研究者共同完成。 元策略优化(MPO)解决了大语言模型基于奖励对齐的两个关键限制:对奖励欺骗的脆弱性以及对奖励模型提示工程的依赖性(既脆弱又劳动密集)。MPO引入了一个元奖励模型,在训练过程中动态优化奖励模型的提示,监控不断演化的训练上下文并持续调整提示以保持高度对齐。这种元学习方法提供了抵抗策略利用的自适应奖励信号,同时大大减少了手动奖励提示设计的工作量。MPO实现了与广泛手工制作的奖励提示引导的模型相当或更好的性能,并且在不同任务中保持有效性,无需专门的奖励设计。 研究目标本研究的主要目标包括: 引入具有元奖励模型的元策略优化(MPO)框架,用于动态提示优化 通过自适应奖励信号调整解决奖励欺骗脆弱性 消除大量手动奖励提示工程的需求 研究背景当前挑战...

阅读全文

通过沙箱技术提升 Claude Code 安全性

通过沙箱技术提升 Claude Code 安全性 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 4 月 22 日类型: 技术架构阅读时间: 约 8 分钟 概述本文详细介绍了 Claude Code 的沙箱安全架构,包括多层次隔离机制、权限管理和风险控制策略。通过在 macOS、Linux 和 Windows 平台上实现不同的沙箱技术(seatbelt、Bubblewrap、Job Objects 等),Claude Code 能够在执行代码时提供强大的安全保障。文章还讨论了文件系统访问控制、网络权限隔离、设备访问限制等关键安全特性,以及在生产环境中部署沙箱的最佳实践。 为什么需要沙箱当 AI 助手被授权执行代码时,安全性成为首要关注点。考虑以下风险场景: 潜在风险 意外损害:AI ...

阅读全文

Claude 桌面扩展:一键安装 MCP 服务器

Claude 桌面扩展:一键安装 MCP 服务器 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 4 月 22 日类型: 产品功能发布阅读时间: 约 10 分钟 概述Anthropic 正式发布 Claude 桌面扩展功能,让用户能够通过一键点击即可安装和配置 MCP(Model Context Protocol)服务器。这一功能极大地简化了 AI 助手与外部工具和服务的集成流程,使非技术用户也能轻松扩展 Claude 的能力。桌面扩展支持自动依赖安装、安全权限管理和无缝更新,为开发者和普通用户提供了统一的扩展体验。通过这一功能,用户可以快速连接 Google Drive、Slack、GitHub 等各种服务,将 Claude 转变为真正个性化的工作助手。 MCP 生态系统的挑战模型...

阅读全文

面向 AI Agent 的有效上下文工程实践

面向 AI Agent 的有效上下文工程实践 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025-04-22 概述分享上下文工程的最佳实践,包括上下文管理、注意力分配和长对话优化技术。 概述在人工智能开发的演进历程中,提示工程(prompt engineering)曾是开发者与大型语言模型协作的核心技能。然而,随着 AI Agent 系统的兴起和多轮推理应用的普及,一个更广泛、更强大的概念正在崭露头角——上下文工程(context engineering)。 本文将深入探讨上下文工程的核心理念、实践方法和未来趋势,帮助开发者构建更高效、更可靠的 AI Agent 系统。 从提示工程到上下文工程的演进提示工程的局限性在过去几年中,提示工程一直是应用 AI 领域的焦点。开发者们精心设计和优化提示...

阅读全文

我们如何构建多 Agent 研究系统

我们如何构建多 Agent 研究系统 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 4 月 22 日类型: 技术架构分享阅读时间: 约 15 分钟 概述本文详细介绍了 Anthropic 多 Agent 研究系统的架构设计、实现细节和实际应用经验。该系统通过协调多个专门的 AI Agent 完成复杂的研究任务,包括文献调研、数据分析、实验设计和报告生成。系统采用分层架构,包含协调 Agent、专家 Agent 和执行 Agent 三层,通过消息传递和共享上下文实现协作。实际应用中,该系统将研究效率提升了 3-5 倍,同时保持了研究质量和可重复性。 项目背景为什么需要多 Agent 系统复杂研究任务涉及多个专业领域,单个 Agent 难以胜任: 研究任务特点: 多步骤:需要按顺序执...

阅读全文

Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用

Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用论文概述本文是一篇关于大型语言模型 (LLM) 优化方法的论文,由 J 等56位研究者共同完成。 研究目标本研究的主要目标包括: 提出了参考模型在直接偏好优化(DPO) 中作为数据权重调节器的新见解 引入了Pre-DPO范式,使用引导参考模型改进数据利用效率 设计了自适应加权机制,根据样本适配度分配样本权重 研究背景当前挑战 性能优化: 如何提升大型语言模型在实际任务中的表现 效率提升: 如何减少推理时间和计算资源消耗 可靠性保证: 如何确保模型输出的稳定性和准确性 可扩展性: 如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型的性能和实用性。 核心方法方法概述Pre-DPO利用引导参考模型,该模型能够预见通过训练数据可实现的最优策略。核心创新在于使用该参...

阅读全文

大语言模型时代的RAG评估:综合性调研

论文概述这篇综述性论文系统地回顾了检索增强生成(RAG)系统在大语言模型时代的评估方法和框架,为这一快速发展的领域提供了全面的技术图谱。论文深入分析了RAG评估的多个维度,包括系统性能、事实准确性、安全性和计算效率等核心指标,系统性地回顾了传统评估方法,并详细探讨了针对LLM驱动的RAG系统的新兴评估技术。此外,还编译和分类了大量RAG专用数据集,为研究者选择合适的评估基准提供了宝贵参考。 论文信息: 发布时间:2025-04-21 作者:Aoran Gan, Hao Yu, Kai Zhang, Qi Liu, Wenyu Yan, Zhenya Huang, Shiwei Tong, Guoping Hu 研究方向:上下文工程 (Context Engineering), 检索增强生成 (Retrieval-Augmented Generation), 评估方法 (Evalua...

阅读全文

GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包

GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包论文概述本文是一篇关于提示工程的优化方法论文,由 Wenliang Zheng 等4位研究者共同完成。 GREATERPROMPT通过提供统一、可定制的框架,将多种优化技术整合到单一API下,从而实现提示优化的民主化。与现有方法相比,这些方法要么缺乏标准化、灵活性有限,要么依赖昂贵的专有API,GREATERPROMPT通过文本反馈优化(适用于大型大语言模型)和内部梯度优化(适用于小型模型)来适应不同模型规模。借助包括GitHub、PyPI和Web UI在内的用户友好界面,它使专家研究人员和非技术用户都能在不同任务和模型规模上实现高性能的提示优化。 研究目标本研究的主要目标包括: 统一框架,在一致的API下整合多种提示优化方法 双重优化模式:大型模型的文本反馈和小型模型的梯度优化 消除对昂贵的闭源大语言模型API...

阅读全文

超图检索增强生成: 基于超图结构化知识表示的检索增强生成

超图检索增强生成: 基于超图结构化知识表示的检索增强生成论文概述本文是一篇关于图检索增强生成的研究论文,由 Haoran Luo 等8位研究者共同完成。 研究目标本研究的主要目标包括: 识别传统图检索增强生成方法中二元关系的局限性 提出使用超图表示n元关系(n >= 2)的超图检索增强生成方法 引入超边表示来捕捉复杂的多实体关系 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述超图检索增强生成通过使用超图而非普通图来扩展传统的基于图的检索增强生成。传统图使用边连接成对实体(二元关系),而超图使用超边可以同时...

阅读全文

设计抗 AI 作弊的技术评估方法

设计抗 AI 作弊的技术评估方法 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 3 月 19 日类型: 技术研究报告阅读时间: 约 14 分钟 概述随着 AI 模型能力的快速提升,传统的评估方法面临着严重的”作弊”风险。本文探讨了如何设计能够防止 AI 作弊的技术评估方法,确保评估结果的真实性和可靠性。我们介绍了多种抗 AI 作弊的评估策略,包括动态题目生成、多轮交互验证、过程追踪、人工-AI 对比测试等方法。这些方法已应用于 Anthropic 内部的模型评估流程,有效提高了评估结果的可信度。 问题背景评估”作弊”的定义在 AI 评估语境中,”作弊”指的是模型通过非预期方式获得高分,而非真正展示所声称的能力: 训练数据污染:评估题目意外出现在训练数据中 提示词优化过度:针对特定...

阅读全文

基于大型语言模型的智能体优化综述

A 综述 on the 优化of Large Language Model-based Agents论文概述本文是一篇关于智能体系统的综述性研究论文,由 Shangheng Du 等7位研究者共同完成。 This 综合性 综述 provides the first 系统性 review of 大型语言模型 (LLM)-based agent 优化approaches, addressing the gap between vanilla 大型语言模型 (LLM) 优化and specialized agent functionalities. While current work typically relies on prompt design or 微调 applied to standard 大型语言模型 (LLM)s, these often lead to limited ...

阅读全文

直接偏好优化的主动学习

直接偏好优化的主动学习论文概述本文是一篇关于大语言模型的优化方法论文,由 B 等89位研究者共同完成。 研究目标本研究的主要目标包括: 适用于在线和离线设置的直接偏好优化新型主动学习框架 在神经网络最后一层线性化直接偏好优化目标以实现高效计算 采用 D-最优设计方法选择最具信息量的偏好反馈 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述该方法在神经网络表示的最后一层线性化直接偏好优化目标,使得能够计算偏好反馈收集的 D-最优设计。这个数学框架允许原则性地选择最具信息量的反馈对。对于在线设置,算法主动选择向人类评估者呈现哪...

阅读全文

Infinite Retrieval: 基于注意力增强的无限长上下文处理

论文概述Infinite Retrieval(InfiniRetri)是一项突破性的研究成果,解决了大语言模型在处理超长上下文输入时面临的核心挑战。该方法的创新之处在于利用模型自身的注意力信息来实现对无限长输入的精确检索,而无需任何额外训练。研究团队发现模型的注意力分布与生成答案之间存在强相关性,基于这一洞察设计了InfiniRetri方法。在Needle-In-a-Haystack测试中,该方法处理超过100万token时达到100%准确率,在真实场景中带来高达288%的性能提升。 论文信息: 发布时间:2025-02-18 作者:Xiaoju Ye, Zhichun Wang, Jingyuan Wang 研究方向:上下文工程 (Context Engineering), 长上下文处理 (Long-Context Processing) 核心技术:注意力增强 (Attentio...

阅读全文

自动提示工程综述:优化视角

A Survey of Automatic Prompt Engineering: An Optimization Perspective ArXiv ID: 2502.11560作者: Wenwu Li, Xiangfeng Wang, Wenhao Li, Bo Jin发布日期: 2025-02-17分类: prompt-engineering, optimization 摘要基础模型的兴起使研究焦点从资源密集型的微调转向提示工程——一种通过输入设计而非权重更新来引导模型行为的范式。本综述首次从统一的优化视角对自动提示工程进行了全面考察。我们将提示优化形式化为离散、连续和混合提示空间上的最大化问题,考察了基于基础模型的优化、进化方法、基于梯度的优化和强化学习方法。通过分析优化变量 (指令、软提示、样例)、任务特定目标和计算框架,我们在理论形式化与跨文本、视觉和多模态领域的实际实...

阅读全文

A-MEM: Agentic Memory for LLM Agents

A-MEM: Agentic Memory for LLM Agents ArXiv ID: 2502.12110作者: Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Juntao Tan, Yongfeng Zhang发布日期: 2025-02-17发表会议: NeurIPS 2025分类: context-engineering 摘要虽然 LLM 智能体能够有效使用外部工具来完成复杂的现实任务,但它们需要记忆系统来利用历史经验。当前的记忆系统支持基本的存储和检索,但缺乏精细的记忆组织能力。A-MEM 提出了一种新颖的智能体记忆系统,借鉴 Zettelkasten 方法(卡片盒笔记法),通过动态索引和链接创建互联的知识网络,每条记忆以包含上下文描述、关键词和标签的结构化笔记形式存储。 主要贡献1. 基于 Zettelkasten 的动态记...

阅读全文

'think'工具:让 Claude 停下来思考

‘think’工具:让 Claude 停下来思考 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025 年 2 月 12 日类型: 产品功能发布阅读时间: 约 8 分钟 概述Anthropic 正式发布了”think”工具,使 Claude 能够在响应复杂查询之前进行深度思考。这个工具允许模型在给出最终答案之前,先在一个专门的思考空间中探索多种方法、识别潜在错误并进行自我纠正。实验表明,在数学推理、代码生成和复杂分析任务中,启用思考功能的 Claude 能够显著提升准确性,尤其是在处理需要多步骤推理的问题时。 为什么需要”思考”功能在开发 AI 助手的过程中,Anthropic 发现一个关键洞察:人类在面对复杂问题时,会自然地停下来思考——权衡不同方法、检查假设、识别推理中的缺陷。而传统的 L...

阅读全文

QuEST: 使用1比特权重和激活值的大语言模型稳定训练

QuEST: 使用1比特权重和激活值的大语言模型稳定训练论文概述本文是一篇关于大语言模型的研究论文,由 A 等90位研究者共同完成。 研究目标本研究的主要目标包括: QuEST: 首个支持1比特权重和激活值训练的稳定量化感知训练方法 Trust梯度估计器,最小化量化梯度与真实全精度梯度之间的误差 Hadamard归一化和MSE最优拟合,实现精确的分布量化 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述QuEST通过两项关键创新实现稳定的1比特训练:(1) 使用Hadamard归一化改善权重/激活值分布的条件,然...

阅读全文

自适应思维图:统一链式、树式和图式结构的测试时自适应推理

Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025 年 2 月 7 日分类: cs.AI, cs.CL, cs.LG 摘要Adaptive Graph of Thoughts (AGoT) 是一个动态的、基于图的推理框架,在测试时增强大语言模型 (LLM) 的推理能力。该框架递归地将复杂查询分解为结构化的子问题,形成一个由相互依赖的推理步骤组成的动态有向无环图 (DAG)。与传统的 Chain-of-Thought、Tree of Though...

阅读全文

自适应思维图: 统一链、树和图结构的测试时自适应推理

自适应思维图: 统一链、树和图结构的测试时自适应推理论文概述本文是一篇关于推理能力的研究论文,由 Tushar Pandey 等4位研究者共同完成。 研究目标本研究的主要目标包括: 引入自适应思维图(AGoT),一个用于测试时推理的动态图基推理框架 将复杂查询递归分解为结构化子问题,形成有向无环图(DAG) 统一思维链、思维树和思维图范式的优势 研究背景当前挑战 性能优化:如何提升大型语言模型 (LLM)在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型 (LLM)的性能和实用性。 核心方法方法概述AGoT通过测试时图构建采用动态自适应方法进行大型语言模型 (LLM)推理:(1) 递归分解 - 复杂查...

阅读全文

自监督提示优化(SPO):无需外部参考的成本高效框架

自监督提示优化(SPO):无需外部参考的成本高效框架论文概述本文是一篇关于提示工程的框架设计论文,由 J 等110位研究者共同完成。 研究目标本研究的主要目标包括: SPO: 无需外部参考(真实标签/人类反馈)的自监督提示优化框架 成对输出比较方法,直接从大语言模型输出中获取评估信号 大语言模型评估器,通过输出比较评估任务需求的遵从度 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述SPO通过两阶段过程运作,无需外部参考:(1) 选择阶段使用大语言模型评估器评估的成对输出比较来识别优秀提示 - 关键洞察是提示质量...

阅读全文

自监督提示优化

自监督提示优化论文概述本文是一篇关于提示工程的优化方法论文,由 Jinyu Xiang 等8位研究者共同完成。 自监督提示优化(Self-Supervised Prompt Optimization, SPO)解决了现有提示优化方法的一个关键局限:严重依赖外部参考(真值或人类反馈),而这些在实际场景中通常不可用或成本高昂。SPO 引入了一个成本高效的框架,可以为封闭式和开放式任务发现有效的提示,而无需外部参考。通过观察到提示质量直接体现在大语言模型输出中,以及大语言模型能够有效评估任务需求遵循情况,SPO 纯粹从输出比较中获得优化信号。该方法在使用最优方法成本的仅1.1%-5.6%的情况下,实现了可比或更优的结果,并且只需要少至三个样本。 研究目标本研究的主要目标包括: 引入无参考提示优化,消除对真值或人类反馈的需求 实现极高的成本效率:仅为现有方法成本的1.1%-5.6% 适用于...

阅读全文

基于潜在推理的测试时计算扩展:循环深度方法

论文概述这项研究提出了一种全新的语言模型架构,通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同,该模型采用了循环块迭代的创新设计,能够在测试时展开至任意深度,从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数,在计算效率上达到相当于500亿参数传统模型的水平,且无需专门训练数据,可在小上下文窗口下工作。 论文信息: 发布时间:2025-02-07 作者:Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein 研究方向:提示工程 (Prompt Engineerin...

阅读全文

揭秘大语言模型中的长链思维推理

Demystifying Long Chain-of-Thought Reasoning in LLMs ArXiv ID: 2502.03373作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue发布日期: 2025-02-05 摘要扩展推理计算能够增强大语言模型(LLM)的推理能力,长链思维(CoT)使回溯和错误纠正等策略成为可能。本文系统研究了长链思维推理的机制,揭示了四个主要发现:(1)监督微调(SFT)简化训练并缓解强化学习中的奖励攻击问题;(2)推理能力随着训练和推理阶段计算量的增加而涌现;(3)扩展可验证的奖励信号对于强化学习解锁长链思维推理至关重要;(4)错误纠正等核心能力存在于基础模型中,但需要适当的训练才能激活。我们的发现为训练长形式推理的大语言模型提供了洞察,并展示了训练和推理时的计算...

阅读全文

图检索增强生成综述:定制化大语言模型的图检索增强生成

图检索增强生成综述:定制化大语言模型的图检索增强生成论文概述本文是一篇关于图检索增强生成的综述性研究论文,由 Qinggang Zhang 等8位研究者共同完成。 研究目标本研究的主要目标包括: 提供图检索增强生成(Graph-based Retrieval-Augmented Generation)范式的综合性综述 识别传统平面文本检索增强生成系统的三个关键局限 系统性地分析三个关键图检索增强生成创新:图结构化知识表示、高效的图检索、结构感知的知识集成 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述该综述系统性地分析了...

阅读全文

数学推理中开发过程奖励模型的经验教训

The Lessons of Developing Process Reward Models in Mathematical 推理论文概述本文是一篇关于推理能力的研究论文,由 Zhenru Zhang 等9位研究者共同完成。 This work from Alibaba provides critical insights into developing effective Process Reward Models (过程奖励模型s) for mathematical 推理 in 大型语言模型 (LLM)s. Through extensive experiments, it identifies key challenges in data annotation and evaluation, demonstrating that Monte Carlo estimation ...

阅读全文

基于图的检索增强生成(GraphRAG)

Retrieval-Augmented Generation with Graphs (GraphRAG) ArXiv ID: 2501.00309作者: Haoyu Han, Yu Wang, Harry Shomer, and 15 other authors发布日期: 2025-01-08 摘要检索增强生成(RAG)已成为通过整合外部知识增强大语言模型的强大范式。传统RAG系统依赖于从非结构化文本进行基于向量的检索,而GraphRAG利用图结构数据通过节点和边编码大规模异构和关系信息。本综述对GraphRAG进行了全面考察,提出了一个整体框架,定义了包括查询处理器、检索器、组织器、生成器和数据源在内的关键组件。我们系统地回顾了针对不同领域定制的技术,并讨论了图构建、检索效率和与大语言模型集成方面的挑战。通过考察医疗、金融和电子商务等专业领域的实现,我们突出了图结构在捕获复杂关...

阅读全文

Claude 3.5 Sonnet在SWE-bench Verified上的突破:最小化脚手架的Agent设计

Claude 3.5 Sonnet在SWE-bench Verified上的突破:最小化脚手架的Agent设计 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2025-01-06分类: ai-agents 概述Anthropic详细介绍了升级版Claude 3.5 Sonnet在SWE-bench Verified基准上达到49%的技术架构。文章的核心哲学是”尽可能多地将控制权交给语言模型本身,保持脚手架最小化”。从Claude 3 Opus的22%到Claude 3.5 Sonnet新版的49%,这一飞跃不仅展示了模型能力的进步,更揭示了工具接口设计在Agent系统中的关键作用。 核心内容SWE-bench评估框架SWE-bench是一个衡量模型解决真实软件工程任务能力的AI评估基准。评估流程:...

阅读全文

构建高效 AI Agent 的完整指南

构建高效 AI Agent 的完整指南 来源: Anthropic Engineering Blog作者: Erik Schluntz 和 Barry Zhang发布日期: 2024 年 12 月 19 日类型: 技术指南阅读时间: 约 15 分钟 概述本文基于 Anthropic 与数十个跨行业团队合作构建 LLM Agent 的实践经验。研究发现,最成功的实现 consistently 采用简单、可组合的模式,而非复杂框架。文章详细介绍了 AI Agent 系统的核心构建模块、工作流模式和自主 Agent 实现,为开发者提供构建高效 Agent 的实用建议和最佳实践。 核心发现包括: 简单模式优于复杂框架 工作流与 Agent 的架构差异 何时使用/不使用 Agent 的决策框架 五大核心工作流模式详解 实际生产中的两大应用场景 什么是 Agent?“Agent...

阅读全文

AI 系统中的上下文检索技术

AI 系统中的上下文检索技术 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2024 年 9 月 19 日类型: 技术发布阅读时间: 约 10 分钟 概述本文介绍了一种名为”上下文检索”(Contextual Retrieval)的革命性方法,可显著提升 AI 模型的知识检索能力。该方法使用两种子技术——上下文嵌入(Contextual Embeddings)和上下文 BM25——将检索失败率降低 49%,结合重排序后可降低 67%。这对于需要访问特定领域知识的 AI 应用(如客户服务聊天机器人、法律分析助手等)具有重大意义,直接转化为下游任务性能的显著提升。 为什么 AI 需要上下文知识要使 AI 模型在特定上下文中发挥作用,它通常需要了解背景知识。例如: 客户服务聊天机器人:需要了解特定业...

阅读全文

基于图结构的检索增强生成综述

基于图结构的检索增强生成综述 ArXiv ID: 2501.00309作者: Haoyu Han, Yu Wang, Harry Shomer, Kai Guo, Jiayuan Ding…发布日期: 2024-12-31分类: context-engineering评分: 4.5/5.0 摘要检索增强生成(RAG)技术通过从外部数据源检索相关信息来增强大语言模型(LLM)的能力,使其能够提供更准确、更新的知识。本综述论文系统地研究了基于图结构数据的RAG技术(GraphRAG),提出了一个包含查询处理器、检索器、组织器、生成器和数据源五大组件的全面框架。该综述覆盖了知识图谱、文档图、科学图谱、社交图等10个不同领域的GraphRAG技术,为研究者提供了跨学科的研究视角。 📊 GraphRAG:图结构时代的检索增强生成全景图在大语言模型(LLM)快速发展的今天,如何让A...

阅读全文

Claude 在 SWE-Bench 基准测试中的性能表现

Claude 在 SWE-Bench 基准测试中的性能表现 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2024 年 12 月 17 日类型: 技术评估报告阅读时间: 约 12 分钟 概述本文详细分析了 Claude 系列模型在 SWE-Bench 代码修复基准测试中的性能表现。SWE-Bench 是一个评估 AI 模型解决真实 GitHub 问题能力的基准测试,要求模型阅读问题描述、理解代码库、生成修复补丁。测试结果显示,Claude Sonnet 在优化后的表现达到了 73.5% 的解决率,相比基础版本提升了 25 个百分点。文章还深入分析了错误模式、改进策略和对 AI 辅助编程未来的启示。 SWE-Bench 基准介绍什么是 SWE-BenchSWE-Bench (Software En...

阅读全文

GReaTer: 推理梯度让小型语言模型成为强大的提示优化器

GReaTer: 推理梯度让小型语言模型成为强大的提示优化器论文概述本文是一篇关于提示工程的研究论文,由 S 等85位研究者共同完成。 研究目标本研究的主要目标包括: GReaTer:使用任务损失梯度的新型基于梯度的提示优化方法 轻量级开源模型的自优化能力,无需依赖大型大语言模型 直接融合超越文本反馈的细粒度梯度信息 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述GReaTer 利用任务特定的损失梯度来指导提示优化,脱离了纯文本方法。关键创新在于计算任务性能相对于提示表示的梯度,实现直接的优化信号。这使得轻量级模型能够自...

阅读全文

GReaTer: 推理上的梯度使小型语言模型成为强大的提示优化器

GReaTer: 梯度 over 推理 Makes Smaller Language Models Strong Prompt Optimizers论文概述本文是一篇关于提示工程的研究论文,由 Sarkar Snigdha Sarathi Das 等6位研究者共同完成。 GReaTer introduces a novel prompt 优化technique that directly incorporates gradient information over task-specific 推理, enabling open-source lightweight language models to self-optimize prompts without dependence on costly closed-source 大型语言模型 (LLM)s. Unlike text ...

阅读全文

什么使上下文学习在数学推理中有效:理论分析

什么使上下文学习在数学推理中有效:理论分析论文概述本文是一篇关于推理能力的研究论文,由 Jiayu Liu 等6位研究者共同完成。 本文提供了首个关于上下文学习(In-Context Learning, ICL)在大语言模型数学推理中有效性的理论分析。虽然少样本示例有时会带来负面性能,其有效性仍不可靠,但这项工作证明了推理效能可以通过面向大语言模型的语义相似性和示例的推理稳定性来限定。基于这一理论基础,作者提出了 LMS3,一种示例选择方法,能够自适应地为不同大语言模型选择最相关的样本,并包含一种新颖的自动拒绝机制来过滤不合适的示例。该方法在多个数据集上实现了一致的改进,而现有方法在这些数据集上均已失败。 研究目标本研究的主要目标包括: 首次通过语义相似性和推理稳定性界定上下文学习推理效能的理论分析 证明理论框架适用于单样本和少样本场景 提出具有理论基础的 LMS3 示例选择方法 ...

阅读全文

在 Claude 开发者平台上引入高级工具使用功能

在 Claude 开发者平台上引入高级工具使用功能 来源: Anthropic Engineering Blog作者: Anthropic Engineering Team发布日期: 2024 年 11 月 24 日类型: 产品功能发布阅读时间: 约 12 分钟 概述Anthropic 正式发布三项高级工具使用功能,使 Claude 能够动态发现、学习和执行工具。这些功能包括:工具搜索工具(Tool Search Tool)、程序化工具调用(Programmatic Tool Calling)和工具使用示例(Tool Use Examples)。这些功能使开发者能够构建更强大的 AI Agent,无缝集成数百个工具,同时保持高效的上下文窗口使用和准确性。核心突破包括:工具 token 消耗减少 85%,Opus 4 在 MCP 评估中从 49% 提升至 74%,Opus 4.5 从...

阅读全文

LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索

LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索论文概述本文是一篇关于图检索增强生成的研究论文,由 Yukun Cao 等5位研究者共同完成。 研究目标本研究的主要目标包括: 引入 LEGO-GraphRAG,一个模块化框架,将图检索增强生成分解为子图提取、路径过滤和路径精炼模块 提供系统性的算法分类和每个图检索增强生成模块的神经网络模型分类 识别影响图检索增强生成有效性的关键设计因素(图耦合度、计算成本) 研究背景当前挑战 性能优化:如何提升大语言模型在实际任务中的表现 效率提升:如何减少推理时间和计算资源消耗 可靠性保证:如何确保模型输出的稳定性和准确性 可扩展性:如何使方法能够应用到更多场景和任务 研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。 核心方法方法概述该论文提出了一个模块化框架,将图检索增强生成的...

阅读全文

LLM提示对决优化器:高效的无标注提示优化方法

LLM提示对决优化器:高效的无标注提示优化方法 ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang…发布日期: 2024-10-14分类: prompt-engineering评分: 3.8/5.0 摘要本文提出了提示对决优化器(PDO),这是一个样本高效的无标注提示优化框架。PDO将提示优化问题建模为对决老虎机(Dueling Bandit)问题,通过LLM评判器提供的成对偏好反馈进行优化。结合Double Thompson Sampling和Top-Performer引导变异策略,PDO在无需真实标注数据的情况下,在BIG-bench Hard和MS MARCO等基准上持续优于基线方法。 🎯 PDO:让提示优化摆脱标注数据的束缚核心问题...

阅读全文

过程奖励模型综述:从结果信号到大语言模型的过程监督

过程奖励模型综述:从结果信号到大语言模型的过程监督论文概述本文是一篇关于奖励模型的综述性研究论文,由 Congming Zheng 等3位研究者共同完成。 这篇综合性综述系统性地回顾了过程奖励模型(Process Reward Models,PRM),这是一种新兴范式,在步骤或轨迹级别而非仅在最终结果上评估和引导大语言模型推理。与仅评估最终答案的传统结果奖励模型(ORM)不同,过程奖励模型在整个推理过程中提供细粒度监督,能够更好地对齐复杂的多步骤任务。该综述涵盖了完整的过程奖励模型生命周期:(1) 通过人工标注、蒙特卡洛采样或大语言模型评判生成过程级监督数据,(2) 构建过程奖励模型架构(判别式 vs 生成式),(3) 将过程奖励模型应用于测试时扩展(通过最优N选择和搜索),(4) 在强化学习中使用过程奖励模型进行策略优化。该综述发表于2024年10月,及时地解决了在o1类推理模型时...

阅读全文

智能体上下文工程:自我进化的语言模型上下文系统

智能体上下文工程:自我进化的语言模型上下文系统 ArXiv ID: 2510.04618作者: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong…发布日期: 2024-10-06分类: context-engineering评分: 4.2/5.0 摘要本文提出了智能体上下文工程(ACE)框架,将上下文从静态的提示文本转变为可进化的”执行手册”。ACE通过生成、反思和策展三个步骤,让语言模型能够从执行反馈中自主学习和优化上下文,无需人工标注。该方法有效解决了上下文崩溃和简洁性偏见问题,在智能体任务上实现+10.6%性能提升,在金融任务上提升+8.6%,展现了上下文工程的新范式。 🤖 ACE:让上下文自己进化的智能体系统核心创新想象一下,如果LLM的上下文提示能够像生物进化一样,从每次...

阅读全文

图检索增强生成综述

图检索增强生成综述 ArXiv ID: 2408.08921作者: Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi…发布日期: 2024-08-15分类: context-engineering评分: 4.1/5.0 摘要本文提供了图检索增强生成(GraphRAG)方法的首个全面综述。将GraphRAG工作流形式化为三个阶段:基于图的索引(Graph-Based Indexing)、图引导检索(Graph-Guided Retrieval)和图增强生成(Graph-Enhanced Generation)。系统回顾了每个阶段的核心技术和训练方法,探讨了下游任务、应用领域和评估方法,并配套开源GitHub仓库供研究者参考。 📊 GraphRAG综述:首个系统性的图检索增强生成全景为什么需要GraphRAG?...

阅读全文

大语言模型在不同NLP任务中的提示工程方法综述

大语言模型在不同NLP任务中的提示工程方法综述论文概述本文是一篇关于提示工程的综述性研究论文,由 Shubham Vatsal 等2位研究者共同完成。 This 综合性 综述 examines 44 research papers covering 39 different prompting methods applied across 29 NLP tasks. The paper provides a 系统性 taxonomy of 提示工程 techniques and evaluates their performance across various datasets and 大语言模型s, offering practical guidance for researchers and practitioners in selecting appropriate prom...

阅读全文

大型语言模型推理: 综述

推理 with Large Language Models, a 综述论文概述本文是一篇关于推理能力的综述性研究论文,由 Aske Plaat 等6位研究者共同完成。 研究目标本研究的主要目标包括: 综合性 综述 of prompt-based 推理 with 大型语言模型 (LLM)s covering rapid field expansion Introduces taxonomy identifying different ways to generate, evaluate, and control multi-step 推理 Provides in-depth coverage of core approaches: Chain-of-Thought, Tree of Thoughts, and related methods 研究背景当前挑战 性能优化:如何提升大型...

阅读全文

优化多阶段语言模型程序的指令与示例

优化多阶段语言模型程序的指令与示例论文概述本文是一篇关于大语言模型的研究论文,由 Krista Opsahl-Ong 等7位研究者共同完成。 本文解决了优化复杂多阶段语言模型程序的挑战,在这些程序中多个语言模型调用被串联在一起。现有方法孤立地优化单个提示,而本研究引入了 MIPRO 算法,可以联合优化程序中所有模块的自由格式指令和少样本示例。MIPRO 对优化问题进行因式分解,并引入了用于提出任务驱动指令和跨模块信用分配的新颖策略。使用一流的开源模型(Llama-3-8B),MIPRO 在七个不同多阶段语言模型程序中的五个上优于基线优化器,准确率最高提升13%。 研究目标本研究的主要目标包括: 引入 MIPRO 算法用于端到端优化多阶段语言模型程序 联合优化指令和示例而非分别处理 开发了程序感知和数据感知技术用于提出有效指令 研究背景当前挑战 参数优化:如何自动化地优化模型参数和...

阅读全文

通过自动化过程监督改进语言模型的数学推理能力

通过自动化过程监督改进语言模型的数学推理能力论文概述本文是一篇关于推理能力的研究论文,由 Liangchen Luo 等11位研究者共同完成。 这篇 Google Research 论文介绍了 OmegaPRM,一种新颖的蒙特卡洛树搜索(MCTS)算法,无需人工标注即可自动收集高质量的过程监督数据用于训练过程奖励模型(PRM)。与仅验证最终答案的结果奖励模型不同,OmegaPRM 通过使用分治算法识别推理链中的第一个错误来提供步骤级监督。收集了超过150万个过程监督标注后,生成的 PRM 显著改进了数学推理:Gemini Pro 在 MATH500 上的准确率从51%提升到69.4%(18.4个百分点),Gemma2 27B 在 MATH500 上从42.3%提升到58.2%。该工作发表于2024年6月,证明自动化过程监督可以以极低的成本匹配或超越人工标注质量,使过程奖励模型能够大规...

阅读全文

无需提示的链式思维推理

Chain-of-Thought Reasoning Without Prompting ArXiv ID: 2402.10200作者: Xuezhi Wang, Denny Zhou发布日期: 2024-02-15 摘要大语言模型(LLM)能否在没有链式思维(CoT)等提示技术的情况下有效推理?本文揭示了一个令人惊讶的发现:CoT推理路径本质上就存在于大语言模型中,只需改变解码过程就能引出,无需任何提示。与选择最可能下一个标记的标准贪婪解码不同,我们研究了top-k序列中的替代标记。我们的实验表明,这些替代路径经常包含CoT风格的推理,即使模型没有被明确提示进行逐步推理。我们展示了替代序列中CoT路径的存在与模型置信度相关,并且模型通常具有在默认贪婪输出中未表达的内在推理能力。这一发现具有重要意义:它表明大语言模型拥有可通过解码策略而非提示工程访问的潜在推理能力,并提供了一种在没...

阅读全文

PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样

PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样论文概述本文是一篇关于提示工程的优化方法论文,由 Yongchao Chen 等6位研究者共同完成。 PROMST 解决了多步骤智能体任务提示优化的独特挑战,在这些任务中,提示更加复杂,单个步骤的影响难以评估,且用户偏好各异。与单步骤任务优化器不同,PROMST 融合了人类设计的反馈规则(自评规则)以自动提供直接的改进建议,并使用学习到的启发式模型来高效预测提示性能以进行采样。该方法在11个代表性多步骤任务上显著优于人工设计的提示和其他优化方法,在五种不同的大语言模型上平均提升10.6%-29.3%。 研究目标本研究的主要目标包括: 引入专门为多步骤任务提示优化设计的 PROMST 框架 开发自评规则机制,将人类反馈规则融入自动化优化 实现对比过滤,使用学习到的启发式方法高效采样高质量提示候选 研究背景当前挑战 提示...

阅读全文

从错误中进行上下文原理学习

从错误中进行上下文原理学习论文概述本文是一篇关于大型语言模型 (LLM)的研究论文,由 Tianjun Zhang 等8位研究者共同完成。 LEAP(学习原理)引入了一种新颖的上下文学习 (In-Context Learning)范式,从错误中学习而非仅从正确示例学习。通过有意诱导错误、反思错误并推导出明确的任务特定原理,LEAP 显著提升了大型语言模型 (LLM)在推理任务上的性能。这种方法模仿了人类学习,即我们往往从错误中学到的比从成功中学到的更多。 研究目标本研究的主要目标包括: 引入 LEAP,一种从诱导错误中学习显式原理的新型上下文学习 (In-Context Learning)范式 证明从错误中学习比仅从正确示例学习更有效 提出三阶段流程:诱导错误、推导原理、将原理应用于新查询 研究背景当前挑战 推理能力不足:模型在复杂推理任务上表现欠佳 多步推理困难:难以处理需要多...

阅读全文

基于意图的提示校准:通过合成边界案例增强提示优化

论文概述基于意图的提示校准引入了一种新的自动提示工程方法,解决了需要高质量基准数据集的挑战,而这些数据集在许多现实用例中难以获取且成本高昂。该方法使用迭代校准过程,联合生成边界用例的合成数据并根据此生成的数据集优化提示。通过在优化过程中创建边界案例而非预先需要大量标注数据,系统可以优化提示以更好地与用户意图对齐。该方法在有限数量的标注样本下优于最先进的方法,展示了强大的实用价值。 论文信息: 发布时间:2024-02-05 作者:Elad Levi, Eli Brosh, Matan Friedmann 机构:IBM Research 研究方向:提示工程, 大型语言模型推理 核心技术:提示优化 研究背景自动提示工程通常需要大量高质量的标注数据,这在实际应用中往往难以获取。本研究针对以下问题展开: 现有问题 自动提示优化需要大量高质量基准数据 标注数据获取成本高昂且耗时 现有方法难...

阅读全文

大语言模型提示工程系统性综述:技术与应用

大语言模型提示工程系统性综述:技术与应用论文概述本文是一篇关于提示工程的综述性研究论文,由 Pranab Sahoo 等6位研究者共同完成。 This 综合性 综述 provides a structured overview of recent advancements in 提示工程 for 大语言模型 (大语言模型s) and vision-language models (VLMs). It addresses the gap in 系统性 organization by categorizing approaches by application area, providing detailed summaries of prompting methodologies, models, datasets, and creating a taxonomy of techniq...

阅读全文

大型语言模型是好的提示优化器吗?

论文概述这项批判性研究调查了基于大型语言模型的自动提示优化背后的实际机制,揭示了大型语言模型优化器运作方式的重大局限性。与假设大型语言模型真正反思错误并相应改进提示的假设相反,研究发现:(1)大型语言模型优化器难以识别错误的真正原因,往往受先验知识偏见影响而非实际分析错误;(2)即使反思在语义上有效,大型语言模型也经常由于目标模型行为的不可预测性而无法在单次优化步骤中生成适当的提示。基于这些观察,作者提出向”自动行为优化”范式转变,以更可控的方式直接优化目标模型行为。 论文信息: 发布时间:2024-02-03 作者:Ruotian Ma, Xiaolei Wang, Xin Zhou等 机构:复旦大学, Google 研究方向:提示工程, 大型语言模型推理 核心技术:提示优化分析 研究背景自动提示优化被认为是提升大型语言模型性能的重要方向,但其实际工作机制和局限性尚未得到充分研...

阅读全文

元提示:通过任务无关的脚手架增强语言模型

论文概述这项斯坦福大学/OpenAI的合作研究引入了元提示,一种有效的脚手架技术,将单个语言模型转变为多方面的指挥者。该方法使用高层指令引导语言模型将复杂任务分解为较小的子任务,每个子任务由同一语言模型的不同”专家”实例处理,每个实例在特定的定制指令下运行。 论文信息: 发布时间:2024-01-23 作者:Mirac Suzgun, Adam Tauman Kalai 机构:斯坦福大学, OpenAI 研究方向:提示工程, 大型语言模型推理 核心技术:元提示 研究背景大型语言模型在各类任务中展现出强大的能力,但在处理复杂任务时,单一提示往往难以充分发挥模型潜力。本研究针对以下问题展开: 现有问题 单一提示难以处理复杂的多步骤任务 缺乏系统化的任务分解和协调机制 现有方法需要针对特定任务设计专门的脚手架 研究动机本研究旨在开发一种任务无关的脚手架技术,通过元提示使单个...

阅读全文

PRewrite:基于强化学习的提示重写

论文概述PRewrite针对人工提示工程耗时且效果不佳的问题,引入了一种基于强化学习的自动化工具,能够将草稿提示重写为高效提示。与人工试错或僵化的基于模板的方法不同,PRewrite使用强化学习在大型动作空间中实现端到端优化,生成人类可读且自我解释的提示。从人工起草的初始提示开始使重写过程更加引导化和高效。在多样化数据集上的实验表明,PRewrite生成的提示不仅优于专业制作的提示,还超越了其他自动化方法生成的提示。 论文信息: 发布时间:2024-01-16 作者:Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang等 机构:Google, 密歇根大学 研究方向:提示工程, 大型语言模型推理 核心技术:提示优化 研究背景大型语言模型在各类任务中展现出强大的能力,但提示工程仍然是一个耗时且需要专业知识的过程。本研究针对以下问题展开: ...

阅读全文

AI 系统的元提示

论文概述这项来自清华大学的工作引入了元提示(Meta Prompting, MP),这是一个具有理论基础的框架,通过关注任务的形式结构而非特定内容的示例来提升大型语言模型推理。基于类型理论和范畴论,MP 提供了指导推理过程的结构化模板,仅使用单个零样本元提示就实现了最先进的结果。 论文信息: 发布时间:2023-11-20 作者:Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao 机构:未知 研究方向:提示工程,大型语言模型推理 核心技术:元提示(Meta-Prompting) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上表现不佳 模型难以处理需要多步骤推理的问题 缺乏系统化的推理引导方法 研究动机本研究旨在探索更有效的...

阅读全文

提示工程一个提示工程师

论文概述这项工作通过构建元提示来研究”提示工程一个提示工程师”,这些元提示更有效地引导大型语言模型执行自动提示工程。提出的 PE2 方法引入了关键组件,如逐步推理模板和上下文规范,以及优化概念的语言化对应物(批量大小、步长、动量),以改进自动提示工程性能。 论文信息: 发布时间:2023-11-09 作者:Qinyuan Ye, Maxamed Axmed, Reid Pryzant等 机构:未知 研究方向:提示工程,大型语言模型推理 核心技术:元提示(Meta-Prompting) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上表现不佳 模型难以处理需要多步骤推理的问题 缺乏系统化的推理引导方法 研究动机本研究旨在探索更有效的提示工程技术,提升大型语言模型...

阅读全文

大型语言模型作为类比推理器

论文概述受人类类比推理的启发,本文介绍了类比提示(Analogical Prompting),这是一种新颖的方法,提示大型语言模型在解决问题之前自我生成相关的范例和知识。与需要手动制作示例的传统 CoT 不同,类比提示使大型语言模型能够从其内部知识中提取以创建针对问题的演示,无需标注的范例即可实现卓越性能。 论文信息: 发布时间:2023-10-03 作者:Michihiro Yasunaga, Xinyun Chen, Yujia Li等 机构:Google DeepMind,斯坦福大学 研究方向:提示工程,大型语言模型推理 核心技术:类比推理(Analogical Reasoning) 研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开: 现有问题 传统提示方法在复杂推理任务上表现不佳 模型难以处理需...

阅读全文

大型语言模型作为优化器

论文概述这篇里程碑式论文介绍了通过提示优化(Optimization by PROmpting, OPRO),这是一种利用大型语言模型作为各种任务优化器的突破性范式。与传统的基于导数的优化不同,OPRO 使用自然语言描述优化任务,并根据先前评估的候选项迭代生成新解决方案。该方法在提示优化上展示了显著的有效性,其中 OPRO 优化的提示在 GSM8K 上优于人工设计的提示最多 8%,在 Big-Bench Hard 任务上优于最多 50%。这项工作在 Hugging Face 上获得了 77 个点赞,表明了强大的社区认可。 论文信息: 发布时间:2023-09-07 作者:Chengrun Yang, Xuezhi Wang, Yifeng Lu等 机构:Google DeepMind 研究方向:提示工程,大型语言模型推理 核心技术:提示优化(Prompt Optimization)...

阅读全文

RLAIF 对比 RLHF:使用 AI 反馈扩展人类反馈强化学习

论文概述这篇 Google Research 论文提供了基于 AI 反馈的强化学习(RLAIF)与传统 RLHF 之间的首次全面实证比较,证明 AI 生成的偏好标签可以以大幅降低的成本匹配人类反馈质量。在三个任务(摘要、有帮助的对话、无害对话)中,RLAIF 实现了与 RLHF 相当的性能,人类评估者对两者同样偏好(约 70% 优于监督基线)。关键创新是使用现成的大型语言模型生成偏好标签,而不是昂贵的人工标注,并引入了直接 RLAIF(d-RLAIF),该方法在 RL 期间直接从大型语言模型获取奖励,无需训练单独的奖励模型,实现了卓越的性能。该工作发表于 ICML 2024,验证了 RLAIF 作为 RLHF 的可扩展替代方案,将标注成本降低了 10 倍以上,同时保持对齐质量。 论文信息: 发布时间:2023-09-01 作者:Harrison Lee, Samrat Phatal...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero