文章概述本文由 Anthropic 应用 AI 团队撰写,介绍了上下文工程(Context Engineering)这一概念,它是提示工程(Prompt Engineering)在 AI Agent 时代的进化形态。随着大语言模型能力的提升,挑战不再仅仅是编写完美的提示词,而是如何策略性地管理进入模型有限注意力预算的信息。文章深入探讨了系统提示词设计、工具定义、上下文检索策略,以及长时任务的技术手段,为构建高效可靠的 AI Agent 提供了实践指南。
文章信息:
发布时间:2025-09-29
作者:Prithvi Rajasekaran, Ethan Dixon, Carly Ryan, Jeremy Hadfield
机构:Anthropic Applied AI Team
研究方向:上下文工程 (Context Engineering), AI Agent 架构
核心技术:...
GraphSearch: 用于图检索增强生成的智能体深度搜索工作流
图Search: An Agentic Deep Searching Workflow for 图 检索-Augmented Generation论文概述本文是一篇关于图检索增强生成的研究论文,由 Cehao Yang 等8位研究者共同完成。
研究目标本研究的主要目标包括:
Identifies two core limitations of existing 图检索增强生成: shallow 检索 and inefficient 图 utilization
Proposes 图Search, an agentic deep searching workflow with modular architecture
Introduces dual-channel 检索 combining semantic queries over text and relational querie...
Youtu-GraphRAG: 用于图检索增强复杂推理的垂直统一智能体
Youtu-GraphRAG: 用于图检索增强复杂推理的垂直统一智能体论文概述本文是一篇关于图检索增强生成的研究论文,由 Junnan Dong 等8位研究者共同完成。
研究目标本研究的主要目标包括:
提出垂直统一智能体范式,整合整个图检索增强生成框架
引入种子图模式并持续扩展以实现领域可扩展性
开发双重感知社区检测,融合结构拓扑和子图语义
研究背景当前挑战
性能优化:如何提升大型语言模型 (LLM)在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型 (LLM)的性能和实用性。
核心方法方法概述Youtu-GraphRAG采用垂直统一方法,包含四个关键组件:(1) 种子图模式 - 通过目标实体...
Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架
Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架论文概述本文是一篇关于图检索增强生成的框架设计论文,由 Haoran Luo 等8位研究者共同完成。
研究目标本研究的主要目标包括:
提出Graph-R1,一个使用端到端强化学习的智能体式图检索增强生成框架
引入轻量级知识超图构建以降低构建成本
将检索建模为多轮智能体-环境交互,而非固定的一次性检索
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述Graph-R1采用三管齐下的方法:(1) 轻量级超图构建 - 高效构建捕捉n元关系的知识超图,同时最小化计算开...
Promptomatix: 面向大型语言模型的自动提示优化框架
Promptomatix: 面向大型语言模型的自动提示优化框架论文概述本文是一篇关于提示工程的框架设计论文,由 Rithesh Murthy 等8位研究者共同完成。
Promptomatix是一个自动提示优化框架,能够将自然语言任务描述转换为高质量提示,无需手动调优或领域专业知识。该系统支持轻量级元提示优化器和DSPy驱动的编译器,具有模块化设计便于未来扩展。系统会分析用户意图,生成合成训练数据,选择合适的提示策略,并使用成本感知目标迭代优化提示,在减少提示长度和计算开销的同时实现竞争力或更优的性能。
研究目标本研究的主要目标包括:
引入Promptomatix框架,可从自然语言描述自动优化提示
支持基于元提示和DSPy驱动的两种优化方法
实现成本感知优化目标,平衡性能和效率
研究背景当前挑战
提示设计复杂:如何设计有效的提示来引导模型生成高质量输出
优化困难:手动优化提示既耗时...
何时在检索增强生成中使用图: 图检索增强生成的综合性分析
何时在检索增强生成中使用图: 图检索增强生成的综合性分析论文概述本文是一篇关于图检索增强生成的研究论文,由 Zhishang Xiang 等7位研究者共同完成。
研究目标本研究的主要目标包括:
解决关键问题:在现实世界场景中图检索增强生成何时优于普通检索增强生成
引入GraphRAG-Bench,用于评估图检索增强生成系统的综合基准测试
提供对整个图检索增强生成流程的系统性评估:图构建、检索和生成
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述本文引入GraphRAG-Bench,这是一个包含多个难度级别和类型任务的综合...
我应该使用哪种提示技术?软件工程任务提示技术实证研究
我应该使用哪种提示技术?软件工程任务提示技术实证研究论文概述本文是一篇关于提示工程的实证研究论文,由 E. G. Santana Jr 等8位研究者共同完成。
This 综合性 实证 study 系统性ally evaluates 14 established 提示工程 techniques across 10 软件工程 tasks using 4 大语言模型 models. The research reveals which prompting techniques are most effective for different types of SE tasks, providing practical guidance on technique selection based on task complexity, 推理 requirements, and contextu...
理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法
理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法论文概述本文是一篇关于大语言模型的研究论文,由 R 等77位研究者共同完成。
研究目标本研究的主要目标包括:
对RLHF与DPO性能差距进行细粒度理论分解,分为显式和隐式表示差距
基于模型类误配置特征,确定RLHF、DPO或在线DPO何时优于其他方法
证明在同构模型类下,在线DPO可以同时超越RLHF和标准DPO
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述本文采用严格的理论分析来分解RLHF和DPO方法之间的性能差距。在精确优化机制下,他们分析了...
迈向评估性思维: 基于演化奖励模型的元策略优化
迈向评估性思维: 基于演化奖励模型的元策略优化论文概述本文是一篇关于奖励模型的优化方法论文,由 Zae Myung Kim 等4位研究者共同完成。
元策略优化(MPO)解决了大语言模型基于奖励对齐的两个关键限制:对奖励欺骗的脆弱性以及对奖励模型提示工程的依赖性(既脆弱又劳动密集)。MPO引入了一个元奖励模型,在训练过程中动态优化奖励模型的提示,监控不断演化的训练上下文并持续调整提示以保持高度对齐。这种元学习方法提供了抵抗策略利用的自适应奖励信号,同时大大减少了手动奖励提示设计的工作量。MPO实现了与广泛手工制作的奖励提示引导的模型相当或更好的性能,并且在不同任务中保持有效性,无需专门的奖励设计。
研究目标本研究的主要目标包括:
引入具有元奖励模型的元策略优化(MPO)框架,用于动态提示优化
通过自适应奖励信号调整解决奖励欺骗脆弱性
消除大量手动奖励提示工程的需求
研究背景当前挑战...
Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用
Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用论文概述本文是一篇关于大型语言模型 (LLM) 优化方法的论文,由 J 等56位研究者共同完成。
研究目标本研究的主要目标包括:
提出了参考模型在直接偏好优化(DPO) 中作为数据权重调节器的新见解
引入了Pre-DPO范式,使用引导参考模型改进数据利用效率
设计了自适应加权机制,根据样本适配度分配样本权重
研究背景当前挑战
性能优化: 如何提升大型语言模型在实际任务中的表现
效率提升: 如何减少推理时间和计算资源消耗
可靠性保证: 如何确保模型输出的稳定性和准确性
可扩展性: 如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型的性能和实用性。
核心方法方法概述Pre-DPO利用引导参考模型,该模型能够预见通过训练数据可实现的最优策略。核心创新在于使用该参...
GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包
GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包论文概述本文是一篇关于提示工程的优化方法论文,由 Wenliang Zheng 等4位研究者共同完成。
GREATERPROMPT通过提供统一、可定制的框架,将多种优化技术整合到单一API下,从而实现提示优化的民主化。与现有方法相比,这些方法要么缺乏标准化、灵活性有限,要么依赖昂贵的专有API,GREATERPROMPT通过文本反馈优化(适用于大型大语言模型)和内部梯度优化(适用于小型模型)来适应不同模型规模。借助包括GitHub、PyPI和Web UI在内的用户友好界面,它使专家研究人员和非技术用户都能在不同任务和模型规模上实现高性能的提示优化。
研究目标本研究的主要目标包括:
统一框架,在一致的API下整合多种提示优化方法
双重优化模式:大型模型的文本反馈和小型模型的梯度优化
消除对昂贵的闭源大语言模型API...
超图检索增强生成: 基于超图结构化知识表示的检索增强生成
超图检索增强生成: 基于超图结构化知识表示的检索增强生成论文概述本文是一篇关于图检索增强生成的研究论文,由 Haoran Luo 等8位研究者共同完成。
研究目标本研究的主要目标包括:
识别传统图检索增强生成方法中二元关系的局限性
提出使用超图表示n元关系(n >= 2)的超图检索增强生成方法
引入超边表示来捕捉复杂的多实体关系
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述超图检索增强生成通过使用超图而非普通图来扩展传统的基于图的检索增强生成。传统图使用边连接成对实体(二元关系),而超图使用超边可以同时...
基于大型语言模型的智能体优化综述
A 综述 on the 优化of Large Language Model-based Agents论文概述本文是一篇关于智能体系统的综述性研究论文,由 Shangheng Du 等7位研究者共同完成。
This 综合性 综述 provides the first 系统性 review of 大型语言模型 (LLM)-based agent 优化approaches, addressing the gap between vanilla 大型语言模型 (LLM) 优化and specialized agent functionalities. While current work typically relies on prompt design or 微调 applied to standard 大型语言模型 (LLM)s, these often lead to limited ...
自动提示工程综述:优化视角
A Survey of Automatic Prompt Engineering: An Optimization Perspective
ArXiv ID: 2502.11560作者: Wenwu Li, Xiangfeng Wang, Wenhao Li, Bo Jin发布日期: 2025-02-17
摘要基础模型的兴起使研究焦点从资源密集型的微调转向提示工程——一种通过输入设计而非权重更新来引导模型行为的范式。本综述首次从统一的优化视角对自动提示工程进行了全面考察。我们将提示优化形式化为离散、连续和混合提示空间上的最大化问题,考察了基于基础模型的优化、进化方法、基于梯度的优化和强化学习方法。通过分析优化变量(指令、软提示、样例)、任务特定目标和计算框架,我们在理论形式化与跨文本、视觉和多模态领域的实际实现之间架起桥梁。虽然手动提示工程在可扩展性、适应性和跨模态对齐方面存在局限...
自适应思维图:统一链式、树式和图式结构的测试时自适应推理
Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures
ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025年2月7日
摘要Adaptive Graph of Thoughts (AGoT) 是一个动态的、基于图的推理框架,在测试时增强大语言模型(LLM)的推理能力。该框架递归地将复杂查询分解为结构化的子问题,形成一个由相互依赖的推理步骤组成的动态有向无环图(DAG)。与传统的 Chain-of-Thought、Tree of Thoughts 或 Graph of Thoughts 方法不同,AGo...
QuEST: 使用1比特权重和激活值的大语言模型稳定训练
QuEST: 使用1比特权重和激活值的大语言模型稳定训练论文概述本文是一篇关于大语言模型的研究论文,由 A 等90位研究者共同完成。
研究目标本研究的主要目标包括:
QuEST: 首个支持1比特权重和激活值训练的稳定量化感知训练方法
Trust梯度估计器,最小化量化梯度与真实全精度梯度之间的误差
Hadamard归一化和MSE最优拟合,实现精确的分布量化
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述QuEST通过两项关键创新实现稳定的1比特训练:(1) 使用Hadamard归一化改善权重/激活值分布的条件,然...
自适应思维图: 统一链、树和图结构的测试时自适应推理
自适应思维图: 统一链、树和图结构的测试时自适应推理论文概述本文是一篇关于推理能力的研究论文,由 Tushar Pandey 等4位研究者共同完成。
研究目标本研究的主要目标包括:
引入自适应思维图(AGoT),一个用于测试时推理的动态图基推理框架
将复杂查询递归分解为结构化子问题,形成有向无环图(DAG)
统一思维链、思维树和思维图范式的优势
研究背景当前挑战
性能优化:如何提升大型语言模型 (LLM)在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型 (LLM)的性能和实用性。
核心方法方法概述AGoT通过测试时图构建采用动态自适应方法进行大型语言模型 (LLM)推理:(1) 递归分解 - 复杂查...
自监督提示优化(SPO):无需外部参考的成本高效框架
自监督提示优化(SPO):无需外部参考的成本高效框架论文概述本文是一篇关于提示工程的框架设计论文,由 J 等110位研究者共同完成。
研究目标本研究的主要目标包括:
SPO: 无需外部参考(真实标签/人类反馈)的自监督提示优化框架
成对输出比较方法,直接从大语言模型输出中获取评估信号
大语言模型评估器,通过输出比较评估任务需求的遵从度
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述SPO通过两阶段过程运作,无需外部参考:(1) 选择阶段使用大语言模型评估器评估的成对输出比较来识别优秀提示 - 关键洞察是提示质量...
基于潜在推理的测试时计算扩展:循环深度方法
论文概述这项研究提出了一种全新的语言模型架构,通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同,该模型采用了循环块迭代的创新设计,能够在测试时展开至任意深度,从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数,在计算效率上达到相当于500亿参数传统模型的水平,且无需专门训练数据,可在小上下文窗口下工作。
论文信息:
发布时间:2025-02-07
作者:Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
研究方向:提示工程 (Prompt Engineerin...
数学推理中开发过程奖励模型的经验教训
The Lessons of Developing Process Reward Models in Mathematical 推理论文概述本文是一篇关于推理能力的研究论文,由 Zhenru Zhang 等9位研究者共同完成。
This work from Alibaba provides critical insights into developing effective Process Reward Models (过程奖励模型s) for mathematical 推理 in 大型语言模型 (LLM)s. Through extensive experiments, it identifies key challenges in data annotation and evaluation, demonstrating that Monte Carlo estimation ...
GReaTer: 推理上的梯度使小型语言模型成为强大的提示优化器
GReaTer: 梯度 over 推理 Makes Smaller Language Models Strong Prompt Optimizers论文概述本文是一篇关于提示工程的研究论文,由 Sarkar Snigdha Sarathi Das 等6位研究者共同完成。
GReaTer introduces a novel prompt 优化technique that directly incorporates gradient information over task-specific 推理, enabling open-source lightweight language models to self-optimize prompts without dependence on costly closed-source 大型语言模型 (LLM)s. Unlike text ...
大语言模型在不同NLP任务中的提示工程方法综述
大语言模型在不同NLP任务中的提示工程方法综述论文概述本文是一篇关于提示工程的综述性研究论文,由 Shubham Vatsal 等2位研究者共同完成。
This 综合性 综述 examines 44 research papers covering 39 different prompting methods applied across 29 NLP tasks. The paper provides a 系统性 taxonomy of 提示工程 techniques and evaluates their performance across various datasets and 大语言模型s, offering practical guidance for researchers and practitioners in selecting appropriate prom...
大型语言模型推理: 综述
推理 with Large Language Models, a 综述论文概述本文是一篇关于推理能力的综述性研究论文,由 Aske Plaat 等6位研究者共同完成。
研究目标本研究的主要目标包括:
综合性 综述 of prompt-based 推理 with 大型语言模型 (LLM)s covering rapid field expansion
Introduces taxonomy identifying different ways to generate, evaluate, and control multi-step 推理
Provides in-depth coverage of core approaches: Chain-of-Thought, Tree of Thoughts, and related methods
研究背景当前挑战
性能优化:如何提升大型...
优化多阶段语言模型程序的指令与示例
优化多阶段语言模型程序的指令与示例论文概述本文是一篇关于大语言模型的研究论文,由 Krista Opsahl-Ong 等7位研究者共同完成。
本文解决了优化复杂多阶段语言模型程序的挑战,在这些程序中多个语言模型调用被串联在一起。现有方法孤立地优化单个提示,而本研究引入了 MIPRO 算法,可以联合优化程序中所有模块的自由格式指令和少样本示例。MIPRO 对优化问题进行因式分解,并引入了用于提出任务驱动指令和跨模块信用分配的新颖策略。使用一流的开源模型(Llama-3-8B),MIPRO 在七个不同多阶段语言模型程序中的五个上优于基线优化器,准确率最高提升13%。
研究目标本研究的主要目标包括:
引入 MIPRO 算法用于端到端优化多阶段语言模型程序
联合优化指令和示例而非分别处理
开发了程序感知和数据感知技术用于提出有效指令
研究背景当前挑战
参数优化:如何自动化地优化模型参数和...
通过自动化过程监督改进语言模型的数学推理能力
通过自动化过程监督改进语言模型的数学推理能力论文概述本文是一篇关于推理能力的研究论文,由 Liangchen Luo 等11位研究者共同完成。
这篇 Google Research 论文介绍了 OmegaPRM,一种新颖的蒙特卡洛树搜索(MCTS)算法,无需人工标注即可自动收集高质量的过程监督数据用于训练过程奖励模型(PRM)。与仅验证最终答案的结果奖励模型不同,OmegaPRM 通过使用分治算法识别推理链中的第一个错误来提供步骤级监督。收集了超过150万个过程监督标注后,生成的 PRM 显著改进了数学推理:Gemini Pro 在 MATH500 上的准确率从51%提升到69.4%(18.4个百分点),Gemma2 27B 在 MATH500 上从42.3%提升到58.2%。该工作发表于2024年6月,证明自动化过程监督可以以极低的成本匹配或超越人工标注质量,使过程奖励模型能够大规...
PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样
PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样论文概述本文是一篇关于提示工程的优化方法论文,由 Yongchao Chen 等6位研究者共同完成。
PROMST 解决了多步骤智能体任务提示优化的独特挑战,在这些任务中,提示更加复杂,单个步骤的影响难以评估,且用户偏好各异。与单步骤任务优化器不同,PROMST 融合了人类设计的反馈规则(自评规则)以自动提供直接的改进建议,并使用学习到的启发式模型来高效预测提示性能以进行采样。该方法在11个代表性多步骤任务上显著优于人工设计的提示和其他优化方法,在五种不同的大语言模型上平均提升10.6%-29.3%。
研究目标本研究的主要目标包括:
引入专门为多步骤任务提示优化设计的 PROMST 框架
开发自评规则机制,将人类反馈规则融入自动化优化
实现对比过滤,使用学习到的启发式方法高效采样高质量提示候选
研究背景当前挑战
提示...
从错误中进行上下文原理学习
从错误中进行上下文原理学习论文概述本文是一篇关于大型语言模型 (LLM)的研究论文,由 Tianjun Zhang 等8位研究者共同完成。
LEAP(学习原理)引入了一种新颖的上下文学习 (In-Context Learning)范式,从错误中学习而非仅从正确示例学习。通过有意诱导错误、反思错误并推导出明确的任务特定原理,LEAP 显著提升了大型语言模型 (LLM)在推理任务上的性能。这种方法模仿了人类学习,即我们往往从错误中学到的比从成功中学到的更多。
研究目标本研究的主要目标包括:
引入 LEAP,一种从诱导错误中学习显式原理的新型上下文学习 (In-Context Learning)范式
证明从错误中学习比仅从正确示例学习更有效
提出三阶段流程:诱导错误、推导原理、将原理应用于新查询
研究背景当前挑战
推理能力不足:模型在复杂推理任务上表现欠佳
多步推理困难:难以处理需要多...
大语言模型提示工程系统性综述:技术与应用
大语言模型提示工程系统性综述:技术与应用论文概述本文是一篇关于提示工程的综述性研究论文,由 Pranab Sahoo 等6位研究者共同完成。
This 综合性 综述 provides a structured overview of recent advancements in 提示工程 for 大语言模型 (大语言模型s) and vision-language models (VLMs). It addresses the gap in 系统性 organization by categorizing approaches by application area, providing detailed summaries of prompting methodologies, models, datasets, and creating a taxonomy of techniq...
AI 系统的元提示
论文概述这项来自清华大学的工作引入了元提示(Meta Prompting, MP),这是一个具有理论基础的框架,通过关注任务的形式结构而非特定内容的示例来提升大型语言模型推理。基于类型理论和范畴论,MP 提供了指导推理过程的结构化模板,仅使用单个零样本元提示就实现了最先进的结果。
论文信息:
发布时间:2023-11-20
作者:Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:元提示(Meta-Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的...
提示工程一个提示工程师
论文概述这项工作通过构建元提示来研究”提示工程一个提示工程师”,这些元提示更有效地引导大型语言模型执行自动提示工程。提出的 PE2 方法引入了关键组件,如逐步推理模板和上下文规范,以及优化概念的语言化对应物(批量大小、步长、动量),以改进自动提示工程性能。
论文信息:
发布时间:2023-11-09
作者:Qinyuan Ye, Maxamed Axmed, Reid Pryzant等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:元提示(Meta-Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工程技术,提升大型语言模型...
大型语言模型作为类比推理器
论文概述受人类类比推理的启发,本文介绍了类比提示(Analogical Prompting),这是一种新颖的方法,提示大型语言模型在解决问题之前自我生成相关的范例和知识。与需要手动制作示例的传统 CoT 不同,类比提示使大型语言模型能够从其内部知识中提取以创建针对问题的演示,无需标注的范例即可实现卓越性能。
论文信息:
发布时间:2023-10-03
作者:Michihiro Yasunaga, Xinyun Chen, Yujia Li等
机构:Google DeepMind,斯坦福大学
研究方向:提示工程,大型语言模型推理
核心技术:类比推理(Analogical Reasoning)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需...
大型语言模型作为优化器
论文概述这篇里程碑式论文介绍了通过提示优化(Optimization by PROmpting, OPRO),这是一种利用大型语言模型作为各种任务优化器的突破性范式。与传统的基于导数的优化不同,OPRO 使用自然语言描述优化任务,并根据先前评估的候选项迭代生成新解决方案。该方法在提示优化上展示了显著的有效性,其中 OPRO 优化的提示在 GSM8K 上优于人工设计的提示最多 8%,在 Big-Bench Hard 任务上优于最多 50%。这项工作在 Hugging Face 上获得了 77 个点赞,表明了强大的社区认可。
论文信息:
发布时间:2023-09-07
作者:Chengrun Yang, Xuezhi Wang, Yifeng Lu等
机构:Google DeepMind
研究方向:提示工程,大型语言模型推理
核心技术:提示优化(Prompt Optimization)...
RLAIF 对比 RLHF:使用 AI 反馈扩展人类反馈强化学习
论文概述这篇 Google Research 论文提供了基于 AI 反馈的强化学习(RLAIF)与传统 RLHF 之间的首次全面实证比较,证明 AI 生成的偏好标签可以以大幅降低的成本匹配人类反馈质量。在三个任务(摘要、有帮助的对话、无害对话)中,RLAIF 实现了与 RLHF 相当的性能,人类评估者对两者同样偏好(约 70% 优于监督基线)。关键创新是使用现成的大型语言模型生成偏好标签,而不是昂贵的人工标注,并引入了直接 RLAIF(d-RLAIF),该方法在 RL 期间直接从大型语言模型获取奖励,无需训练单独的奖励模型,实现了卓越的性能。该工作发表于 ICML 2024,验证了 RLAIF 作为 RLHF 的可扩展替代方案,将标注成本降低了 10 倍以上,同时保持对齐质量。
论文信息:
发布时间:2023-09-01
作者:Harrison Lee, Samrat Phatal...
思维图谱:用大型语言模型解决复杂问题
论文概述思维图谱(Graph of Thoughts, GoT)是一个突破性框架,将大型语言模型推理从链式(CoT)和树式(ToT)结构扩展到任意图结构。GoT 允许大型语言模型将生成的信息建模为图,其中信息单元(”大型语言模型思维”)是顶点,边表示依赖关系。这种灵活的结构能够处理需要复杂信息聚合、回溯和循环依赖的问题。实验表明,GoT 显著优于现有方法,在排序任务上实现了 62% 的质量改进,同时相比 ToT 降低了超过 31% 的成本。
论文信息:
发布时间:2023-08-18
作者:Maciej Besta, Nils Blach, Ales Kubicek等
机构:苏黎世联邦理工学院,雅盖隆大学
研究方向:提示工程,大型语言模型推理
核心技术:思维图谱(Graph of Thoughts)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进...
思维骨架:提示大型语言模型进行高效并行生成
论文概述思维骨架(Skeleton-of-Thought, SoT)是清华大学和微软研究院提出的一种创新推理优化技术,通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架(大纲),然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估,SoT 实现了高达 2.39 倍的加速,同时保持或提高答案质量。该论文发表于 ICLR 2024,SoT 展示了一种以数据为中心的推理效率方法,将大型语言模型视为黑盒,并适用于任何现成的模型,包括基于 API 的服务。
论文信息:
发布时间:2023-07-28
作者:Xuefei Ning, Zinan Lin, Zixuan Zhou等
机构:清华大学...
视觉-语言基础模型的提示工程系统综述
论文概述这篇来自牛津大学等机构的综合性综述系统地考察了三种主要类型的视觉-语言基础模型的提示工程技术:多模态到文本生成(如 Flamingo)、图像-文本匹配(如 CLIP)和文本到图像生成(如 Stable Diffusion)。该工作首次系统地概述了视觉领域的提示方法、应用和责任考虑。
论文信息:
发布时间:2023-07-24
作者:Jindong Gu, Zhen Han, Shuo Chen等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:视觉提示(Visual Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工...
提示空间:优化大型语言模型的少样本推理成功
论文概述本文提出了提示空间(Prompt Space),这是一种提供稳健理论框架来选择有效提示的新方法。它利用文本嵌入和矩阵分解来获取基向量,并构建一个用于表示所有提示的空间。提示空间在十个推理基准测试上显著优于最先进的范式,甚至在不使用思维链或”让我们逐步思考”提示的情况下也是如此。
论文信息:
发布时间:2023-06-06
作者:Fobo Shi, Peijun Qing, Dong Yang等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:提示空间(Prompt Space)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工程技术,提...
通用自适应提示
论文概述通用自适应提示(Universal Self-Adaptive Prompting, USP)通过实现自动提示设计的有效零样本学习来解决 Transformers 的架构限制。与依赖”一个提示适用所有”策略的传统方法不同,USP 对任务进行分类,并选择任务适当的查询和模型生成的响应作为伪示例,以完全自动化的方式将上下文学习泛化到零样本设置。
论文信息:
发布时间:2023-05-24
作者:Xingchen Wan, Ruoxi Sun, Hootan Nakhost等
机构:Google Research
研究方向:提示工程,大型语言模型推理
核心技术:零样本学习(Zero Shot Learning)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上...
QLoRA:量化大型语言模型的高效微调
论文概述QLoRA 是华盛顿大学提出的一项里程碑式量化微调技术,能够在消费级硬件上高效微调大规模语言模型。关键创新在于结合了三项技术:(1)针对正态分布权重优化的 4 位 NormalFloat(NF4)量化,(2)双重量化以减少量化常数的内存占用,(3)使用 NVIDIA 统一内存的分页优化器来处理内存峰值。QLoRA 能够在单个 48GB GPU 上微调 650 亿参数模型,同时保持完整的 16 位微调性能。生成的 Guanaco 模型系列在 Vicuna 基准测试上达到了 ChatGPT 性能的 99.3%。该论文发表于 NeurIPS 2023,获得超过 2,800 次引用,QLoRA 已成为可访问的大型语言模型微调的事实标准,也是 bitsandbytes 库的基础。
论文信息:
发布时间:2023-05-23
作者:Tim Dettmers, Artidoro Pagn...
思维树:大型语言模型的审慎问题解决
论文概述思维树(Tree of Thoughts, ToT)是一个突破性框架,它通过允许语言模型通过树结构搜索探索多条推理路径,从而推广了思维链(Chain of Thought)方法。与 CoT 的线性逐token生成不同,ToT 允许大型语言模型通过考虑多条不同的推理路径、自我评估选择,以及在必要时回溯来进行审慎的决策制定,以做出全局性选择。这使得能够解决需要探索、战略性前瞻或初始决策起关键作用的复杂任务。
论文信息:
发布时间:2023-05-17
作者:Shunyu Yao, Dian Yu, Jeffrey Zhao等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:思维树(Tree of Thoughts)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方...
PyTorch FSDP: 全分片数据并行的扩展经验
论文概述PyTorch FSDP(全分片数据并行,Fully Sharded Data Parallel)是PyTorch团队提供的工业级分布式训练解决方案,通过与PyTorch核心基础设施的深度协同设计,实现了全分片数据并行。系统在GPU之间分片模型参数、梯度和优化器状态,同时保持PyTorch编程接口。该系统已成为大规模模型训练的可访问解决方案,提供与DDP相当的性能,同时支持显著更大的模型。
论文信息:
发布时间:2023-04-21
作者:Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo等
机构:Meta (Facebook) AI
研究方向:分布式训练、模型扩展
核心技术:全分片数据并行 (Fully Sharded Data Parallel)
研究背景随着模型规模不断增长,分布式训练成为必需。本研究针对以下问题展开:
现有问...
Self-Refine: 通过自我反馈进行迭代优化
论文概述Self-Refine是来自CMU、AI2和顶级研究机构的一个有影响力的迭代优化框架,使大型语言模型能够通过自我生成的反馈自主改进其输出。关键洞察是,就像人类一样,大型语言模型很少在第一次尝试时产生最佳输出,但可以批评和优化自己的工作。三步过程 - (1) 生成初始输出,(2) 提供自我反馈,(3) 基于反馈进行优化 - 不需要额外的训练、监督数据或强化学习。在7个不同任务(对话、数学推理、代码生成、情感反转、首字母缩略词生成、约束生成、评论改写)上使用GPT-3.5、ChatGPT和GPT-4进行评估,Self-Refine平均提高约20%的性能,人类强烈偏好其输出。该成果发表于NeurIPS 2023,影响了众多关于大型语言模型自我改进和批评的后续工作。
论文信息:
发布时间:2023-03-30
作者:Aman Madaan, Niket Tandon, Prakha...
从标注数据自动增强和选择思维链提示
论文概述Automate-CoT解决了手动思维链提示工程的挑战,通过从标注的训练数据自动生成和选择高质量的理性推理链。它使用机器生成的理性推理配合方差减少的策略梯度优化来选择最优的提示组合,消除了对人工标注推理链的需求,同时达到最先进的性能。
论文信息:
发布时间:2023-02-24
作者:KaShun Shum, Shizhe Diao, Tong Zhang
机构:Hong Kong University of Science and Technology, University of Illinois Urbana-Champaign
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:自动思维链 (Automatic CoT)
研究背景思维链提示在推理任务上表现出色,但手工制作高质量的推理链需要大量...
大型语言模型是人类级别的提示工程师
论文概述这项突破性工作引入了自动提示工程师(Automatic Prompt Engineer, APE)框架,能够自动为大型语言模型生成和选择指令。APE将指令视为程序,通过搜索LLM提议的候选指令进行优化,并在另一个LLM上评估零样本性能来选择最佳指令。该方法在24个NLP任务中的19个上超过了人工编写的提示,标志着自动化提示工程过程的重大进展。
论文信息:
发布时间:2022-11-03
作者:Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han等
机构:University of Montreal, University of Oxford, UC Berkeley等
研究方向:提示工程、LLM推理
核心技术:自动提示工程(APE)
研究背景提示工程通常需要大量人工尝试和专业知识,这限制了其应用范围和效率。本研究针对以下问题展开:
...
ReAct: 在语言模型中协同推理与行动
论文概述ReAct引入了一种范式,其中大型语言模型以交错的方式生成推理轨迹和特定任务的行动,在两种能力之间创造协同效应。推理轨迹帮助模型推导、跟踪和更新行动计划,同时处理异常情况,而行动允许它与外部源(如知识库或环境)交互以收集额外信息。这种方法克服了纯推理或纯行动方法的局限性,在可解释性和可信度方面取得了显著改进。
论文信息:
发布时间:2022-10-06
作者:Shunyu Yao, Jeffrey Zhao, Dian Yu等
机构:Princeton University, Google Research
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:推理与行动协同 (ReAct)
研究背景大型语言模型在各类任务中展现出强大的能力,但纯推理方法容易产生幻觉,而纯行动方法缺乏规划能力。本研究针对...
分解式提示:解决复杂任务的模块化方法
论文概述这项来自Allen AI的工作引入了分解式提示(Decomposed Prompting),一种通过提示将复杂任务分解为更简单子任务的模块化方法。每个子任务被委托给一个专门的基于提示的LLM库,允许进行优化、进一步分解,或用更有效的解决方案(包括训练模型或符号函数)替换。
论文信息:
发布时间:2022-10-05
作者:Tushar Khot, Harsh Trivedi, Matthew Finlayson等
机构:Allen Institute for AI
研究方向:提示工程、LLM推理
核心技术:任务分解(Task Decomposition)
研究背景大型语言模型在处理复杂任务时往往力不从心,单一提示难以涵盖所有必要的推理步骤。本研究针对以下问题展开:
现有问题
复杂任务难以用单一提示有效处理
不同子任务需要不同的专业知识和推理策略
缺乏系统化的任务分解和模块...
从简到繁提示使大型语言模型能够进行复杂推理
论文概述从简到繁提示 (Least-to-Most Prompting) 是一种创新的提示工程策略,通过将复杂问题分解为一系列更简单的子问题并顺序解决它们,实现了强大的组合泛化能力。受教育心理学”由简到繁”学习策略的启发,这种方法使大型语言模型能够解决比训练示例更复杂的问题。实验表明,使用GPT-3 code-davinci-002配合从简到繁提示,在SCAN组合泛化基准测试的任何分割上都能达到至少99%的准确率(仅用14个示例),而标准思维链提示只能达到16%。
论文信息:
发布时间:2022-05-21
作者:Denny Zhou, Nathanael Schärli, Le Hou等
机构:Google Research, Google Brain
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:从简...
自洽性改进语言模型中的思维链推理
论文概述本论文提出了自洽性 (Self-Consistency),这是一种新颖的解码策略,通过替换朴素的贪婪解码显著改进思维链提示。自洽性不是只采用贪婪路径,而是采样一组多样化的推理路径,并通过对采样路径进行边缘化来选择最一致的答案。这利用了一个直觉:复杂的推理问题通常允许多种不同的思考方式,但都导向唯一的正确答案,在多个推理基准测试中实现了显著的性能提升。
论文信息:
发布时间:2022-03-21
作者:Xuezhi Wang, Jason Wei, Dale Schuurmans等
机构:Google Research
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:自洽性 (Self-Consistency)
研究背景大型语言模型在思维链提示下展现出强大的推理能力,但单次生成的结果可能不稳定。本研...
思维链提示激发大型语言模型的推理能力
论文概述思维链 (Chain-of-Thought, CoT) 提示是一项突破性技术,通过生成中间推理步骤显著提高大型语言模型的推理能力。本论文展示了如何通过简单的少样本提示配合推理链,在算术、常识和符号推理任务上实现突破性性能,而无需任何模型微调。CoT已成为现代大型语言模型应用中的基础技术之一。
论文信息:
发布时间:2022-01-28
作者:Jason Wei, Xuezhi Wang, Dale Schuurmans等
机构:Google Research, Google Brain
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:思维链 (Chain-of-Thought)
研究背景大型语言模型在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
...
展示你的工作:使用语言模型草稿本进行中间计算
论文概述这项来自Google Research的开创性工作引入了”草稿本”(scratchpad)技术,通过训练transformer输出中间计算步骤,极大地提高了它们执行复杂多步骤计算的能力。通过要求语言模型”逐步”展示其工作过程,该方法使LM能够解决从长加法到执行任意程序等以前难以处理的任务。
论文信息:
发布时间:2021-11-30
作者:Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari等
机构:Google Research
研究方向:提示工程、LLM推理
核心技术:思维链(Chain-of-Thought)
研究背景语言模型在单步预测任务上表现出色,但在需要多步计算的复杂任务上遇到困难。本研究针对以下问题展开:
现有问题
语言模型难以执行需要多步骤的复杂计算
模型的中间推理过程不可见,难以调试和理解
长序列计算容易出错...
微调后的语言模型是零样本学习者(FLAN)
论文概述FLAN(Finetuned Language Model for Instruction Following,遵循指令的微调语言模型)是指令微调领域的开创性工作。这篇论文证明,通过自然语言指令描述的多任务微调可以显著提高在未见任务上的零样本性能。通过在60+个NLP任务上进行指令微调,FLAN 137B在25个评估任务中的20个上超过了零样本175B GPT-3。这项工作证明了指令微调是将语言模型转变为更通用任务执行器的强大范式。
论文信息:
发布时间:2021-09-03
作者:Jason Wei, Maarten Bosma, Vincent Y. Zhao等
机构:Google Research, Google Brain
研究方向:提示工程、LLM推理
核心技术:指令微调(Instruction Tuning)
研究背景大型语言模型(LLM)虽然强大,但在零样本...
在GPU集群上使用Megatron-LM高效训练大规模语言模型
论文概述Megatron-LM是来自NVIDIA、微软和顶尖大学的里程碑式分布式训练系统,能够在数千个GPU上高效训练万亿参数语言模型。其核心创新是三维并行(3D Parallelism) - 组合张量并行(节点内)、流水线并行(节点间)和数据并行,以高效地在GPU集群上分区大规模模型。Megatron在3,072个A100 GPU上训练1万亿参数模型时达到502 petaFLOPs,实现了理论峰值吞吐量的52%,并具有近乎完美的线性扩展性。新颖的交错流水线调度相比传统方法提升了10%以上的吞吐量。该工作发表于SC21(超级计算2021)并获得最佳论文奖,Megatron-LM已成为大规模LLM训练的事实标准,被GPT-3、Turing-NLG等众多研究项目采用。
论文信息:
发布时间:2021-04-09
作者:Deepak Narayanan, Mohammad Shoeybi...
ZeRO-Offload: 将十亿规模模型训练平民化
论文概述ZeRO-Offload是微软研究院提出的突破性内存优化技术,通过在单个GPU上实现130亿以上参数模型的训练,将十亿规模模型训练平民化 - 相比原生PyTorch提升了10倍。关键创新是战略性地将优化器状态和梯度卸载到CPU内存,同时将计算密集型的前向/反向传播保持在GPU上,使用NVIDIA统一内存实现自动CPU-GPU数据移动。ZeRO-Offload在V100上为100亿参数模型实现了40 TFlops吞吐量(相比PyTorch训练14亿参数模型的30 TFlops),可近线性扩展到128个GPU,并在与模型并行结合时可在单个DGX-2节点上训练700亿以上参数的模型。该技术于2021年在USENIX ATC发表,并集成到微软DeepSpeed中,使大规模模型训练对没有大规模GPU集群的研究人员和从业者来说变得触手可及。
论文信息:
发布时间:2021-0...
语言模型是少样本学习者(GPT-3)
论文概述GPT-3是一个拥有1750亿参数的自回归语言模型,比之前任何非稀疏语言模型大10倍。这篇突破性论文证明了足够大规模的语言模型可以仅通过文本交互(少样本示例)在各种NLP任务上实现强大性能,无需任何梯度更新或微调 (Fine-Tuning)。GPT-3引入了上下文学习 (In-Context Learning) 的概念,从根本上改变了我们对语言模型能力的理解,开启了大型语言模型时代。
论文信息:
发布时间:2020-05-28
作者:Tom B. Brown, Benjamin Mann, Nick Ryder等
机构:OpenAI
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:上下文学习 (In Context Learning)
研究背景大型语言模型在各类任务中展现出强大的能力,但传统方法通...
检索增强生成:用于知识密集型NLP任务
论文概述检索增强生成 (Retrieval-Augmented Generation, RAG) 是一个突破性的框架,它结合了预训练的参数化记忆(序列到序列模型)和非参数化记忆(维基百科的密集向量索引),专门用于知识密集型NLP任务。RAG模型使用预训练的神经检索器访问维基百科,然后将检索到的文档作为上下文传递给生成器,产生更具体、更多样化、更符合事实的输出。这项工作在开放域问答任务上达到了最先进水平,并证明了检索增强模型比纯参数化模型产生更可靠和可解释的输出。
论文信息:
发布时间:2020-05-22
作者:Patrick Lewis, Ethan Perez, Aleksandra Piktus等
机构:Facebook AI Research, University College London, New York University
研究方向:提示工程 (Prompt ...