论文概述LinearRAG是一种针对大规模语料库的新型检索增强生成框架,旨在解决当前RAG系统在处理大规模非结构化语料和不可靠知识图谱构建方面的局限性。该方法的核心创新在于构建了一个名为”三图”(Tri-Graph)的轻量级图结构,通过避免不稳定的关系建模,实现了与语料库规模呈线性关系的扩展能力。LinearRAG采用两阶段检索策略,在处理复杂推理任务时能够更准确地定位相关段落,有效减少了大语言模型的幻觉问题。
论文信息:
发布时间:2025-10-11
作者:Luyao Zhuang, Shengyuan Chen, Yilin Xiao, Huachi Zhou, Yujing Zhang, Hao Chen, Qinggang Zhang, Xiao Huang
研究方向:上下文工程 (Context Engineering), 检索增强生成 (Retrieval-Augme...
GraphSearch: 用于图检索增强生成的智能体深度搜索工作流
图Search: An Agentic Deep Searching Workflow for 图 检索-Augmented Generation论文概述本文是一篇关于图检索增强生成的研究论文,由 Cehao Yang 等8位研究者共同完成。
研究目标本研究的主要目标包括:
Identifies two core limitations of existing 图检索增强生成: shallow 检索 and inefficient 图 utilization
Proposes 图Search, an agentic deep searching workflow with modular architecture
Introduces dual-channel 检索 combining semantic queries over text and relational querie...
Youtu-GraphRAG: 用于图检索增强复杂推理的垂直统一智能体
Youtu-GraphRAG: 用于图检索增强复杂推理的垂直统一智能体论文概述本文是一篇关于图检索增强生成的研究论文,由 Junnan Dong 等8位研究者共同完成。
研究目标本研究的主要目标包括:
提出垂直统一智能体范式,整合整个图检索增强生成框架
引入种子图模式并持续扩展以实现领域可扩展性
开发双重感知社区检测,融合结构拓扑和子图语义
研究背景当前挑战
性能优化:如何提升大型语言模型 (LLM)在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型 (LLM)的性能和实用性。
核心方法方法概述Youtu-GraphRAG采用垂直统一方法,包含四个关键组件:(1) 种子图模式 - 通过目标实体...
Memory-R1: 通过强化学习增强大语言模型Agent的记忆管理能力
论文概述Memory-R1是一个创新性的强化学习框架,旨在解决大语言模型的无状态特性所带来的记忆局限问题。该框架通过引入两个专门化的智能体来实现自适应的外部记忆管理:记忆管理器(Memory Manager)负责学习结构化的记忆操作(ADD、UPDATE、DELETE),而回答智能体(Answer Agent)则负责预选和推理相关的记忆条目。Memory-R1的突破性在于使用结果驱动的强化学习技术,在极少监督的情况下实现高效的记忆管理。
论文信息:
发布时间:2025-08-27
作者:Sikuan Yan, Xiufeng Yang, Zuchao Huang, Ercong Nie, Zifeng Ding, Zonggen Li, Xiaowen Ma, Kristian Kersting, Jeff Z. Pan, Hinrich Schütze, Volker Tresp...
大语言模型的链式思维推理是海市蜃楼吗?数据分布视角
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
ArXiv ID: 2508.01191作者: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu发布日期: 2025-08-13
摘要链式思维(CoT)提示已成为增强大语言模型推理能力的强大技术。然而,一个根本问题仍然存在:CoT代表真正的推理能力,还是仅仅是从训练数据中学到的复杂模式匹配?本文从数据分布视角研究CoT推理,系统考察大语言模型是否能将CoT推理泛化到训练分布之外。我们开发了DataAlchemy,一个用于跨三个维度(任务复杂度、推理链长度、输出格式)训练和探测大语言模型...
LLM的链式思维推理是海市蜃楼吗?从数据分布视角的分析
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
ArXiv ID: 2508.01191作者: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu发布日期: 2025年8月2日最后更新: 2025年8月13日
摘要链式思维(Chain-of-Thought, CoT)提示已被证明能够提升大语言模型(LLM)的性能。然而,本文质疑CoT推理是否真的如表面所示那样深入,还是仅仅是一种表面现象。通过数据分布的视角,研究者开发了”DataAlchemy”研究环境来调查CoT推理。研究揭示,CoT推理实际上是”脆弱的”,高度依赖于训练数据的分布...
Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架
Graph-R1: 基于端到端强化学习的智能体式图检索增强生成框架论文概述本文是一篇关于图检索增强生成的框架设计论文,由 Haoran Luo 等8位研究者共同完成。
研究目标本研究的主要目标包括:
提出Graph-R1,一个使用端到端强化学习的智能体式图检索增强生成框架
引入轻量级知识超图构建以降低构建成本
将检索建模为多轮智能体-环境交互,而非固定的一次性检索
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述Graph-R1采用三管齐下的方法:(1) 轻量级超图构建 - 高效构建捕捉n元关系的知识超图,同时最小化计算开...
Promptomatix: 面向大型语言模型的自动提示优化框架
Promptomatix: 面向大型语言模型的自动提示优化框架论文概述本文是一篇关于提示工程的框架设计论文,由 Rithesh Murthy 等8位研究者共同完成。
Promptomatix是一个自动提示优化框架,能够将自然语言任务描述转换为高质量提示,无需手动调优或领域专业知识。该系统支持轻量级元提示优化器和DSPy驱动的编译器,具有模块化设计便于未来扩展。系统会分析用户意图,生成合成训练数据,选择合适的提示策略,并使用成本感知目标迭代优化提示,在减少提示长度和计算开销的同时实现竞争力或更优的性能。
研究目标本研究的主要目标包括:
引入Promptomatix框架,可从自然语言描述自动优化提示
支持基于元提示和DSPy驱动的两种优化方法
实现成本感知优化目标,平衡性能和效率
研究背景当前挑战
提示设计复杂:如何设计有效的提示来引导模型生成高质量输出
优化困难:手动优化提示既耗时...
何时在检索增强生成中使用图: 图检索增强生成的综合性分析
何时在检索增强生成中使用图: 图检索增强生成的综合性分析论文概述本文是一篇关于图检索增强生成的研究论文,由 Zhishang Xiang 等7位研究者共同完成。
研究目标本研究的主要目标包括:
解决关键问题:在现实世界场景中图检索增强生成何时优于普通检索增强生成
引入GraphRAG-Bench,用于评估图检索增强生成系统的综合基准测试
提供对整个图检索增强生成流程的系统性评估:图构建、检索和生成
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述本文引入GraphRAG-Bench,这是一个包含多个难度级别和类型任务的综合...
我应该使用哪种提示技术?软件工程任务提示技术实证研究
我应该使用哪种提示技术?软件工程任务提示技术实证研究论文概述本文是一篇关于提示工程的实证研究论文,由 E. G. Santana Jr 等8位研究者共同完成。
This 综合性 实证 study 系统性ally evaluates 14 established 提示工程 techniques across 10 软件工程 tasks using 4 大语言模型 models. The research reveals which prompting techniques are most effective for different types of SE tasks, providing practical guidance on technique selection based on task complexity, 推理 requirements, and contextu...
理解偏好学习中的性能差距:RLHF与DPO的二分法分析
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO
ArXiv ID: 2505.19770作者: Ruizhe Shi, Minhak Song, Runlong Zhou, Zihan Zhang, Maryam Fazel, Simon S. Du发布日期: 2025年5月26日最后更新: 2025年10月3日
摘要本文对强化学习人类反馈(RLHF)和直接偏好优化(DPO)之间的性能差距进行了精细的理论分析。研究将性能差距分解为两个来源,并在精确优化和有限样本优化场景下进行分析。结果显示,根据模型误规范的类型,RLHF、DPO或在线DPO可能各自表现更优。值得注意的是,当奖励模型类和策略模型类同构且都存在误规范时,在线DPO可以同时优于RLHF和标准DPO。...
理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法
理解偏好学习中的性能差距: 基于人类反馈的强化学习与直接偏好优化的二分法论文概述本文是一篇关于大语言模型的研究论文,由 R 等77位研究者共同完成。
研究目标本研究的主要目标包括:
对RLHF与DPO性能差距进行细粒度理论分解,分为显式和隐式表示差距
基于模型类误配置特征,确定RLHF、DPO或在线DPO何时优于其他方法
证明在同构模型类下,在线DPO可以同时超越RLHF和标准DPO
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述本文采用严格的理论分析来分解RLHF和DPO方法之间的性能差距。在精确优化机制下,他们分析了...
DPO遇见PPO:RLHF的强化令牌优化
DPO Meets PPO: Reinforced Token Optimization for RLHF
ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng, Wei Xiong, Xinle Cheng, Li Zhao, Di He, Jiang Bian, Liwei Wang发布日期: 2025年4月29日最后更新: 2025年5月21日
摘要在经典的强化学习人类反馈(RLHF)框架中,近端策略优化(PPO)用于从稀疏的句子级奖励中学习。然而,PPO面临训练不稳定性和样本效率低等挑战。另一方面,直接偏好优化(DPO)提供了稳定的训练过程,但也存在句子级优化的局限性。本文引入了强化令牌优化(RTO)算法,将RLHF问题建模为马尔可夫决策过程(MDP),捕获细粒度的令牌级信息。RTO结合了DPO和PPO的优势,...
迈向评估性思维: 基于演化奖励模型的元策略优化
迈向评估性思维: 基于演化奖励模型的元策略优化论文概述本文是一篇关于奖励模型的优化方法论文,由 Zae Myung Kim 等4位研究者共同完成。
元策略优化(MPO)解决了大语言模型基于奖励对齐的两个关键限制:对奖励欺骗的脆弱性以及对奖励模型提示工程的依赖性(既脆弱又劳动密集)。MPO引入了一个元奖励模型,在训练过程中动态优化奖励模型的提示,监控不断演化的训练上下文并持续调整提示以保持高度对齐。这种元学习方法提供了抵抗策略利用的自适应奖励信号,同时大大减少了手动奖励提示设计的工作量。MPO实现了与广泛手工制作的奖励提示引导的模型相当或更好的性能,并且在不同任务中保持有效性,无需专门的奖励设计。
研究目标本研究的主要目标包括:
引入具有元奖励模型的元策略优化(MPO)框架,用于动态提示优化
通过自适应奖励信号调整解决奖励欺骗脆弱性
消除大量手动奖励提示工程的需求
研究背景当前挑战...
Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用
Pre-DPO: 使用引导参考模型改进直接偏好优化中的数据利用论文概述本文是一篇关于大型语言模型 (LLM) 优化方法的论文,由 J 等56位研究者共同完成。
研究目标本研究的主要目标包括:
提出了参考模型在直接偏好优化(DPO) 中作为数据权重调节器的新见解
引入了Pre-DPO范式,使用引导参考模型改进数据利用效率
设计了自适应加权机制,根据样本适配度分配样本权重
研究背景当前挑战
性能优化: 如何提升大型语言模型在实际任务中的表现
效率提升: 如何减少推理时间和计算资源消耗
可靠性保证: 如何确保模型输出的稳定性和准确性
可扩展性: 如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型的性能和实用性。
核心方法方法概述Pre-DPO利用引导参考模型,该模型能够预见通过训练数据可实现的最优策略。核心创新在于使用该参...
大语言模型时代的RAG评估:综合性调研
论文概述这篇综述性论文系统地回顾了检索增强生成(RAG)系统在大语言模型时代的评估方法和框架,为这一快速发展的领域提供了全面的技术图谱。论文深入分析了RAG评估的多个维度,包括系统性能、事实准确性、安全性和计算效率等核心指标,系统性地回顾了传统评估方法,并详细探讨了针对LLM驱动的RAG系统的新兴评估技术。此外,还编译和分类了大量RAG专用数据集,为研究者选择合适的评估基准提供了宝贵参考。
论文信息:
发布时间:2025-04-21
作者:Aoran Gan, Hao Yu, Kai Zhang, Qi Liu, Wenyu Yan, Zhenya Huang, Shiwei Tong, Guoping Hu
研究方向:上下文工程 (Context Engineering), 检索增强生成 (Retrieval-Augmented Generation), 评估方法 (Evalua...
GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包
GREATERPROMPT: 统一、可定制、高性能的开源提示优化工具包论文概述本文是一篇关于提示工程的优化方法论文,由 Wenliang Zheng 等4位研究者共同完成。
GREATERPROMPT通过提供统一、可定制的框架,将多种优化技术整合到单一API下,从而实现提示优化的民主化。与现有方法相比,这些方法要么缺乏标准化、灵活性有限,要么依赖昂贵的专有API,GREATERPROMPT通过文本反馈优化(适用于大型大语言模型)和内部梯度优化(适用于小型模型)来适应不同模型规模。借助包括GitHub、PyPI和Web UI在内的用户友好界面,它使专家研究人员和非技术用户都能在不同任务和模型规模上实现高性能的提示优化。
研究目标本研究的主要目标包括:
统一框架,在一致的API下整合多种提示优化方法
双重优化模式:大型模型的文本反馈和小型模型的梯度优化
消除对昂贵的闭源大语言模型API...
超图检索增强生成: 基于超图结构化知识表示的检索增强生成
超图检索增强生成: 基于超图结构化知识表示的检索增强生成论文概述本文是一篇关于图检索增强生成的研究论文,由 Haoran Luo 等8位研究者共同完成。
研究目标本研究的主要目标包括:
识别传统图检索增强生成方法中二元关系的局限性
提出使用超图表示n元关系(n >= 2)的超图检索增强生成方法
引入超边表示来捕捉复杂的多实体关系
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述超图检索增强生成通过使用超图而非普通图来扩展传统的基于图的检索增强生成。传统图使用边连接成对实体(二元关系),而超图使用超边可以同时...
基于大型语言模型的智能体优化综述
A 综述 on the 优化of Large Language Model-based Agents论文概述本文是一篇关于智能体系统的综述性研究论文,由 Shangheng Du 等7位研究者共同完成。
This 综合性 综述 provides the first 系统性 review of 大型语言模型 (LLM)-based agent 优化approaches, addressing the gap between vanilla 大型语言模型 (LLM) 优化and specialized agent functionalities. While current work typically relies on prompt design or 微调 applied to standard 大型语言模型 (LLM)s, these often lead to limited ...
直接偏好优化的主动学习
直接偏好优化的主动学习论文概述本文是一篇关于大语言模型的优化方法论文,由 B 等89位研究者共同完成。
研究目标本研究的主要目标包括:
适用于在线和离线设置的直接偏好优化新型主动学习框架
在神经网络最后一层线性化直接偏好优化目标以实现高效计算
采用 D-最优设计方法选择最具信息量的偏好反馈
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述该方法在神经网络表示的最后一层线性化直接偏好优化目标,使得能够计算偏好反馈收集的 D-最优设计。这个数学框架允许原则性地选择最具信息量的反馈对。对于在线设置,算法主动选择向人类评估者呈现哪...
Infinite Retrieval: 基于注意力增强的无限长上下文处理
论文概述Infinite Retrieval(InfiniRetri)是一项突破性的研究成果,解决了大语言模型在处理超长上下文输入时面临的核心挑战。该方法的创新之处在于利用模型自身的注意力信息来实现对无限长输入的精确检索,而无需任何额外训练。研究团队发现模型的注意力分布与生成答案之间存在强相关性,基于这一洞察设计了InfiniRetri方法。在Needle-In-a-Haystack测试中,该方法处理超过100万token时达到100%准确率,在真实场景中带来高达288%的性能提升。
论文信息:
发布时间:2025-02-18
作者:Xiaoju Ye, Zhichun Wang, Jingyuan Wang
研究方向:上下文工程 (Context Engineering), 长上下文处理 (Long-Context Processing)
核心技术:注意力增强 (Attentio...
自动提示工程综述:优化视角
A Survey of Automatic Prompt Engineering: An Optimization Perspective
ArXiv ID: 2502.11560作者: Wenwu Li, Xiangfeng Wang, Wenhao Li, Bo Jin发布日期: 2025-02-17
摘要基础模型的兴起使研究焦点从资源密集型的微调转向提示工程——一种通过输入设计而非权重更新来引导模型行为的范式。本综述首次从统一的优化视角对自动提示工程进行了全面考察。我们将提示优化形式化为离散、连续和混合提示空间上的最大化问题,考察了基于基础模型的优化、进化方法、基于梯度的优化和强化学习方法。通过分析优化变量(指令、软提示、样例)、任务特定目标和计算框架,我们在理论形式化与跨文本、视觉和多模态领域的实际实现之间架起桥梁。虽然手动提示工程在可扩展性、适应性和跨模态对齐方面存在局限...
自适应思维图:统一链式、树式和图式结构的测试时自适应推理
Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures
ArXiv ID: 2502.05078作者: Tushar Pandey, Ara Ghukasyan, Oktay Goktas, Santosh Kumar Radha发布日期: 2025年2月7日
摘要Adaptive Graph of Thoughts (AGoT) 是一个动态的、基于图的推理框架,在测试时增强大语言模型(LLM)的推理能力。该框架递归地将复杂查询分解为结构化的子问题,形成一个由相互依赖的推理步骤组成的动态有向无环图(DAG)。与传统的 Chain-of-Thought、Tree of Thoughts 或 Graph of Thoughts 方法不同,AGo...
QuEST: 使用1比特权重和激活值的大语言模型稳定训练
QuEST: 使用1比特权重和激活值的大语言模型稳定训练论文概述本文是一篇关于大语言模型的研究论文,由 A 等90位研究者共同完成。
研究目标本研究的主要目标包括:
QuEST: 首个支持1比特权重和激活值训练的稳定量化感知训练方法
Trust梯度估计器,最小化量化梯度与真实全精度梯度之间的误差
Hadamard归一化和MSE最优拟合,实现精确的分布量化
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述QuEST通过两项关键创新实现稳定的1比特训练:(1) 使用Hadamard归一化改善权重/激活值分布的条件,然...
自适应思维图: 统一链、树和图结构的测试时自适应推理
自适应思维图: 统一链、树和图结构的测试时自适应推理论文概述本文是一篇关于推理能力的研究论文,由 Tushar Pandey 等4位研究者共同完成。
研究目标本研究的主要目标包括:
引入自适应思维图(AGoT),一个用于测试时推理的动态图基推理框架
将复杂查询递归分解为结构化子问题,形成有向无环图(DAG)
统一思维链、思维树和思维图范式的优势
研究背景当前挑战
性能优化:如何提升大型语言模型 (LLM)在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大型语言模型 (LLM)的性能和实用性。
核心方法方法概述AGoT通过测试时图构建采用动态自适应方法进行大型语言模型 (LLM)推理:(1) 递归分解 - 复杂查...
自监督提示优化(SPO):无需外部参考的成本高效框架
自监督提示优化(SPO):无需外部参考的成本高效框架论文概述本文是一篇关于提示工程的框架设计论文,由 J 等110位研究者共同完成。
研究目标本研究的主要目标包括:
SPO: 无需外部参考(真实标签/人类反馈)的自监督提示优化框架
成对输出比较方法,直接从大语言模型输出中获取评估信号
大语言模型评估器,通过输出比较评估任务需求的遵从度
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述SPO通过两阶段过程运作,无需外部参考:(1) 选择阶段使用大语言模型评估器评估的成对输出比较来识别优秀提示 - 关键洞察是提示质量...
自监督提示优化
自监督提示优化论文概述本文是一篇关于提示工程的优化方法论文,由 Jinyu Xiang 等8位研究者共同完成。
自监督提示优化(Self-Supervised Prompt Optimization, SPO)解决了现有提示优化方法的一个关键局限:严重依赖外部参考(真值或人类反馈),而这些在实际场景中通常不可用或成本高昂。SPO 引入了一个成本高效的框架,可以为封闭式和开放式任务发现有效的提示,而无需外部参考。通过观察到提示质量直接体现在大语言模型输出中,以及大语言模型能够有效评估任务需求遵循情况,SPO 纯粹从输出比较中获得优化信号。该方法在使用最优方法成本的仅1.1%-5.6%的情况下,实现了可比或更优的结果,并且只需要少至三个样本。
研究目标本研究的主要目标包括:
引入无参考提示优化,消除对真值或人类反馈的需求
实现极高的成本效率:仅为现有方法成本的1.1%-5.6%
适用于...
基于潜在推理的测试时计算扩展:循环深度方法
论文概述这项研究提出了一种全新的语言模型架构,通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同,该模型采用了循环块迭代的创新设计,能够在测试时展开至任意深度,从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数,在计算效率上达到相当于500亿参数传统模型的水平,且无需专门训练数据,可在小上下文窗口下工作。
论文信息:
发布时间:2025-02-07
作者:Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
研究方向:提示工程 (Prompt Engineerin...
揭秘大语言模型中的长链思维推理
Demystifying Long Chain-of-Thought Reasoning in LLMs
ArXiv ID: 2502.03373作者: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue发布日期: 2025-02-05
摘要扩展推理计算能够增强大语言模型(LLM)的推理能力,长链思维(CoT)使回溯和错误纠正等策略成为可能。本文系统研究了长链思维推理的机制,揭示了四个主要发现:(1)监督微调(SFT)简化训练并缓解强化学习中的奖励攻击问题;(2)推理能力随着训练和推理阶段计算量的增加而涌现;(3)扩展可验证的奖励信号对于强化学习解锁长链思维推理至关重要;(4)错误纠正等核心能力存在于基础模型中,但需要适当的训练才能激活。我们的发现为训练长形式推理的大语言模型提供了洞察,并展示了训练和推理时的计算...
图检索增强生成综述:定制化大语言模型的图检索增强生成
图检索增强生成综述:定制化大语言模型的图检索增强生成论文概述本文是一篇关于图检索增强生成的综述性研究论文,由 Qinggang Zhang 等8位研究者共同完成。
研究目标本研究的主要目标包括:
提供图检索增强生成(Graph-based Retrieval-Augmented Generation)范式的综合性综述
识别传统平面文本检索增强生成系统的三个关键局限
系统性地分析三个关键图检索增强生成创新:图结构化知识表示、高效的图检索、结构感知的知识集成
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述该综述系统性地分析了...
数学推理中开发过程奖励模型的经验教训
The Lessons of Developing Process Reward Models in Mathematical 推理论文概述本文是一篇关于推理能力的研究论文,由 Zhenru Zhang 等9位研究者共同完成。
This work from Alibaba provides critical insights into developing effective Process Reward Models (过程奖励模型s) for mathematical 推理 in 大型语言模型 (LLM)s. Through extensive experiments, it identifies key challenges in data annotation and evaluation, demonstrating that Monte Carlo estimation ...
基于图的检索增强生成(GraphRAG)
Retrieval-Augmented Generation with Graphs (GraphRAG)
ArXiv ID: 2501.00309作者: Haoyu Han, Yu Wang, Harry Shomer, and 15 other authors发布日期: 2025-01-08
摘要检索增强生成(RAG)已成为通过整合外部知识增强大语言模型的强大范式。传统RAG系统依赖于从非结构化文本进行基于向量的检索,而GraphRAG利用图结构数据通过节点和边编码大规模异构和关系信息。本综述对GraphRAG进行了全面考察,提出了一个整体框架,定义了包括查询处理器、检索器、组织器、生成器和数据源在内的关键组件。我们系统地回顾了针对不同领域定制的技术,并讨论了图构建、检索效率和与大语言模型集成方面的挑战。通过考察医疗、金融和电子商务等专业领域的实现,我们突出了图结构在捕获复杂关...
基于图结构的检索增强生成综述
基于图结构的检索增强生成综述
ArXiv ID: 2501.00309作者: Haoyu Han, Yu Wang, Harry Shomer, Kai Guo, Jiayuan Ding…发布日期: 2024-12-31分类: context-engineering评分: 4.5/5.0
摘要检索增强生成(RAG)技术通过从外部数据源检索相关信息来增强大语言模型(LLM)的能力,使其能够提供更准确、更新的知识。本综述论文系统地研究了基于图结构数据的RAG技术(GraphRAG),提出了一个包含查询处理器、检索器、组织器、生成器和数据源五大组件的全面框架。该综述覆盖了知识图谱、文档图、科学图谱、社交图等10个不同领域的GraphRAG技术,为研究者提供了跨学科的研究视角。
📊 GraphRAG:图结构时代的检索增强生成全景图在大语言模型(LLM)快速发展的今天,如何让A...
GReaTer: 推理梯度让小型语言模型成为强大的提示优化器
GReaTer: 推理梯度让小型语言模型成为强大的提示优化器论文概述本文是一篇关于提示工程的研究论文,由 S 等85位研究者共同完成。
研究目标本研究的主要目标包括:
GReaTer:使用任务损失梯度的新型基于梯度的提示优化方法
轻量级开源模型的自优化能力,无需依赖大型大语言模型
直接融合超越文本反馈的细粒度梯度信息
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述GReaTer 利用任务特定的损失梯度来指导提示优化,脱离了纯文本方法。关键创新在于计算任务性能相对于提示表示的梯度,实现直接的优化信号。这使得轻量级模型能够自...
GReaTer: 推理上的梯度使小型语言模型成为强大的提示优化器
GReaTer: 梯度 over 推理 Makes Smaller Language Models Strong Prompt Optimizers论文概述本文是一篇关于提示工程的研究论文,由 Sarkar Snigdha Sarathi Das 等6位研究者共同完成。
GReaTer introduces a novel prompt 优化technique that directly incorporates gradient information over task-specific 推理, enabling open-source lightweight language models to self-optimize prompts without dependence on costly closed-source 大型语言模型 (LLM)s. Unlike text ...
什么使上下文学习在数学推理中有效:理论分析
什么使上下文学习在数学推理中有效:理论分析论文概述本文是一篇关于推理能力的研究论文,由 Jiayu Liu 等6位研究者共同完成。
本文提供了首个关于上下文学习(In-Context Learning, ICL)在大语言模型数学推理中有效性的理论分析。虽然少样本示例有时会带来负面性能,其有效性仍不可靠,但这项工作证明了推理效能可以通过面向大语言模型的语义相似性和示例的推理稳定性来限定。基于这一理论基础,作者提出了 LMS3,一种示例选择方法,能够自适应地为不同大语言模型选择最相关的样本,并包含一种新颖的自动拒绝机制来过滤不合适的示例。该方法在多个数据集上实现了一致的改进,而现有方法在这些数据集上均已失败。
研究目标本研究的主要目标包括:
首次通过语义相似性和推理稳定性界定上下文学习推理效能的理论分析
证明理论框架适用于单样本和少样本场景
提出具有理论基础的 LMS3 示例选择方法
...
LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索
LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索论文概述本文是一篇关于图检索增强生成的研究论文,由 Yukun Cao 等5位研究者共同完成。
研究目标本研究的主要目标包括:
引入 LEGO-GraphRAG,一个模块化框架,将图检索增强生成分解为子图提取、路径过滤和路径精炼模块
提供系统性的算法分类和每个图检索增强生成模块的神经网络模型分类
识别影响图检索增强生成有效性的关键设计因素(图耦合度、计算成本)
研究背景当前挑战
性能优化:如何提升大语言模型在实际任务中的表现
效率提升:如何减少推理时间和计算资源消耗
可靠性保证:如何确保模型输出的稳定性和准确性
可扩展性:如何使方法能够应用到更多场景和任务
研究动机为了解决这些挑战,本研究提出了创新的方法和技术,旨在提升大语言模型的性能和实用性。
核心方法方法概述该论文提出了一个模块化框架,将图检索增强生成的...
LLM提示对决优化器:高效的无标注提示优化方法
LLM提示对决优化器:高效的无标注提示优化方法
ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang…发布日期: 2024-10-14分类: prompt-engineering评分: 3.8/5.0
摘要本文提出了提示对决优化器(PDO),这是一个样本高效的无标注提示优化框架。PDO将提示优化问题建模为对决老虎机(Dueling Bandit)问题,通过LLM评判器提供的成对偏好反馈进行优化。结合Double Thompson Sampling和Top-Performer引导变异策略,PDO在无需真实标注数据的情况下,在BIG-bench Hard和MS MARCO等基准上持续优于基线方法。
🎯 PDO:让提示优化摆脱标注数据的束缚核心问题...
过程奖励模型综述:从结果信号到大语言模型的过程监督
过程奖励模型综述:从结果信号到大语言模型的过程监督论文概述本文是一篇关于奖励模型的综述性研究论文,由 Congming Zheng 等3位研究者共同完成。
这篇综合性综述系统性地回顾了过程奖励模型(Process Reward Models,PRM),这是一种新兴范式,在步骤或轨迹级别而非仅在最终结果上评估和引导大语言模型推理。与仅评估最终答案的传统结果奖励模型(ORM)不同,过程奖励模型在整个推理过程中提供细粒度监督,能够更好地对齐复杂的多步骤任务。该综述涵盖了完整的过程奖励模型生命周期:(1) 通过人工标注、蒙特卡洛采样或大语言模型评判生成过程级监督数据,(2) 构建过程奖励模型架构(判别式 vs 生成式),(3) 将过程奖励模型应用于测试时扩展(通过最优N选择和搜索),(4) 在强化学习中使用过程奖励模型进行策略优化。该综述发表于2024年10月,及时地解决了在o1类推理模型时...
智能体上下文工程:自我进化的语言模型上下文系统
智能体上下文工程:自我进化的语言模型上下文系统
ArXiv ID: 2510.04618作者: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong…发布日期: 2024-10-06分类: context-engineering评分: 4.2/5.0
摘要本文提出了智能体上下文工程(ACE)框架,将上下文从静态的提示文本转变为可进化的”执行手册”。ACE通过生成、反思和策展三个步骤,让语言模型能够从执行反馈中自主学习和优化上下文,无需人工标注。该方法有效解决了上下文崩溃和简洁性偏见问题,在智能体任务上实现+10.6%性能提升,在金融任务上提升+8.6%,展现了上下文工程的新范式。
🤖 ACE:让上下文自己进化的智能体系统核心创新想象一下,如果LLM的上下文提示能够像生物进化一样,从每次...
图检索增强生成综述
图检索增强生成综述
ArXiv ID: 2408.08921作者: Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi…发布日期: 2024-08-15分类: context-engineering评分: 4.1/5.0
摘要本文提供了图检索增强生成(GraphRAG)方法的首个全面综述。将GraphRAG工作流形式化为三个阶段:基于图的索引(Graph-Based Indexing)、图引导检索(Graph-Guided Retrieval)和图增强生成(Graph-Enhanced Generation)。系统回顾了每个阶段的核心技术和训练方法,探讨了下游任务、应用领域和评估方法,并配套开源GitHub仓库供研究者参考。
📊 GraphRAG综述:首个系统性的图检索增强生成全景为什么需要GraphRAG?...
大语言模型在不同NLP任务中的提示工程方法综述
大语言模型在不同NLP任务中的提示工程方法综述论文概述本文是一篇关于提示工程的综述性研究论文,由 Shubham Vatsal 等2位研究者共同完成。
This 综合性 综述 examines 44 research papers covering 39 different prompting methods applied across 29 NLP tasks. The paper provides a 系统性 taxonomy of 提示工程 techniques and evaluates their performance across various datasets and 大语言模型s, offering practical guidance for researchers and practitioners in selecting appropriate prom...
大型语言模型推理: 综述
推理 with Large Language Models, a 综述论文概述本文是一篇关于推理能力的综述性研究论文,由 Aske Plaat 等6位研究者共同完成。
研究目标本研究的主要目标包括:
综合性 综述 of prompt-based 推理 with 大型语言模型 (LLM)s covering rapid field expansion
Introduces taxonomy identifying different ways to generate, evaluate, and control multi-step 推理
Provides in-depth coverage of core approaches: Chain-of-Thought, Tree of Thoughts, and related methods
研究背景当前挑战
性能优化:如何提升大型...
优化多阶段语言模型程序的指令与示例
优化多阶段语言模型程序的指令与示例论文概述本文是一篇关于大语言模型的研究论文,由 Krista Opsahl-Ong 等7位研究者共同完成。
本文解决了优化复杂多阶段语言模型程序的挑战,在这些程序中多个语言模型调用被串联在一起。现有方法孤立地优化单个提示,而本研究引入了 MIPRO 算法,可以联合优化程序中所有模块的自由格式指令和少样本示例。MIPRO 对优化问题进行因式分解,并引入了用于提出任务驱动指令和跨模块信用分配的新颖策略。使用一流的开源模型(Llama-3-8B),MIPRO 在七个不同多阶段语言模型程序中的五个上优于基线优化器,准确率最高提升13%。
研究目标本研究的主要目标包括:
引入 MIPRO 算法用于端到端优化多阶段语言模型程序
联合优化指令和示例而非分别处理
开发了程序感知和数据感知技术用于提出有效指令
研究背景当前挑战
参数优化:如何自动化地优化模型参数和...
通过自动化过程监督改进语言模型的数学推理能力
通过自动化过程监督改进语言模型的数学推理能力论文概述本文是一篇关于推理能力的研究论文,由 Liangchen Luo 等11位研究者共同完成。
这篇 Google Research 论文介绍了 OmegaPRM,一种新颖的蒙特卡洛树搜索(MCTS)算法,无需人工标注即可自动收集高质量的过程监督数据用于训练过程奖励模型(PRM)。与仅验证最终答案的结果奖励模型不同,OmegaPRM 通过使用分治算法识别推理链中的第一个错误来提供步骤级监督。收集了超过150万个过程监督标注后,生成的 PRM 显著改进了数学推理:Gemini Pro 在 MATH500 上的准确率从51%提升到69.4%(18.4个百分点),Gemma2 27B 在 MATH500 上从42.3%提升到58.2%。该工作发表于2024年6月,证明自动化过程监督可以以极低的成本匹配或超越人工标注质量,使过程奖励模型能够大规...
无需提示的链式思维推理
Chain-of-Thought Reasoning Without Prompting
ArXiv ID: 2402.10200作者: Xuezhi Wang, Denny Zhou发布日期: 2024-02-15
摘要大语言模型(LLM)能否在没有链式思维(CoT)等提示技术的情况下有效推理?本文揭示了一个令人惊讶的发现:CoT推理路径本质上就存在于大语言模型中,只需改变解码过程就能引出,无需任何提示。与选择最可能下一个标记的标准贪婪解码不同,我们研究了top-k序列中的替代标记。我们的实验表明,这些替代路径经常包含CoT风格的推理,即使模型没有被明确提示进行逐步推理。我们展示了替代序列中CoT路径的存在与模型置信度相关,并且模型通常具有在默认贪婪输出中未表达的内在推理能力。这一发现具有重要意义:它表明大语言模型拥有可通过解码策略而非提示工程访问的潜在推理能力,并提供了一种在没...
PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样
PROMST:多步骤任务中的提示优化——整合人类反馈与启发式采样论文概述本文是一篇关于提示工程的优化方法论文,由 Yongchao Chen 等6位研究者共同完成。
PROMST 解决了多步骤智能体任务提示优化的独特挑战,在这些任务中,提示更加复杂,单个步骤的影响难以评估,且用户偏好各异。与单步骤任务优化器不同,PROMST 融合了人类设计的反馈规则(自评规则)以自动提供直接的改进建议,并使用学习到的启发式模型来高效预测提示性能以进行采样。该方法在11个代表性多步骤任务上显著优于人工设计的提示和其他优化方法,在五种不同的大语言模型上平均提升10.6%-29.3%。
研究目标本研究的主要目标包括:
引入专门为多步骤任务提示优化设计的 PROMST 框架
开发自评规则机制,将人类反馈规则融入自动化优化
实现对比过滤,使用学习到的启发式方法高效采样高质量提示候选
研究背景当前挑战
提示...
从错误中进行上下文原理学习
从错误中进行上下文原理学习论文概述本文是一篇关于大型语言模型 (LLM)的研究论文,由 Tianjun Zhang 等8位研究者共同完成。
LEAP(学习原理)引入了一种新颖的上下文学习 (In-Context Learning)范式,从错误中学习而非仅从正确示例学习。通过有意诱导错误、反思错误并推导出明确的任务特定原理,LEAP 显著提升了大型语言模型 (LLM)在推理任务上的性能。这种方法模仿了人类学习,即我们往往从错误中学到的比从成功中学到的更多。
研究目标本研究的主要目标包括:
引入 LEAP,一种从诱导错误中学习显式原理的新型上下文学习 (In-Context Learning)范式
证明从错误中学习比仅从正确示例学习更有效
提出三阶段流程:诱导错误、推导原理、将原理应用于新查询
研究背景当前挑战
推理能力不足:模型在复杂推理任务上表现欠佳
多步推理困难:难以处理需要多...
基于意图的提示校准:通过合成边界案例增强提示优化
论文概述基于意图的提示校准引入了一种新的自动提示工程方法,解决了需要高质量基准数据集的挑战,而这些数据集在许多现实用例中难以获取且成本高昂。该方法使用迭代校准过程,联合生成边界用例的合成数据并根据此生成的数据集优化提示。通过在优化过程中创建边界案例而非预先需要大量标注数据,系统可以优化提示以更好地与用户意图对齐。该方法在有限数量的标注样本下优于最先进的方法,展示了强大的实用价值。
论文信息:
发布时间:2024-02-05
作者:Elad Levi, Eli Brosh, Matan Friedmann
机构:IBM Research
研究方向:提示工程, 大型语言模型推理
核心技术:提示优化
研究背景自动提示工程通常需要大量高质量的标注数据,这在实际应用中往往难以获取。本研究针对以下问题展开:
现有问题
自动提示优化需要大量高质量基准数据
标注数据获取成本高昂且耗时
现有方法难...
大语言模型提示工程系统性综述:技术与应用
大语言模型提示工程系统性综述:技术与应用论文概述本文是一篇关于提示工程的综述性研究论文,由 Pranab Sahoo 等6位研究者共同完成。
This 综合性 综述 provides a structured overview of recent advancements in 提示工程 for 大语言模型 (大语言模型s) and vision-language models (VLMs). It addresses the gap in 系统性 organization by categorizing approaches by application area, providing detailed summaries of prompting methodologies, models, datasets, and creating a taxonomy of techniq...
大型语言模型是好的提示优化器吗?
论文概述这项批判性研究调查了基于大型语言模型的自动提示优化背后的实际机制,揭示了大型语言模型优化器运作方式的重大局限性。与假设大型语言模型真正反思错误并相应改进提示的假设相反,研究发现:(1)大型语言模型优化器难以识别错误的真正原因,往往受先验知识偏见影响而非实际分析错误;(2)即使反思在语义上有效,大型语言模型也经常由于目标模型行为的不可预测性而无法在单次优化步骤中生成适当的提示。基于这些观察,作者提出向”自动行为优化”范式转变,以更可控的方式直接优化目标模型行为。
论文信息:
发布时间:2024-02-03
作者:Ruotian Ma, Xiaolei Wang, Xin Zhou等
机构:复旦大学, Google
研究方向:提示工程, 大型语言模型推理
核心技术:提示优化分析
研究背景自动提示优化被认为是提升大型语言模型性能的重要方向,但其实际工作机制和局限性尚未得到充分研...
元提示:通过任务无关的脚手架增强语言模型
论文概述这项斯坦福大学/OpenAI的合作研究引入了元提示,一种有效的脚手架技术,将单个语言模型转变为多方面的指挥者。该方法使用高层指令引导语言模型将复杂任务分解为较小的子任务,每个子任务由同一语言模型的不同”专家”实例处理,每个实例在特定的定制指令下运行。
论文信息:
发布时间:2024-01-23
作者:Mirac Suzgun, Adam Tauman Kalai
机构:斯坦福大学, OpenAI
研究方向:提示工程, 大型语言模型推理
核心技术:元提示
研究背景大型语言模型在各类任务中展现出强大的能力,但在处理复杂任务时,单一提示往往难以充分发挥模型潜力。本研究针对以下问题展开:
现有问题
单一提示难以处理复杂的多步骤任务
缺乏系统化的任务分解和协调机制
现有方法需要针对特定任务设计专门的脚手架
研究动机本研究旨在开发一种任务无关的脚手架技术,通过元提示使单个...
PRewrite:基于强化学习的提示重写
论文概述PRewrite针对人工提示工程耗时且效果不佳的问题,引入了一种基于强化学习的自动化工具,能够将草稿提示重写为高效提示。与人工试错或僵化的基于模板的方法不同,PRewrite使用强化学习在大型动作空间中实现端到端优化,生成人类可读且自我解释的提示。从人工起草的初始提示开始使重写过程更加引导化和高效。在多样化数据集上的实验表明,PRewrite生成的提示不仅优于专业制作的提示,还超越了其他自动化方法生成的提示。
论文信息:
发布时间:2024-01-16
作者:Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang等
机构:Google, 密歇根大学
研究方向:提示工程, 大型语言模型推理
核心技术:提示优化
研究背景大型语言模型在各类任务中展现出强大的能力,但提示工程仍然是一个耗时且需要专业知识的过程。本研究针对以下问题展开:
...
AI 系统的元提示
论文概述这项来自清华大学的工作引入了元提示(Meta Prompting, MP),这是一个具有理论基础的框架,通过关注任务的形式结构而非特定内容的示例来提升大型语言模型推理。基于类型理论和范畴论,MP 提供了指导推理过程的结构化模板,仅使用单个零样本元提示就实现了最先进的结果。
论文信息:
发布时间:2023-11-20
作者:Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:元提示(Meta-Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的...
提示工程一个提示工程师
论文概述这项工作通过构建元提示来研究”提示工程一个提示工程师”,这些元提示更有效地引导大型语言模型执行自动提示工程。提出的 PE2 方法引入了关键组件,如逐步推理模板和上下文规范,以及优化概念的语言化对应物(批量大小、步长、动量),以改进自动提示工程性能。
论文信息:
发布时间:2023-11-09
作者:Qinyuan Ye, Maxamed Axmed, Reid Pryzant等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:元提示(Meta-Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工程技术,提升大型语言模型...
大型语言模型作为类比推理器
论文概述受人类类比推理的启发,本文介绍了类比提示(Analogical Prompting),这是一种新颖的方法,提示大型语言模型在解决问题之前自我生成相关的范例和知识。与需要手动制作示例的传统 CoT 不同,类比提示使大型语言模型能够从其内部知识中提取以创建针对问题的演示,无需标注的范例即可实现卓越性能。
论文信息:
发布时间:2023-10-03
作者:Michihiro Yasunaga, Xinyun Chen, Yujia Li等
机构:Google DeepMind,斯坦福大学
研究方向:提示工程,大型语言模型推理
核心技术:类比推理(Analogical Reasoning)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需...
大型语言模型作为优化器
论文概述这篇里程碑式论文介绍了通过提示优化(Optimization by PROmpting, OPRO),这是一种利用大型语言模型作为各种任务优化器的突破性范式。与传统的基于导数的优化不同,OPRO 使用自然语言描述优化任务,并根据先前评估的候选项迭代生成新解决方案。该方法在提示优化上展示了显著的有效性,其中 OPRO 优化的提示在 GSM8K 上优于人工设计的提示最多 8%,在 Big-Bench Hard 任务上优于最多 50%。这项工作在 Hugging Face 上获得了 77 个点赞,表明了强大的社区认可。
论文信息:
发布时间:2023-09-07
作者:Chengrun Yang, Xuezhi Wang, Yifeng Lu等
机构:Google DeepMind
研究方向:提示工程,大型语言模型推理
核心技术:提示优化(Prompt Optimization)...
RLAIF 对比 RLHF:使用 AI 反馈扩展人类反馈强化学习
论文概述这篇 Google Research 论文提供了基于 AI 反馈的强化学习(RLAIF)与传统 RLHF 之间的首次全面实证比较,证明 AI 生成的偏好标签可以以大幅降低的成本匹配人类反馈质量。在三个任务(摘要、有帮助的对话、无害对话)中,RLAIF 实现了与 RLHF 相当的性能,人类评估者对两者同样偏好(约 70% 优于监督基线)。关键创新是使用现成的大型语言模型生成偏好标签,而不是昂贵的人工标注,并引入了直接 RLAIF(d-RLAIF),该方法在 RL 期间直接从大型语言模型获取奖励,无需训练单独的奖励模型,实现了卓越的性能。该工作发表于 ICML 2024,验证了 RLAIF 作为 RLHF 的可扩展替代方案,将标注成本降低了 10 倍以上,同时保持对齐质量。
论文信息:
发布时间:2023-09-01
作者:Harrison Lee, Samrat Phatal...
思维图谱:用大型语言模型解决复杂问题
论文概述思维图谱(Graph of Thoughts, GoT)是一个突破性框架,将大型语言模型推理从链式(CoT)和树式(ToT)结构扩展到任意图结构。GoT 允许大型语言模型将生成的信息建模为图,其中信息单元(”大型语言模型思维”)是顶点,边表示依赖关系。这种灵活的结构能够处理需要复杂信息聚合、回溯和循环依赖的问题。实验表明,GoT 显著优于现有方法,在排序任务上实现了 62% 的质量改进,同时相比 ToT 降低了超过 31% 的成本。
论文信息:
发布时间:2023-08-18
作者:Maciej Besta, Nils Blach, Ales Kubicek等
机构:苏黎世联邦理工学院,雅盖隆大学
研究方向:提示工程,大型语言模型推理
核心技术:思维图谱(Graph of Thoughts)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进...
思维骨架:提示大型语言模型进行高效并行生成
论文概述思维骨架(Skeleton-of-Thought, SoT)是清华大学和微软研究院提出的一种创新推理优化技术,通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架(大纲),然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估,SoT 实现了高达 2.39 倍的加速,同时保持或提高答案质量。该论文发表于 ICLR 2024,SoT 展示了一种以数据为中心的推理效率方法,将大型语言模型视为黑盒,并适用于任何现成的模型,包括基于 API 的服务。
论文信息:
发布时间:2023-07-28
作者:Xuefei Ning, Zinan Lin, Zixuan Zhou等
机构:清华大学...
视觉-语言基础模型的提示工程系统综述
论文概述这篇来自牛津大学等机构的综合性综述系统地考察了三种主要类型的视觉-语言基础模型的提示工程技术:多模态到文本生成(如 Flamingo)、图像-文本匹配(如 CLIP)和文本到图像生成(如 Stable Diffusion)。该工作首次系统地概述了视觉领域的提示方法、应用和责任考虑。
论文信息:
发布时间:2023-07-24
作者:Jindong Gu, Zhen Han, Shuo Chen等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:视觉提示(Visual Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工...
提示空间:优化大型语言模型的少样本推理成功
论文概述本文提出了提示空间(Prompt Space),这是一种提供稳健理论框架来选择有效提示的新方法。它利用文本嵌入和矩阵分解来获取基向量,并构建一个用于表示所有提示的空间。提示空间在十个推理基准测试上显著优于最先进的范式,甚至在不使用思维链或”让我们逐步思考”提示的情况下也是如此。
论文信息:
发布时间:2023-06-06
作者:Fobo Shi, Peijun Qing, Dong Yang等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:提示空间(Prompt Space)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工程技术,提...
通用自适应提示
论文概述通用自适应提示(Universal Self-Adaptive Prompting, USP)通过实现自动提示设计的有效零样本学习来解决 Transformers 的架构限制。与依赖”一个提示适用所有”策略的传统方法不同,USP 对任务进行分类,并选择任务适当的查询和模型生成的响应作为伪示例,以完全自动化的方式将上下文学习泛化到零样本设置。
论文信息:
发布时间:2023-05-24
作者:Xingchen Wan, Ruoxi Sun, Hootan Nakhost等
机构:Google Research
研究方向:提示工程,大型语言模型推理
核心技术:零样本学习(Zero Shot Learning)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上...
QLoRA:量化大型语言模型的高效微调
论文概述QLoRA 是华盛顿大学提出的一项里程碑式量化微调技术,能够在消费级硬件上高效微调大规模语言模型。关键创新在于结合了三项技术:(1)针对正态分布权重优化的 4 位 NormalFloat(NF4)量化,(2)双重量化以减少量化常数的内存占用,(3)使用 NVIDIA 统一内存的分页优化器来处理内存峰值。QLoRA 能够在单个 48GB GPU 上微调 650 亿参数模型,同时保持完整的 16 位微调性能。生成的 Guanaco 模型系列在 Vicuna 基准测试上达到了 ChatGPT 性能的 99.3%。该论文发表于 NeurIPS 2023,获得超过 2,800 次引用,QLoRA 已成为可访问的大型语言模型微调的事实标准,也是 bitsandbytes 库的基础。
论文信息:
发布时间:2023-05-23
作者:Tim Dettmers, Artidoro Pagn...
思维树:大型语言模型的审慎问题解决
论文概述思维树(Tree of Thoughts, ToT)是一个突破性框架,它通过允许语言模型通过树结构搜索探索多条推理路径,从而推广了思维链(Chain of Thought)方法。与 CoT 的线性逐token生成不同,ToT 允许大型语言模型通过考虑多条不同的推理路径、自我评估选择,以及在必要时回溯来进行审慎的决策制定,以做出全局性选择。这使得能够解决需要探索、战略性前瞻或初始决策起关键作用的复杂任务。
论文信息:
发布时间:2023-05-17
作者:Shunyu Yao, Dian Yu, Jeffrey Zhao等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:思维树(Tree of Thoughts)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方...
PyTorch FSDP: 全分片数据并行的扩展经验
论文概述PyTorch FSDP(全分片数据并行,Fully Sharded Data Parallel)是PyTorch团队提供的工业级分布式训练解决方案,通过与PyTorch核心基础设施的深度协同设计,实现了全分片数据并行。系统在GPU之间分片模型参数、梯度和优化器状态,同时保持PyTorch编程接口。该系统已成为大规模模型训练的可访问解决方案,提供与DDP相当的性能,同时支持显著更大的模型。
论文信息:
发布时间:2023-04-21
作者:Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo等
机构:Meta (Facebook) AI
研究方向:分布式训练、模型扩展
核心技术:全分片数据并行 (Fully Sharded Data Parallel)
研究背景随着模型规模不断增长,分布式训练成为必需。本研究针对以下问题展开:
现有问...
Self-Refine: 通过自我反馈进行迭代优化
论文概述Self-Refine是来自CMU、AI2和顶级研究机构的一个有影响力的迭代优化框架,使大型语言模型能够通过自我生成的反馈自主改进其输出。关键洞察是,就像人类一样,大型语言模型很少在第一次尝试时产生最佳输出,但可以批评和优化自己的工作。三步过程 - (1) 生成初始输出,(2) 提供自我反馈,(3) 基于反馈进行优化 - 不需要额外的训练、监督数据或强化学习。在7个不同任务(对话、数学推理、代码生成、情感反转、首字母缩略词生成、约束生成、评论改写)上使用GPT-3.5、ChatGPT和GPT-4进行评估,Self-Refine平均提高约20%的性能,人类强烈偏好其输出。该成果发表于NeurIPS 2023,影响了众多关于大型语言模型自我改进和批评的后续工作。
论文信息:
发布时间:2023-03-30
作者:Aman Madaan, Niket Tandon, Prakha...
从标注数据自动增强和选择思维链提示
论文概述Automate-CoT解决了手动思维链提示工程的挑战,通过从标注的训练数据自动生成和选择高质量的理性推理链。它使用机器生成的理性推理配合方差减少的策略梯度优化来选择最优的提示组合,消除了对人工标注推理链的需求,同时达到最先进的性能。
论文信息:
发布时间:2023-02-24
作者:KaShun Shum, Shizhe Diao, Tong Zhang
机构:Hong Kong University of Science and Technology, University of Illinois Urbana-Champaign
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:自动思维链 (Automatic CoT)
研究背景思维链提示在推理任务上表现出色,但手工制作高质量的推理链需要大量...
提示模式目录:增强ChatGPT的提示工程
论文概述本文引入了一种基于模式的提示工程方法,提出了一个类似于软件设计模式的提示模式目录。这些模式为大型语言模型交互中的常见问题提供可重用的解决方案,提供了一个系统化的框架来记录、应用和组合提示,以改善输出质量和交互效果。
论文信息:
发布时间:2023-02-21
作者:Jules White, Quchen Fu, Sam Hays等
机构:范德堡大学
研究方向:提示工程, 大型语言模型推理
核心技术:提示模式
研究背景大型语言模型在各类任务中展现出强大的能力,但有效的提示工程仍然是一项需要专业知识和经验的技能。本研究针对以下问题展开:
现有问题
提示工程缺乏系统化的方法论
难以总结和传播有效的提示技巧
缺乏可重用的提示解决方案
研究动机本研究旨在借鉴软件工程中的设计模式思想,为提示工程建立系统化的模式目录,特别关注提示工程、提示模式、软件模式等关键技术。
核心方法方法概述...
大型语言模型是推理教师
论文概述本文提出了Fine-tune-CoT(思维链微调)方法,使用大型语言模型作为推理教师,使较小的模型具备复杂推理能力。通过从超大型教师模型生成推理样本来微调较小的模型,该方法将模型规模要求降低了几个数量级,同时实现了显著的推理能力。
论文信息:
发布时间:2022-12-20
作者:Namgyu Ho, Laura Schmid, Se-Young Yun
机构:KAIST
研究方向:提示工程, 大型语言模型推理
核心技术:知识蒸馏
研究背景大型语言模型在复杂推理任务上展现出强大的能力,但这些能力通常需要超过100B参数的模型才能涌现。本研究针对以下问题展开:
现有问题
复杂推理能力主要存在于超大规模模型中
小型模型在推理任务上表现不佳
缺乏将大模型推理能力迁移到小模型的有效方法
研究动机本研究旨在探索如何将大型语言模型的推理能力蒸馏到小型模型中,使得小型模型也能具备复杂...
宪法AI:基于AI反馈实现无害性
论文概述宪法AI(CAI)是Anthropic提出的一种突破性对齐方法,通过自我改进和最少的人工监督来训练无害的AI助手。该方法使用”基于AI反馈的强化学习”(RLAIF)而非人工标注来判断有害性,由一组原则(即”宪法”)进行指导。CAI结合了监督学习阶段(模型批评和修订自己的输出)和强化学习阶段(AI评估训练偏好模型)。这种方法产生了无害但不回避的助手,能够通过解释反对意见来深思熟虑地处理有害查询,在显著降低人工标注成本的同时实现了卓越的对齐效果。
论文信息:
发布时间:2022-12-15
作者:Yuntao Bai, Saurav Kadavath, Sandipan Kundu等
机构:Anthropic
研究方向:提示工程, 大型语言模型推理
核心技术:宪法AI对齐
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何确保模型输出的安全性和对齐性仍是一个重...
大型语言模型是人类级别的提示工程师
论文概述这项突破性工作引入了自动提示工程师(Automatic Prompt Engineer, APE)框架,能够自动为大型语言模型生成和选择指令。APE将指令视为程序,通过搜索LLM提议的候选指令进行优化,并在另一个LLM上评估零样本性能来选择最佳指令。该方法在24个NLP任务中的19个上超过了人工编写的提示,标志着自动化提示工程过程的重大进展。
论文信息:
发布时间:2022-11-03
作者:Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han等
机构:University of Montreal, University of Oxford, UC Berkeley等
研究方向:提示工程、LLM推理
核心技术:自动提示工程(APE)
研究背景提示工程通常需要大量人工尝试和专业知识,这限制了其应用范围和效率。本研究针对以下问题展开:
...
ReAct: 在语言模型中协同推理与行动
论文概述ReAct引入了一种范式,其中大型语言模型以交错的方式生成推理轨迹和特定任务的行动,在两种能力之间创造协同效应。推理轨迹帮助模型推导、跟踪和更新行动计划,同时处理异常情况,而行动允许它与外部源(如知识库或环境)交互以收集额外信息。这种方法克服了纯推理或纯行动方法的局限性,在可解释性和可信度方面取得了显著改进。
论文信息:
发布时间:2022-10-06
作者:Shunyu Yao, Jeffrey Zhao, Dian Yu等
机构:Princeton University, Google Research
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:推理与行动协同 (ReAct)
研究背景大型语言模型在各类任务中展现出强大的能力,但纯推理方法容易产生幻觉,而纯行动方法缺乏规划能力。本研究针对...
分解式提示:解决复杂任务的模块化方法
论文概述这项来自Allen AI的工作引入了分解式提示(Decomposed Prompting),一种通过提示将复杂任务分解为更简单子任务的模块化方法。每个子任务被委托给一个专门的基于提示的LLM库,允许进行优化、进一步分解,或用更有效的解决方案(包括训练模型或符号函数)替换。
论文信息:
发布时间:2022-10-05
作者:Tushar Khot, Harsh Trivedi, Matthew Finlayson等
机构:Allen Institute for AI
研究方向:提示工程、LLM推理
核心技术:任务分解(Task Decomposition)
研究背景大型语言模型在处理复杂任务时往往力不从心,单一提示难以涵盖所有必要的推理步骤。本研究针对以下问题展开:
现有问题
复杂任务难以用单一提示有效处理
不同子任务需要不同的专业知识和推理策略
缺乏系统化的任务分解和模块...
从简到繁提示使大型语言模型能够进行复杂推理
论文概述从简到繁提示 (Least-to-Most Prompting) 是一种创新的提示工程策略,通过将复杂问题分解为一系列更简单的子问题并顺序解决它们,实现了强大的组合泛化能力。受教育心理学”由简到繁”学习策略的启发,这种方法使大型语言模型能够解决比训练示例更复杂的问题。实验表明,使用GPT-3 code-davinci-002配合从简到繁提示,在SCAN组合泛化基准测试的任何分割上都能达到至少99%的准确率(仅用14个示例),而标准思维链提示只能达到16%。
论文信息:
发布时间:2022-05-21
作者:Denny Zhou, Nathanael Schärli, Le Hou等
机构:Google Research, Google Brain
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:从简...
自洽性改进语言模型中的思维链推理
论文概述本论文提出了自洽性 (Self-Consistency),这是一种新颖的解码策略,通过替换朴素的贪婪解码显著改进思维链提示。自洽性不是只采用贪婪路径,而是采样一组多样化的推理路径,并通过对采样路径进行边缘化来选择最一致的答案。这利用了一个直觉:复杂的推理问题通常允许多种不同的思考方式,但都导向唯一的正确答案,在多个推理基准测试中实现了显著的性能提升。
论文信息:
发布时间:2022-03-21
作者:Xuezhi Wang, Jason Wei, Dale Schuurmans等
机构:Google Research
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:自洽性 (Self-Consistency)
研究背景大型语言模型在思维链提示下展现出强大的推理能力,但单次生成的结果可能不稳定。本研...
思维链提示激发大型语言模型的推理能力
论文概述思维链 (Chain-of-Thought, CoT) 提示是一项突破性技术,通过生成中间推理步骤显著提高大型语言模型的推理能力。本论文展示了如何通过简单的少样本提示配合推理链,在算术、常识和符号推理任务上实现突破性性能,而无需任何模型微调。CoT已成为现代大型语言模型应用中的基础技术之一。
论文信息:
发布时间:2022-01-28
作者:Jason Wei, Xuezhi Wang, Dale Schuurmans等
机构:Google Research, Google Brain
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:思维链 (Chain-of-Thought)
研究背景大型语言模型在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
...
展示你的工作:使用语言模型草稿本进行中间计算
论文概述这项来自Google Research的开创性工作引入了”草稿本”(scratchpad)技术,通过训练transformer输出中间计算步骤,极大地提高了它们执行复杂多步骤计算的能力。通过要求语言模型”逐步”展示其工作过程,该方法使LM能够解决从长加法到执行任意程序等以前难以处理的任务。
论文信息:
发布时间:2021-11-30
作者:Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari等
机构:Google Research
研究方向:提示工程、LLM推理
核心技术:思维链(Chain-of-Thought)
研究背景语言模型在单步预测任务上表现出色,但在需要多步计算的复杂任务上遇到困难。本研究针对以下问题展开:
现有问题
语言模型难以执行需要多步骤的复杂计算
模型的中间推理过程不可见,难以调试和理解
长序列计算容易出错...
微调后的语言模型是零样本学习者(FLAN)
论文概述FLAN(Finetuned Language Model for Instruction Following,遵循指令的微调语言模型)是指令微调领域的开创性工作。这篇论文证明,通过自然语言指令描述的多任务微调可以显著提高在未见任务上的零样本性能。通过在60+个NLP任务上进行指令微调,FLAN 137B在25个评估任务中的20个上超过了零样本175B GPT-3。这项工作证明了指令微调是将语言模型转变为更通用任务执行器的强大范式。
论文信息:
发布时间:2021-09-03
作者:Jason Wei, Maarten Bosma, Vincent Y. Zhao等
机构:Google Research, Google Brain
研究方向:提示工程、LLM推理
核心技术:指令微调(Instruction Tuning)
研究背景大型语言模型(LLM)虽然强大,但在零样本...
在GPU集群上使用Megatron-LM高效训练大规模语言模型
论文概述Megatron-LM是来自NVIDIA、微软和顶尖大学的里程碑式分布式训练系统,能够在数千个GPU上高效训练万亿参数语言模型。其核心创新是三维并行(3D Parallelism) - 组合张量并行(节点内)、流水线并行(节点间)和数据并行,以高效地在GPU集群上分区大规模模型。Megatron在3,072个A100 GPU上训练1万亿参数模型时达到502 petaFLOPs,实现了理论峰值吞吐量的52%,并具有近乎完美的线性扩展性。新颖的交错流水线调度相比传统方法提升了10%以上的吞吐量。该工作发表于SC21(超级计算2021)并获得最佳论文奖,Megatron-LM已成为大规模LLM训练的事实标准,被GPT-3、Turing-NLG等众多研究项目采用。
论文信息:
发布时间:2021-04-09
作者:Deepak Narayanan, Mohammad Shoeybi...
ZeRO-Offload: 将十亿规模模型训练平民化
论文概述ZeRO-Offload是微软研究院提出的突破性内存优化技术,通过在单个GPU上实现130亿以上参数模型的训练,将十亿规模模型训练平民化 - 相比原生PyTorch提升了10倍。关键创新是战略性地将优化器状态和梯度卸载到CPU内存,同时将计算密集型的前向/反向传播保持在GPU上,使用NVIDIA统一内存实现自动CPU-GPU数据移动。ZeRO-Offload在V100上为100亿参数模型实现了40 TFlops吞吐量(相比PyTorch训练14亿参数模型的30 TFlops),可近线性扩展到128个GPU,并在与模型并行结合时可在单个DGX-2节点上训练700亿以上参数的模型。该技术于2021年在USENIX ATC发表,并集成到微软DeepSpeed中,使大规模模型训练对没有大规模GPU集群的研究人员和从业者来说变得触手可及。
论文信息:
发布时间:2021-0...
语言模型是少样本学习者(GPT-3)
论文概述GPT-3是一个拥有1750亿参数的自回归语言模型,比之前任何非稀疏语言模型大10倍。这篇突破性论文证明了足够大规模的语言模型可以仅通过文本交互(少样本示例)在各种NLP任务上实现强大性能,无需任何梯度更新或微调 (Fine-Tuning)。GPT-3引入了上下文学习 (In-Context Learning) 的概念,从根本上改变了我们对语言模型能力的理解,开启了大型语言模型时代。
论文信息:
发布时间:2020-05-28
作者:Tom B. Brown, Benjamin Mann, Nick Ryder等
机构:OpenAI
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:上下文学习 (In Context Learning)
研究背景大型语言模型在各类任务中展现出强大的能力,但传统方法通...
检索增强生成:用于知识密集型NLP任务
论文概述检索增强生成 (Retrieval-Augmented Generation, RAG) 是一个突破性的框架,它结合了预训练的参数化记忆(序列到序列模型)和非参数化记忆(维基百科的密集向量索引),专门用于知识密集型NLP任务。RAG模型使用预训练的神经检索器访问维基百科,然后将检索到的文档作为上下文传递给生成器,产生更具体、更多样化、更符合事实的输出。这项工作在开放域问答任务上达到了最先进水平,并证明了检索增强模型比纯参数化模型产生更可靠和可解释的输出。
论文信息:
发布时间:2020-05-22
作者:Patrick Lewis, Ethan Perez, Aleksandra Piktus等
机构:Facebook AI Research, University College London, New York University
研究方向:提示工程 (Prompt ...