COSTAR-A:增强LLM在视角问题上表现的提示框架

Posted on 十月 14, 2025

COSTAR-A:增强LLM在视角问题上表现的提示框架论文信息标题: COSTAR-A: A prompting framework for enhancing Large Language Model performance on Point-of-View questions 作者: Nzubechukwu C. Ohalete, Kevin B. Gittner, Lauren M. Matheny 发布日期: 2025-10-14 ArXiv链接: https://arxiv.org/abs/2510.12637 核心概述大型语言模型(LLM)对提示设计高度敏感,制定优化的提示技术对于生成一致的高质量输出至关重要。本研究引入COSTAR-A,一种增强现有COSTAR方法的新型提示工程框架。该框架特别针对视角(Point-of-View)问题进行了优化,这类问题要求模型从特...

直接偏好优化的主动学习

Posted on 三月 3, 2025

直接偏好优化的主动学习论文概述本文是一篇关于大语言模型的优化方法论文，由 B 等89位研究者共同完成。研究目标本研究的主要目标包括：适用于在线和离线设置的直接偏好优化新型主动学习框架在神经网络最后一层线性化直接偏好优化目标以实现高效计算采用 D-最优设计方法选择最具信息量的偏好反馈研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述该方法在神经网络表示的最后一层线性化直接偏好优化目标，使得能够计算偏好反馈收集的 D-最优设计。这个数学框架允许原则性地选择最具信息量的反馈对。对于在线设置，算法主动选择向人类评估者呈现哪...

自监督提示优化

Posted on 二月 7, 2025

自监督提示优化论文概述本文是一篇关于提示工程的优化方法论文，由 Jinyu Xiang 等8位研究者共同完成。自监督提示优化（Self-Supervised Prompt Optimization, SPO）解决了现有提示优化方法的一个关键局限：严重依赖外部参考（真值或人类反馈），而这些在实际场景中通常不可用或成本高昂。SPO 引入了一个成本高效的框架，可以为封闭式和开放式任务发现有效的提示，而无需外部参考。通过观察到提示质量直接体现在大语言模型输出中，以及大语言模型能够有效评估任务需求遵循情况，SPO 纯粹从输出比较中获得优化信号。该方法在使用最优方法成本的仅1.1%-5.6%的情况下，实现了可比或更优的结果，并且只需要少至三个样本。研究目标本研究的主要目标包括：引入无参考提示优化，消除对真值或人类反馈的需求实现极高的成本效率：仅为现有方法成本的1.1%-5.6% 适用于...

图检索增强生成综述：定制化大语言模型的图检索增强生成

Posted on 一月 21, 2025

图检索增强生成综述：定制化大语言模型的图检索增强生成论文概述本文是一篇关于图检索增强生成的综述性研究论文，由 Qinggang Zhang 等8位研究者共同完成。研究目标本研究的主要目标包括：提供图检索增强生成（Graph-based Retrieval-Augmented Generation）范式的综合性综述识别传统平面文本检索增强生成系统的三个关键局限系统性地分析三个关键图检索增强生成创新：图结构化知识表示、高效的图检索、结构感知的知识集成研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述该综述系统性地分析了...

GReaTer: 推理梯度让小型语言模型成为强大的提示优化器

Posted on 十二月 12, 2024

GReaTer: 推理梯度让小型语言模型成为强大的提示优化器论文概述本文是一篇关于提示工程的研究论文，由 S 等85位研究者共同完成。研究目标本研究的主要目标包括： GReaTer：使用任务损失梯度的新型基于梯度的提示优化方法轻量级开源模型的自优化能力，无需依赖大型大语言模型直接融合超越文本反馈的细粒度梯度信息研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述GReaTer 利用任务特定的损失梯度来指导提示优化，脱离了纯文本方法。关键创新在于计算任务性能相对于提示表示的梯度，实现直接的优化信号。这使得轻量级模型能够自...

什么使上下文学习在数学推理中有效：理论分析

Posted on 十二月 11, 2024

什么使上下文学习在数学推理中有效：理论分析论文概述本文是一篇关于推理能力的研究论文，由 Jiayu Liu 等6位研究者共同完成。本文提供了首个关于上下文学习（In-Context Learning, ICL）在大语言模型数学推理中有效性的理论分析。虽然少样本示例有时会带来负面性能，其有效性仍不可靠，但这项工作证明了推理效能可以通过面向大语言模型的语义相似性和示例的推理稳定性来限定。基于这一理论基础，作者提出了 LMS3，一种示例选择方法，能够自适应地为不同大语言模型选择最相关的样本，并包含一种新颖的自动拒绝机制来过滤不合适的示例。该方法在多个数据集上实现了一致的改进，而现有方法在这些数据集上均已失败。研究目标本研究的主要目标包括：首次通过语义相似性和推理稳定性界定上下文学习推理效能的理论分析证明理论框架适用于单样本和少样本场景提出具有理论基础的 LMS3 示例选择方法 ...

LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索

Posted on 十一月 6, 2024

LEGO-GraphRAG: 图检索增强生成的模块化框架与设计空间探索论文概述本文是一篇关于图检索增强生成的研究论文，由 Yukun Cao 等5位研究者共同完成。研究目标本研究的主要目标包括：引入 LEGO-GraphRAG，一个模块化框架，将图检索增强生成分解为子图提取、路径过滤和路径精炼模块提供系统性的算法分类和每个图检索增强生成模块的神经网络模型分类识别影响图检索增强生成有效性的关键设计因素（图耦合度、计算成本）研究背景当前挑战性能优化：如何提升大语言模型在实际任务中的表现效率提升：如何减少推理时间和计算资源消耗可靠性保证：如何确保模型输出的稳定性和准确性可扩展性：如何使方法能够应用到更多场景和任务研究动机为了解决这些挑战，本研究提出了创新的方法和技术，旨在提升大语言模型的性能和实用性。核心方法方法概述该论文提出了一个模块化框架，将图检索增强生成的...

过程奖励模型综述：从结果信号到大语言模型的过程监督

Posted on 十月 9, 2024

过程奖励模型综述：从结果信号到大语言模型的过程监督论文概述本文是一篇关于奖励模型的综述性研究论文，由 Congming Zheng 等3位研究者共同完成。这篇综合性综述系统性地回顾了过程奖励模型（Process Reward Models，PRM），这是一种新兴范式，在步骤或轨迹级别而非仅在最终结果上评估和引导大语言模型推理。与仅评估最终答案的传统结果奖励模型（ORM）不同，过程奖励模型在整个推理过程中提供细粒度监督，能够更好地对齐复杂的多步骤任务。该综述涵盖了完整的过程奖励模型生命周期：(1) 通过人工标注、蒙特卡洛采样或大语言模型评判生成过程级监督数据，(2) 构建过程奖励模型架构（判别式 vs 生成式），(3) 将过程奖励模型应用于测试时扩展（通过最优N选择和搜索），(4) 在强化学习中使用过程奖励模型进行策略优化。该综述发表于2024年10月，及时地解决了在o1类推理模型时...

基于意图的提示校准：通过合成边界案例增强提示优化

Posted on 二月 5, 2024

论文概述基于意图的提示校准引入了一种新的自动提示工程方法,解决了需要高质量基准数据集的挑战,而这些数据集在许多现实用例中难以获取且成本高昂。该方法使用迭代校准过程,联合生成边界用例的合成数据并根据此生成的数据集优化提示。通过在优化过程中创建边界案例而非预先需要大量标注数据,系统可以优化提示以更好地与用户意图对齐。该方法在有限数量的标注样本下优于最先进的方法,展示了强大的实用价值。论文信息：发布时间：2024-02-05 作者：Elad Levi, Eli Brosh, Matan Friedmann 机构：IBM Research 研究方向：提示工程, 大型语言模型推理核心技术：提示优化研究背景自动提示工程通常需要大量高质量的标注数据,这在实际应用中往往难以获取。本研究针对以下问题展开：现有问题自动提示优化需要大量高质量基准数据标注数据获取成本高昂且耗时现有方法难...

大型语言模型是好的提示优化器吗？

Posted on 二月 3, 2024

论文概述这项批判性研究调查了基于大型语言模型的自动提示优化背后的实际机制,揭示了大型语言模型优化器运作方式的重大局限性。与假设大型语言模型真正反思错误并相应改进提示的假设相反,研究发现：（1）大型语言模型优化器难以识别错误的真正原因,往往受先验知识偏见影响而非实际分析错误；（2）即使反思在语义上有效,大型语言模型也经常由于目标模型行为的不可预测性而无法在单次优化步骤中生成适当的提示。基于这些观察,作者提出向”自动行为优化”范式转变,以更可控的方式直接优化目标模型行为。论文信息：发布时间：2024-02-03 作者：Ruotian Ma, Xiaolei Wang, Xin Zhou等机构：复旦大学, Google 研究方向：提示工程, 大型语言模型推理核心技术：提示优化分析研究背景自动提示优化被认为是提升大型语言模型性能的重要方向,但其实际工作机制和局限性尚未得到充分研...

元提示：通过任务无关的脚手架增强语言模型

Posted on 一月 23, 2024

论文概述这项斯坦福大学/OpenAI的合作研究引入了元提示，一种有效的脚手架技术，将单个语言模型转变为多方面的指挥者。该方法使用高层指令引导语言模型将复杂任务分解为较小的子任务，每个子任务由同一语言模型的不同”专家”实例处理，每个实例在特定的定制指令下运行。论文信息：发布时间：2024-01-23 作者：Mirac Suzgun, Adam Tauman Kalai 机构：斯坦福大学, OpenAI 研究方向：提示工程, 大型语言模型推理核心技术：元提示研究背景大型语言模型在各类任务中展现出强大的能力，但在处理复杂任务时，单一提示往往难以充分发挥模型潜力。本研究针对以下问题展开：现有问题单一提示难以处理复杂的多步骤任务缺乏系统化的任务分解和协调机制现有方法需要针对特定任务设计专门的脚手架研究动机本研究旨在开发一种任务无关的脚手架技术，通过元提示使单个...

PRewrite：基于强化学习的提示重写

Posted on 一月 16, 2024

论文概述PRewrite针对人工提示工程耗时且效果不佳的问题，引入了一种基于强化学习的自动化工具，能够将草稿提示重写为高效提示。与人工试错或僵化的基于模板的方法不同，PRewrite使用强化学习在大型动作空间中实现端到端优化，生成人类可读且自我解释的提示。从人工起草的初始提示开始使重写过程更加引导化和高效。在多样化数据集上的实验表明，PRewrite生成的提示不仅优于专业制作的提示，还超越了其他自动化方法生成的提示。论文信息：发布时间：2024-01-16 作者：Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang等机构：Google, 密歇根大学研究方向：提示工程, 大型语言模型推理核心技术：提示优化研究背景大型语言模型在各类任务中展现出强大的能力，但提示工程仍然是一个耗时且需要专业知识的过程。本研究针对以下问题展开： ...

提示模式目录：增强ChatGPT的提示工程

Posted on 二月 21, 2023

论文概述本文引入了一种基于模式的提示工程方法，提出了一个类似于软件设计模式的提示模式目录。这些模式为大型语言模型交互中的常见问题提供可重用的解决方案，提供了一个系统化的框架来记录、应用和组合提示，以改善输出质量和交互效果。论文信息：发布时间：2023-02-21 作者：Jules White, Quchen Fu, Sam Hays等机构：范德堡大学研究方向：提示工程, 大型语言模型推理核心技术：提示模式研究背景大型语言模型在各类任务中展现出强大的能力，但有效的提示工程仍然是一项需要专业知识和经验的技能。本研究针对以下问题展开：现有问题提示工程缺乏系统化的方法论难以总结和传播有效的提示技巧缺乏可重用的提示解决方案研究动机本研究旨在借鉴软件工程中的设计模式思想，为提示工程建立系统化的模式目录，特别关注提示工程、提示模式、软件模式等关键技术。核心方法方法概述...

大型语言模型是推理教师

Posted on 十二月 20, 2022

论文概述本文提出了Fine-tune-CoT（思维链微调）方法，使用大型语言模型作为推理教师，使较小的模型具备复杂推理能力。通过从超大型教师模型生成推理样本来微调较小的模型，该方法将模型规模要求降低了几个数量级，同时实现了显著的推理能力。论文信息：发布时间：2022-12-20 作者：Namgyu Ho, Laura Schmid, Se-Young Yun 机构：KAIST 研究方向：提示工程, 大型语言模型推理核心技术：知识蒸馏研究背景大型语言模型在复杂推理任务上展现出强大的能力，但这些能力通常需要超过100B参数的模型才能涌现。本研究针对以下问题展开：现有问题复杂推理能力主要存在于超大规模模型中小型模型在推理任务上表现不佳缺乏将大模型推理能力迁移到小模型的有效方法研究动机本研究旨在探索如何将大型语言模型的推理能力蒸馏到小型模型中，使得小型模型也能具备复杂...

宪法AI：基于AI反馈实现无害性

Posted on 十二月 15, 2022

论文概述宪法AI（CAI）是Anthropic提出的一种突破性对齐方法，通过自我改进和最少的人工监督来训练无害的AI助手。该方法使用”基于AI反馈的强化学习”（RLAIF）而非人工标注来判断有害性，由一组原则（即”宪法”）进行指导。CAI结合了监督学习阶段（模型批评和修订自己的输出）和强化学习阶段（AI评估训练偏好模型）。这种方法产生了无害但不回避的助手，能够通过解释反对意见来深思熟虑地处理有害查询，在显著降低人工标注成本的同时实现了卓越的对齐效果。论文信息：发布时间：2022-12-15 作者：Yuntao Bai, Saurav Kadavath, Sandipan Kundu等机构：Anthropic 研究方向：提示工程, 大型语言模型推理核心技术：宪法AI对齐研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何确保模型输出的安全性和对齐性仍是一个重...