自监督提示优化

Posted on 二月 7, 2025

自监督提示优化论文概述本文是一篇关于提示工程的优化方法论文，由 Jinyu Xiang 等8位研究者共同完成。自监督提示优化（Self-Supervised Prompt Optimization, SPO）解决了现有提示优化方法的一个关键局限：严重依赖外部参考（真值或人类反馈），而这些在实际场景中通常不可用或成本高昂。SPO 引入了一个成本高效的框架，可以为封闭式和开放式任务发现有效的提示，而无需外部参考。通过观察到提示质量直接体现在大语言模型输出中，以及大语言模型能够有效评估任务需求遵循情况，SPO 纯粹从输出比较中获得优化信号。该方法在使用最优方法成本的仅1.1%-5.6%的情况下，实现了可比或更优的结果，并且只需要少至三个样本。研究目标本研究的主要目标包括：引入无参考提示优化，消除对真值或人类反馈的需求实现极高的成本效率：仅为现有方法成本的1.1%-5.6% 适用于...

阅读全文