自监督提示优化论文概述本文是一篇关于提示工程的优化方法论文,由 Jinyu Xiang 等8位研究者共同完成。
自监督提示优化(Self-Supervised Prompt Optimization, SPO)解决了现有提示优化方法的一个关键局限:严重依赖外部参考(真值或人类反馈),而这些在实际场景中通常不可用或成本高昂。SPO 引入了一个成本高效的框架,可以为封闭式和开放式任务发现有效的提示,而无需外部参考。通过观察到提示质量直接体现在大语言模型输出中,以及大语言模型能够有效评估任务需求遵循情况,SPO 纯粹从输出比较中获得优化信号。该方法在使用最优方法成本的仅1.1%-5.6%的情况下,实现了可比或更优的结果,并且只需要少至三个样本。
研究目标本研究的主要目标包括:
引入无参考提示优化,消除对真值或人类反馈的需求
实现极高的成本效率:仅为现有方法成本的1.1%-5.6%
适用于...