Prompt对决优化器(PDO):基于对决赌博机的无标签提示优化

Posted on 一月 28, 2026

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

ArXiv ID: 2510.13907
作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
发布日期: 2025-10-14 (修订: 2026-01-28)
内容级别: Analysis

摘要

大多数自动提示优化(APO)方法依赖真实标签(ground-truth),但在实际应用中获取标注数据成本高昂。本文提出Prompt对决优化器(PDO),将提示选择建模为对决赌博机(dueling-bandit)问题,仅使用LLM评判器的成对偏好反馈进行无标签提示优化。

PDO结合双Thompson采样(D-TS)优先进行最具信息量的提示对比较,配合顶级表现者引导的变异策略扩展候选池并修剪弱者。在BIG-bench Hard和MS MARCO上一致识别出比现有无标签基线更优的提示。

核心创新

1. 对决赌博机建模

PDO将无标签提示优化建模为经典在线学习问题:

臂(Arms): 候选提示集合
对决(Duel): LLM评判器对两个提示输出的成对比较
成本: 每次评判调用消耗的API预算
目标: 在有限评判预算内找到最优提示

这一建模相比传统APO方法有两大优势:

无需真实标签,仅需相对偏好
评判预算可控,适合成本敏感场景

2. 双Thompson采样(D-TS)

D-TS策略选择最具信息量的提示对进行比较:

维护每个提示的Beta分布后验(胜/负次数)
从后验采样选择两个”最有希望”的提示进行对决
不确定性高的提示获得更多比较机会
避免在明显优劣的对比上浪费预算

3. 顶级表现者引导变异

候选池的动态管理策略:

扩展: 从当前胜率最高的提示进行LLM驱动变异
修剪: 移除胜率最低的提示
平衡: 保持候选池大小稳定,质量持续提升

4. 跨模型族鲁棒性验证

通过不同模型族的评判器重新评估PDO选择的提示,确认优化结果不依赖特定评判模型。这是与SPO等方法的重要区别。

实验结果

BIG-bench Hard (BBH):

PDO在27个子任务上一致找到比无标签基线更优的提示
相比SPO在相同评判预算下达到更高准确率

MS MARCO:

在检索问答场景中验证了PDO的通用性
证明对决赌博机建模适用于不同类型的NLP任务

与SPO的对比

SPO(Self-supervised Prompt Optimization)是PDO最直接的可比基线:

维度	SPO	PDO
比较策略	固定(当前 vs 最优)	自适应(D-TS)
候选扩展	随机变异	顶级表现者引导
预算利用	均匀分配	信息论驱动
理论保证	无	对决赌博机收敛

实战价值

最佳适用场景:

缺乏标注数据但有LLM评判器的场景
API调用预算受限的提示优化
多提示版本的自动化A/B测试
生产环境中的持续提示改进

实施要点:

选择可靠的LLM评判器(建议使用跨模型族验证)
初始候选池应有足够多样性
设定合理的评判预算上限
监控胜率分布收敛情况