LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization
ArXiv ID: 2510.13907
作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
发布日期: 2025-10-14 (修订: 2026-01-28)
内容级别: Analysis
摘要
大多数自动提示优化(APO)方法依赖真实标签(ground-truth),但在实际应用中获取标注数据成本高昂。本文提出Prompt对决优化器(PDO),将提示选择建模为对决赌博机(dueling-bandit)问题,仅使用LLM评判器的成对偏好反馈进行无标签提示优化。
PDO结合双Thompson采样(D-TS)优先进行最具信息量的提示对比较,配合顶级表现者引导的变异策略扩展候选池并修剪弱者。在BIG-bench Hard和MS MARCO上一致识别出比现有无标签基线更优的提示。
核心创新
1. 对决赌博机建模
PDO将无标签提示优化建模为经典在线学习问题:
- 臂(Arms): 候选提示集合
- 对决(Duel): LLM评判器对两个提示输出的成对比较
- 成本: 每次评判调用消耗的API预算
- 目标: 在有限评判预算内找到最优提示
这一建模相比传统APO方法有两大优势:
- 无需真实标签,仅需相对偏好
- 评判预算可控,适合成本敏感场景
2. 双Thompson采样(D-TS)
D-TS策略选择最具信息量的提示对进行比较:
- 维护每个提示的Beta分布后验(胜/负次数)
- 从后验采样选择两个”最有希望”的提示进行对决
- 不确定性高的提示获得更多比较机会
- 避免在明显优劣的对比上浪费预算
3. 顶级表现者引导变异
候选池的动态管理策略:
- 扩展: 从当前胜率最高的提示进行LLM驱动变异
- 修剪: 移除胜率最低的提示
- 平衡: 保持候选池大小稳定,质量持续提升
4. 跨模型族鲁棒性验证
通过不同模型族的评判器重新评估PDO选择的提示,确认优化结果不依赖特定评判模型。这是与SPO等方法的重要区别。
实验结果
BIG-bench Hard (BBH):
- PDO在27个子任务上一致找到比无标签基线更优的提示
- 相比SPO在相同评判预算下达到更高准确率
MS MARCO:
- 在检索问答场景中验证了PDO的通用性
- 证明对决赌博机建模适用于不同类型的NLP任务
与SPO的对比
SPO(Self-supervised Prompt Optimization)是PDO最直接的可比基线:
| 维度 | SPO | PDO |
|---|---|---|
| 比较策略 | 固定(当前 vs 最优) | 自适应(D-TS) |
| 候选扩展 | 随机变异 | 顶级表现者引导 |
| 预算利用 | 均匀分配 | 信息论驱动 |
| 理论保证 | 无 | 对决赌博机收敛 |
实战价值
最佳适用场景:
- 缺乏标注数据但有LLM评判器的场景
- API调用预算受限的提示优化
- 多提示版本的自动化A/B测试
- 生产环境中的持续提示改进
实施要点:
- 选择可靠的LLM评判器(建议使用跨模型族验证)
- 初始候选池应有足够多样性
- 设定合理的评判预算上限
- 监控胜率分布收敛情况