Prompt对决优化器(PDO):基于对决赌博机的无标签提示优化

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

ArXiv ID: 2510.13907
作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill
发布日期: 2025-10-14 (修订: 2026-01-28)
内容级别: Analysis

摘要

大多数自动提示优化(APO)方法依赖真实标签(ground-truth),但在实际应用中获取标注数据成本高昂。本文提出Prompt对决优化器(PDO),将提示选择建模为对决赌博机(dueling-bandit)问题,仅使用LLM评判器的成对偏好反馈进行无标签提示优化。

PDO结合双Thompson采样(D-TS)优先进行最具信息量的提示对比较,配合顶级表现者引导的变异策略扩展候选池并修剪弱者。在BIG-bench Hard和MS MARCO上一致识别出比现有无标签基线更优的提示。

核心创新

1. 对决赌博机建模

PDO将无标签提示优化建模为经典在线学习问题:

  • 臂(Arms): 候选提示集合
  • 对决(Duel): LLM评判器对两个提示输出的成对比较
  • 成本: 每次评判调用消耗的API预算
  • 目标: 在有限评判预算内找到最优提示

这一建模相比传统APO方法有两大优势:

  1. 无需真实标签,仅需相对偏好
  2. 评判预算可控,适合成本敏感场景

2. 双Thompson采样(D-TS)

D-TS策略选择最具信息量的提示对进行比较:

  • 维护每个提示的Beta分布后验(胜/负次数)
  • 从后验采样选择两个”最有希望”的提示进行对决
  • 不确定性高的提示获得更多比较机会
  • 避免在明显优劣的对比上浪费预算

3. 顶级表现者引导变异

候选池的动态管理策略:

  • 扩展: 从当前胜率最高的提示进行LLM驱动变异
  • 修剪: 移除胜率最低的提示
  • 平衡: 保持候选池大小稳定,质量持续提升

4. 跨模型族鲁棒性验证

通过不同模型族的评判器重新评估PDO选择的提示,确认优化结果不依赖特定评判模型。这是与SPO等方法的重要区别。

实验结果

BIG-bench Hard (BBH):

  • PDO在27个子任务上一致找到比无标签基线更优的提示
  • 相比SPO在相同评判预算下达到更高准确率

MS MARCO:

  • 在检索问答场景中验证了PDO的通用性
  • 证明对决赌博机建模适用于不同类型的NLP任务

与SPO的对比

SPO(Self-supervised Prompt Optimization)是PDO最直接的可比基线:

维度 SPO PDO
比较策略 固定(当前 vs 最优) 自适应(D-TS)
候选扩展 随机变异 顶级表现者引导
预算利用 均匀分配 信息论驱动
理论保证 对决赌博机收敛

实战价值

最佳适用场景:

  • 缺乏标注数据但有LLM评判器的场景
  • API调用预算受限的提示优化
  • 多提示版本的自动化A/B测试
  • 生产环境中的持续提示改进

实施要点:

  1. 选择可靠的LLM评判器(建议使用跨模型族验证)
  2. 初始候选池应有足够多样性
  3. 设定合理的评判预算上限
  4. 监控胜率分布收敛情况

资源链接

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero