Prompt对决优化器(PDO):基于对决赌博机的无标签提示优化

Posted on 一月 28, 2026

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization ArXiv ID: 2510.13907作者: Yuanchen Wu, Saurabh Verma, Justin Lee, Fangzhou Xiong, Poppy Zhang, Amel Awadelkarim, Xu Chen, Yubai Yuan, Shawndra Hill发布日期: 2025-10-14 (修订: 2026-01-28)内容级别: Analysis 摘要大多数自动提示优化(APO)方法依赖真实标签(ground-truth),但在实际应用中获取标注数据成本高昂。本文提出Prompt对决优化器(PDO),将提示选择建模为对决赌博机(dueling-bandit)问题,仅使用LLM评判器的成对偏好反馈进行无标签提示优化...

阅读全文