基于大语言模型的少样本上下文偏好学习论文信息
标题: ICPL: Few-shot In-context Preference Learning via LLMs
作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky
发布日期: 2024-10-22
ArXiv链接: https://arxiv.org/abs/2410.17233
核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。
主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...