基于大语言模型的少样本上下文偏好学习

Posted on 十月 22, 2024

基于大语言模型的少样本上下文偏好学习论文信息标题: ICPL: Few-shot In-context Preference Learning via LLMs 作者: Chao Yu, Qixin Tan, Hong Lu, Jiaxuan Gao, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky 发布日期: 2024-10-22 ArXiv链接: https://arxiv.org/abs/2410.17233 核心概述基于偏好的强化学习是处理难以明确定义奖励函数任务的有效方法,但传统偏好学习往往需要从零开始,效率极低。本文展示了大语言模型(LLM)具有原生的偏好学习能力,可以实现高效的样本效率偏好学习,从而解决这一挑战。主要贡献研究提出了ICPL(In-Context Preference Learning)框架,利用LLM...

阅读全文

PRewrite：基于强化学习的提示重写

Posted on 一月 16, 2024

论文概述PRewrite针对人工提示工程耗时且效果不佳的问题，引入了一种基于强化学习的自动化工具，能够将草稿提示重写为高效提示。与人工试错或僵化的基于模板的方法不同，PRewrite使用强化学习在大型动作空间中实现端到端优化，生成人类可读且自我解释的提示。从人工起草的初始提示开始使重写过程更加引导化和高效。在多样化数据集上的实验表明，PRewrite生成的提示不仅优于专业制作的提示，还超越了其他自动化方法生成的提示。论文信息：发布时间：2024-01-16 作者：Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang等机构：Google, 密歇根大学研究方向：提示工程, 大型语言模型推理核心技术：提示优化研究背景大型语言模型在各类任务中展现出强大的能力，但提示工程仍然是一个耗时且需要专业知识的过程。本研究针对以下问题展开： ...

阅读全文