论文概述这篇来自牛津大学等机构的综合性综述系统地考察了三种主要类型的视觉-语言基础模型的提示工程技术:多模态到文本生成(如 Flamingo)、图像-文本匹配(如 CLIP)和文本到图像生成(如 Stable Diffusion)。该工作首次系统地概述了视觉领域的提示方法、应用和责任考虑。
论文信息:
发布时间:2023-07-24
作者:Jindong Gu, Zhen Han, Shuo Chen等
机构:未知
研究方向:提示工程,大型语言模型推理
核心技术:视觉提示(Visual Prompting)
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
现有问题
传统提示方法在复杂推理任务上表现不佳
模型难以处理需要多步骤推理的问题
缺乏系统化的推理引导方法
研究动机本研究旨在探索更有效的提示工...