论文概述Self-Refine是来自CMU、AI2和顶级研究机构的一个有影响力的迭代优化框架,使大型语言模型能够通过自我生成的反馈自主改进其输出。关键洞察是,就像人类一样,大型语言模型很少在第一次尝试时产生最佳输出,但可以批评和优化自己的工作。三步过程 - (1) 生成初始输出,(2) 提供自我反馈,(3) 基于反馈进行优化 - 不需要额外的训练、监督数据或强化学习。在7个不同任务(对话、数学推理、代码生成、情感反转、首字母缩略词生成、约束生成、评论改写)上使用GPT-3.5、ChatGPT和GPT-4进行评估,Self-Refine平均提高约20%的性能,人类强烈偏好其输出。该成果发表于NeurIPS 2023,影响了众多关于大型语言模型自我改进和批评的后续工作。
论文信息:
发布时间:2023-03-30
作者:Aman Madaan, Niket Tandon, Prakha...
从标注数据自动增强和选择思维链提示
论文概述Automate-CoT解决了手动思维链提示工程的挑战,通过从标注的训练数据自动生成和选择高质量的理性推理链。它使用机器生成的理性推理配合方差减少的策略梯度优化来选择最优的提示组合,消除了对人工标注推理链的需求,同时达到最先进的性能。
论文信息:
发布时间:2023-02-24
作者:KaShun Shum, Shizhe Diao, Tong Zhang
机构:Hong Kong University of Science and Technology, University of Illinois Urbana-Champaign
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:自动思维链 (Automatic CoT)
研究背景思维链提示在推理任务上表现出色,但手工制作高质量的推理链需要大量...
提示模式目录:增强ChatGPT的提示工程
论文概述本文引入了一种基于模式的提示工程方法,提出了一个类似于软件设计模式的提示模式目录。这些模式为大型语言模型交互中的常见问题提供可重用的解决方案,提供了一个系统化的框架来记录、应用和组合提示,以改善输出质量和交互效果。
论文信息:
发布时间:2023-02-21
作者:Jules White, Quchen Fu, Sam Hays等
机构:范德堡大学
研究方向:提示工程, 大型语言模型推理
核心技术:提示模式
研究背景大型语言模型在各类任务中展现出强大的能力,但有效的提示工程仍然是一项需要专业知识和经验的技能。本研究针对以下问题展开:
现有问题
提示工程缺乏系统化的方法论
难以总结和传播有效的提示技巧
缺乏可重用的提示解决方案
研究动机本研究旨在借鉴软件工程中的设计模式思想,为提示工程建立系统化的模式目录,特别关注提示工程、提示模式、软件模式等关键技术。
核心方法方法概述...
大型语言模型是推理教师
论文概述本文提出了Fine-tune-CoT(思维链微调)方法,使用大型语言模型作为推理教师,使较小的模型具备复杂推理能力。通过从超大型教师模型生成推理样本来微调较小的模型,该方法将模型规模要求降低了几个数量级,同时实现了显著的推理能力。
论文信息:
发布时间:2022-12-20
作者:Namgyu Ho, Laura Schmid, Se-Young Yun
机构:KAIST
研究方向:提示工程, 大型语言模型推理
核心技术:知识蒸馏
研究背景大型语言模型在复杂推理任务上展现出强大的能力,但这些能力通常需要超过100B参数的模型才能涌现。本研究针对以下问题展开:
现有问题
复杂推理能力主要存在于超大规模模型中
小型模型在推理任务上表现不佳
缺乏将大模型推理能力迁移到小模型的有效方法
研究动机本研究旨在探索如何将大型语言模型的推理能力蒸馏到小型模型中,使得小型模型也能具备复杂...
宪法AI:基于AI反馈实现无害性
论文概述宪法AI(CAI)是Anthropic提出的一种突破性对齐方法,通过自我改进和最少的人工监督来训练无害的AI助手。该方法使用”基于AI反馈的强化学习”(RLAIF)而非人工标注来判断有害性,由一组原则(即”宪法”)进行指导。CAI结合了监督学习阶段(模型批评和修订自己的输出)和强化学习阶段(AI评估训练偏好模型)。这种方法产生了无害但不回避的助手,能够通过解释反对意见来深思熟虑地处理有害查询,在显著降低人工标注成本的同时实现了卓越的对齐效果。
论文信息:
发布时间:2022-12-15
作者:Yuntao Bai, Saurav Kadavath, Sandipan Kundu等
机构:Anthropic
研究方向:提示工程, 大型语言模型推理
核心技术:宪法AI对齐
研究背景大型语言模型(LLM)在各类任务中展现出强大的能力,但如何确保模型输出的安全性和对齐性仍是一个重...
SmoothQuant:用于大语言模型的准确高效训练后量化
SmoothQuant:用于大语言模型的准确高效训练后量化
ArXiv ID: 2211.10438作者: Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han机构: MIT Han Lab, NVIDIA发表: ICML 2023引用量: 3000+ (截至 2025 年)
摘要大语言模型(LLM)的推理成本高企,量化是降低部署成本的关键技术。然而,LLM 的激活存在极端离群值,使得 INT8 量化会导致不可接受的精度下降。本文提出的 SmoothQuant 通过数学上的等价变换,将量化难度从激活迁移到权重,实现了无需训练的 W8A8 量化,在保持精度的同时实现 1.56 倍推理加速和 2 倍内存减少。
问题背景LLM 量化的挑战123456789101112131415FP16 推理...
大型语言模型是人类级别的提示工程师
论文概述这项突破性工作引入了自动提示工程师(Automatic Prompt Engineer, APE)框架,能够自动为大型语言模型生成和选择指令。APE将指令视为程序,通过搜索LLM提议的候选指令进行优化,并在另一个LLM上评估零样本性能来选择最佳指令。该方法在24个NLP任务中的19个上超过了人工编写的提示,标志着自动化提示工程过程的重大进展。
论文信息:
发布时间:2022-11-03
作者:Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han等
机构:University of Montreal, University of Oxford, UC Berkeley等
研究方向:提示工程、LLM推理
核心技术:自动提示工程(APE)
研究背景提示工程通常需要大量人工尝试和专业知识,这限制了其应用范围和效率。本研究针对以下问题展开:
...
GPTQ:用于生成式预训练 Transformer 的准确训练后量化
GPTQ:用于生成式预训练 Transformer 的准确训练后量化
ArXiv ID: 2210.17323作者: Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh机构: IST Austria, ETH Zurich, University of Amsterdam发表: ICLR 2023引用量: 2500+ (截至 2025 年)
摘要生成式预训练 Transformer 模型(如 GPT、OPT)因其庞大的规模而著称,即使是高精度推理也可能需要多个高性能 GPU。本文提出 GPTQ,一种基于近似二阶信息的新型一次性权重量化方法。GPTQ 可以在约4 个 GPU 小时内量化 1750 亿参数模型,将权重降至3-4 位,精度损失可忽略不计。这是首个能在单个 GPU 上运行 175B 模型的方法,在 A1...
ReAct: 在语言模型中协同推理与行动
论文概述ReAct引入了一种范式,其中大型语言模型以交错的方式生成推理轨迹和特定任务的行动,在两种能力之间创造协同效应。推理轨迹帮助模型推导、跟踪和更新行动计划,同时处理异常情况,而行动允许它与外部源(如知识库或环境)交互以收集额外信息。这种方法克服了纯推理或纯行动方法的局限性,在可解释性和可信度方面取得了显著改进。
论文信息:
发布时间:2022-10-06
作者:Shunyu Yao, Jeffrey Zhao, Dian Yu等
机构:Princeton University, Google Research
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:推理与行动协同 (ReAct)
研究背景大型语言模型在各类任务中展现出强大的能力,但纯推理方法容易产生幻觉,而纯行动方法缺乏规划能力。本研究针对...
分解式提示:解决复杂任务的模块化方法
论文概述这项来自Allen AI的工作引入了分解式提示(Decomposed Prompting),一种通过提示将复杂任务分解为更简单子任务的模块化方法。每个子任务被委托给一个专门的基于提示的LLM库,允许进行优化、进一步分解,或用更有效的解决方案(包括训练模型或符号函数)替换。
论文信息:
发布时间:2022-10-05
作者:Tushar Khot, Harsh Trivedi, Matthew Finlayson等
机构:Allen Institute for AI
研究方向:提示工程、LLM推理
核心技术:任务分解(Task Decomposition)
研究背景大型语言模型在处理复杂任务时往往力不从心,单一提示难以涵盖所有必要的推理步骤。本研究针对以下问题展开:
现有问题
复杂任务难以用单一提示有效处理
不同子任务需要不同的专业知识和推理策略
缺乏系统化的任务分解和模块...
Public Multimodal Dataset (PMD):Meta开源的7000万图文对数据集
多模态预训练的基石:Meta的7000万图文对开源数据集在多模态AI发展历程中,高质量的图文配对数据始终是核心瓶颈。Meta AI(原Facebook AI Research)于2022年发布的Public Multimodal Dataset(PMD),以7000万图文对、6800万唯一图像的规模,成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础,更为整个AI社区树立了大规模多模态数据集的标杆。
数据集概览:规模与构成核心统计数据
图文对总数:7000万对
唯一图像数:6800万张
来源数据集:8个高质量公开数据集
主要语言:英语
许可证:CC-BY-4.0(需遵守各子数据集许可)
数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合,而非单一来源:
Conceptual Captions - 高质量的图像描述数据
Concept...
从简到繁提示使大型语言模型能够进行复杂推理
论文概述从简到繁提示 (Least-to-Most Prompting) 是一种创新的提示工程策略,通过将复杂问题分解为一系列更简单的子问题并顺序解决它们,实现了强大的组合泛化能力。受教育心理学”由简到繁”学习策略的启发,这种方法使大型语言模型能够解决比训练示例更复杂的问题。实验表明,使用GPT-3 code-davinci-002配合从简到繁提示,在SCAN组合泛化基准测试的任何分割上都能达到至少99%的准确率(仅用14个示例),而标准思维链提示只能达到16%。
论文信息:
发布时间:2022-05-21
作者:Denny Zhou, Nathanael Schärli, Le Hou等
机构:Google Research, Google Brain
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:从简...
自洽性改进语言模型中的思维链推理
论文概述本论文提出了自洽性 (Self-Consistency),这是一种新颖的解码策略,通过替换朴素的贪婪解码显著改进思维链提示。自洽性不是只采用贪婪路径,而是采样一组多样化的推理路径,并通过对采样路径进行边缘化来选择最一致的答案。这利用了一个直觉:复杂的推理问题通常允许多种不同的思考方式,但都导向唯一的正确答案,在多个推理基准测试中实现了显著的性能提升。
论文信息:
发布时间:2022-03-21
作者:Xuezhi Wang, Jason Wei, Dale Schuurmans等
机构:Google Research
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:自洽性 (Self-Consistency)
研究背景大型语言模型在思维链提示下展现出强大的推理能力,但单次生成的结果可能不稳定。本研...
思维链提示激发大型语言模型的推理能力
论文概述思维链 (Chain-of-Thought, CoT) 提示是一项突破性技术,通过生成中间推理步骤显著提高大型语言模型的推理能力。本论文展示了如何通过简单的少样本提示配合推理链,在算术、常识和符号推理任务上实现突破性性能,而无需任何模型微调。CoT已成为现代大型语言模型应用中的基础技术之一。
论文信息:
发布时间:2022-01-28
作者:Jason Wei, Xuezhi Wang, Dale Schuurmans等
机构:Google Research, Google Brain
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:思维链 (Chain-of-Thought)
研究背景大型语言模型在各类任务中展现出强大的能力,但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开:
...
展示你的工作:使用语言模型草稿本进行中间计算
论文概述这项来自Google Research的开创性工作引入了”草稿本”(scratchpad)技术,通过训练transformer输出中间计算步骤,极大地提高了它们执行复杂多步骤计算的能力。通过要求语言模型”逐步”展示其工作过程,该方法使LM能够解决从长加法到执行任意程序等以前难以处理的任务。
论文信息:
发布时间:2021-11-30
作者:Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari等
机构:Google Research
研究方向:提示工程、LLM推理
核心技术:思维链(Chain-of-Thought)
研究背景语言模型在单步预测任务上表现出色,但在需要多步计算的复杂任务上遇到困难。本研究针对以下问题展开:
现有问题
语言模型难以执行需要多步骤的复杂计算
模型的中间推理过程不可见,难以调试和理解
长序列计算容易出错...
微调后的语言模型是零样本学习者(FLAN)
论文概述FLAN(Finetuned Language Model for Instruction Following,遵循指令的微调语言模型)是指令微调领域的开创性工作。这篇论文证明,通过自然语言指令描述的多任务微调可以显著提高在未见任务上的零样本性能。通过在60+个NLP任务上进行指令微调,FLAN 137B在25个评估任务中的20个上超过了零样本175B GPT-3。这项工作证明了指令微调是将语言模型转变为更通用任务执行器的强大范式。
论文信息:
发布时间:2021-09-03
作者:Jason Wei, Maarten Bosma, Vincent Y. Zhao等
机构:Google Research, Google Brain
研究方向:提示工程、LLM推理
核心技术:指令微调(Instruction Tuning)
研究背景大型语言模型(LLM)虽然强大,但在零样本...
在GPU集群上使用Megatron-LM高效训练大规模语言模型
论文概述Megatron-LM是来自NVIDIA、微软和顶尖大学的里程碑式分布式训练系统,能够在数千个GPU上高效训练万亿参数语言模型。其核心创新是三维并行(3D Parallelism) - 组合张量并行(节点内)、流水线并行(节点间)和数据并行,以高效地在GPU集群上分区大规模模型。Megatron在3,072个A100 GPU上训练1万亿参数模型时达到502 petaFLOPs,实现了理论峰值吞吐量的52%,并具有近乎完美的线性扩展性。新颖的交错流水线调度相比传统方法提升了10%以上的吞吐量。该工作发表于SC21(超级计算2021)并获得最佳论文奖,Megatron-LM已成为大规模LLM训练的事实标准,被GPT-3、Turing-NLG等众多研究项目采用。
论文信息:
发布时间:2021-04-09
作者:Deepak Narayanan, Mohammad Shoeybi...
ZeRO-Offload: 将十亿规模模型训练平民化
论文概述ZeRO-Offload是微软研究院提出的突破性内存优化技术,通过在单个GPU上实现130亿以上参数模型的训练,将十亿规模模型训练平民化 - 相比原生PyTorch提升了10倍。关键创新是战略性地将优化器状态和梯度卸载到CPU内存,同时将计算密集型的前向/反向传播保持在GPU上,使用NVIDIA统一内存实现自动CPU-GPU数据移动。ZeRO-Offload在V100上为100亿参数模型实现了40 TFlops吞吐量(相比PyTorch训练14亿参数模型的30 TFlops),可近线性扩展到128个GPU,并在与模型并行结合时可在单个DGX-2节点上训练700亿以上参数的模型。该技术于2021年在USENIX ATC发表,并集成到微软DeepSpeed中,使大规模模型训练对没有大规模GPU集群的研究人员和从业者来说变得触手可及。
论文信息:
发布时间:2021-0...
语言模型是少样本学习者(GPT-3)
论文概述GPT-3是一个拥有1750亿参数的自回归语言模型,比之前任何非稀疏语言模型大10倍。这篇突破性论文证明了足够大规模的语言模型可以仅通过文本交互(少样本示例)在各种NLP任务上实现强大性能,无需任何梯度更新或微调 (Fine-Tuning)。GPT-3引入了上下文学习 (In-Context Learning) 的概念,从根本上改变了我们对语言模型能力的理解,开启了大型语言模型时代。
论文信息:
发布时间:2020-05-28
作者:Tom B. Brown, Benjamin Mann, Nick Ryder等
机构:OpenAI
研究方向:提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning)
核心技术:上下文学习 (In Context Learning)
研究背景大型语言模型在各类任务中展现出强大的能力,但传统方法通...
检索增强生成:用于知识密集型NLP任务
论文概述检索增强生成 (Retrieval-Augmented Generation, RAG) 是一个突破性的框架,它结合了预训练的参数化记忆(序列到序列模型)和非参数化记忆(维基百科的密集向量索引),专门用于知识密集型NLP任务。RAG模型使用预训练的神经检索器访问维基百科,然后将检索到的文档作为上下文传递给生成器,产生更具体、更多样化、更符合事实的输出。这项工作在开放域问答任务上达到了最先进水平,并证明了检索增强模型比纯参数化模型产生更可靠和可解释的输出。
论文信息:
发布时间:2020-05-22
作者:Patrick Lewis, Ethan Perez, Aleksandra Piktus等
机构:Facebook AI Research, University College London, New York University
研究方向:提示工程 (Prompt ...