大型语言模型作为类比推理器

Posted on 十月 3, 2023

论文概述受人类类比推理的启发，本文介绍了类比提示（Analogical Prompting），这是一种新颖的方法，提示大型语言模型在解决问题之前自我生成相关的范例和知识。与需要手动制作示例的传统 CoT 不同，类比提示使大型语言模型能够从其内部知识中提取以创建针对问题的演示，无需标注的范例即可实现卓越性能。论文信息：发布时间：2023-10-03 作者：Michihiro Yasunaga, Xinyun Chen, Yujia Li等机构：Google DeepMind，斯坦福大学研究方向：提示工程，大型语言模型推理核心技术：类比推理（Analogical Reasoning）研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开：现有问题传统提示方法在复杂推理任务上表现不佳模型难以处理需...

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following

Posted on 九月 27, 2023

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following模型概述Mistral-7B-Instruct-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-Instruct-v0.1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数...

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance

Posted on 九月 27, 2023

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance模型概述Mistral-7B-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-v0.1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能...

大型语言模型作为优化器

Posted on 九月 7, 2023

论文概述这篇里程碑式论文介绍了通过提示优化（Optimization by PROmpting, OPRO），这是一种利用大型语言模型作为各种任务优化器的突破性范式。与传统的基于导数的优化不同，OPRO 使用自然语言描述优化任务，并根据先前评估的候选项迭代生成新解决方案。该方法在提示优化上展示了显著的有效性，其中 OPRO 优化的提示在 GSM8K 上优于人工设计的提示最多 8%，在 Big-Bench Hard 任务上优于最多 50%。这项工作在 Hugging Face 上获得了 77 个点赞，表明了强大的社区认可。论文信息：发布时间：2023-09-07 作者：Chengrun Yang, Xuezhi Wang, Yifeng Lu等机构：Google DeepMind 研究方向：提示工程，大型语言模型推理核心技术：提示优化（Prompt Optimization）...

RLAIF 对比 RLHF：使用 AI 反馈扩展人类反馈强化学习

Posted on 九月 1, 2023

论文概述这篇 Google Research 论文提供了基于 AI 反馈的强化学习（RLAIF）与传统 RLHF 之间的首次全面实证比较，证明 AI 生成的偏好标签可以以大幅降低的成本匹配人类反馈质量。在三个任务（摘要、有帮助的对话、无害对话）中，RLAIF 实现了与 RLHF 相当的性能，人类评估者对两者同样偏好（约 70% 优于监督基线）。关键创新是使用现成的大型语言模型生成偏好标签，而不是昂贵的人工标注，并引入了直接 RLAIF（d-RLAIF），该方法在 RL 期间直接从大型语言模型获取奖励，无需训练单独的奖励模型，实现了卓越的性能。该工作发表于 ICML 2024，验证了 RLAIF 作为 RLHF 的可扩展替代方案，将标注成本降低了 10 倍以上，同时保持对齐质量。论文信息：发布时间：2023-09-01 作者：Harrison Lee, Samrat Phatal...

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis模型概述CodeLlama-13B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-13B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提...

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis模型概述CodeLlama-34B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 34B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-34B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 34B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提...

CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis模型概述CodeLlama-7B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的AP...

思维图谱：用大型语言模型解决复杂问题

Posted on 八月 18, 2023

论文概述思维图谱（Graph of Thoughts, GoT）是一个突破性框架，将大型语言模型推理从链式（CoT）和树式（ToT）结构扩展到任意图结构。GoT 允许大型语言模型将生成的信息建模为图，其中信息单元（”大型语言模型思维”）是顶点，边表示依赖关系。这种灵活的结构能够处理需要复杂信息聚合、回溯和循环依赖的问题。实验表明，GoT 显著优于现有方法，在排序任务上实现了 62% 的质量改进，同时相比 ToT 降低了超过 31% 的成本。论文信息：发布时间：2023-08-18 作者：Maciej Besta, Nils Blach, Ales Kubicek等机构：苏黎世联邦理工学院，雅盖隆大学研究方向：提示工程，大型语言模型推理核心技术：思维图谱（Graph of Thoughts）研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何有效引导模型进...

思维骨架：提示大型语言模型进行高效并行生成

Posted on 七月 28, 2023

论文概述思维骨架（Skeleton-of-Thought, SoT）是清华大学和微软研究院提出的一种创新推理优化技术，通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架（大纲），然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估，SoT 实现了高达 2.39 倍的加速，同时保持或提高答案质量。该论文发表于 ICLR 2024，SoT 展示了一种以数据为中心的推理效率方法，将大型语言模型视为黑盒，并适用于任何现成的模型，包括基于 API 的服务。论文信息：发布时间：2023-07-28 作者：Xuefei Ning, Zinan Lin, Zixuan Zhou等机构：清华大学...

视觉-语言基础模型的提示工程系统综述

Posted on 七月 24, 2023

论文概述这篇来自牛津大学等机构的综合性综述系统地考察了三种主要类型的视觉-语言基础模型的提示工程技术：多模态到文本生成（如 Flamingo）、图像-文本匹配（如 CLIP）和文本到图像生成（如 Stable Diffusion）。该工作首次系统地概述了视觉领域的提示方法、应用和责任考虑。论文信息：发布时间：2023-07-24 作者：Jindong Gu, Zhen Han, Shuo Chen等机构：未知研究方向：提示工程，大型语言模型推理核心技术：视觉提示（Visual Prompting）研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开：现有问题传统提示方法在复杂推理任务上表现不佳模型难以处理需要多步骤推理的问题缺乏系统化的推理引导方法研究动机本研究旨在探索更有效的提示工...

Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue

Posted on 七月 18, 2023

Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue模型概述Llama-2-13B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-13B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理 ...

Llama-2-13B - Meta's Llama 2 13B 基座模型

Posted on 七月 18, 2023

Llama-2-13B - Meta’s Llama 2 13B 基座模型模型概述Llama-2-13B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-13B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架 ...

Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue

Posted on 七月 18, 2023

Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue模型概述Llama-2-70B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 70B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-70B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理 ...

Llama-2-70B - Meta's Llama 2 70B 基座模型 with Grouped-Query Attention

Posted on 七月 18, 2023

Llama-2-70B - Meta’s Llama 2 70B 基座模型 with Grouped-Query Attention模型概述Llama-2-70B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 70B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-70B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处...

Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF

Posted on 七月 18, 2023

Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF模型概述Llama-2-7B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-7B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批...

Llama-2-7B - Meta's Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM

Posted on 七月 18, 2023

Llama-2-7B - Meta’s Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM模型概述Llama-2-7B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速...

提示空间：优化大型语言模型的少样本推理成功

Posted on 六月 6, 2023

论文概述本文提出了提示空间（Prompt Space），这是一种提供稳健理论框架来选择有效提示的新方法。它利用文本嵌入和矩阵分解来获取基向量，并构建一个用于表示所有提示的空间。提示空间在十个推理基准测试上显著优于最先进的范式，甚至在不使用思维链或”让我们逐步思考”提示的情况下也是如此。论文信息：发布时间：2023-06-06 作者：Fobo Shi, Peijun Qing, Dong Yang等机构：未知研究方向：提示工程，大型语言模型推理核心技术：提示空间（Prompt Space）研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开：现有问题传统提示方法在复杂推理任务上表现不佳模型难以处理需要多步骤推理的问题缺乏系统化的推理引导方法研究动机本研究旨在探索更有效的提示工程技术，提...

通用自适应提示

Posted on 五月 24, 2023

论文概述通用自适应提示（Universal Self-Adaptive Prompting, USP）通过实现自动提示设计的有效零样本学习来解决 Transformers 的架构限制。与依赖”一个提示适用所有”策略的传统方法不同，USP 对任务进行分类，并选择任务适当的查询和模型生成的响应作为伪示例，以完全自动化的方式将上下文学习泛化到零样本设置。论文信息：发布时间：2023-05-24 作者：Xingchen Wan, Ruoxi Sun, Hootan Nakhost等机构：Google Research 研究方向：提示工程，大型语言模型推理核心技术：零样本学习（Zero Shot Learning）研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开：现有问题传统提示方法在复杂推理任务上...

QLoRA：量化大型语言模型的高效微调

Posted on 五月 23, 2023

论文概述QLoRA 是华盛顿大学提出的一项里程碑式量化微调技术，能够在消费级硬件上高效微调大规模语言模型。关键创新在于结合了三项技术：（1）针对正态分布权重优化的 4 位 NormalFloat（NF4）量化，（2）双重量化以减少量化常数的内存占用，（3）使用 NVIDIA 统一内存的分页优化器来处理内存峰值。QLoRA 能够在单个 48GB GPU 上微调 650 亿参数模型，同时保持完整的 16 位微调性能。生成的 Guanaco 模型系列在 Vicuna 基准测试上达到了 ChatGPT 性能的 99.3%。该论文发表于 NeurIPS 2023，获得超过 2,800 次引用，QLoRA 已成为可访问的大型语言模型微调的事实标准，也是 bitsandbytes 库的基础。论文信息：发布时间：2023-05-23 作者：Tim Dettmers, Artidoro Pagn...

思维树：大型语言模型的审慎问题解决

Posted on 五月 17, 2023

论文概述思维树（Tree of Thoughts, ToT）是一个突破性框架，它通过允许语言模型通过树结构搜索探索多条推理路径，从而推广了思维链（Chain of Thought）方法。与 CoT 的线性逐token生成不同，ToT 允许大型语言模型通过考虑多条不同的推理路径、自我评估选择，以及在必要时回溯来进行审慎的决策制定，以做出全局性选择。这使得能够解决需要探索、战略性前瞻或初始决策起关键作用的复杂任务。论文信息：发布时间：2023-05-17 作者：Shunyu Yao, Dian Yu, Jeffrey Zhao等机构：未知研究方向：提示工程，大型语言模型推理核心技术：思维树（Tree of Thoughts）研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开：现有问题传统提示方...

PyTorch FSDP: 全分片数据并行的扩展经验

Posted on 四月 21, 2023

论文概述PyTorch FSDP（全分片数据并行，Fully Sharded Data Parallel）是PyTorch团队提供的工业级分布式训练解决方案，通过与PyTorch核心基础设施的深度协同设计，实现了全分片数据并行。系统在GPU之间分片模型参数、梯度和优化器状态，同时保持PyTorch编程接口。该系统已成为大规模模型训练的可访问解决方案，提供与DDP相当的性能，同时支持显著更大的模型。论文信息：发布时间：2023-04-21 作者：Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo等机构：Meta (Facebook) AI 研究方向：分布式训练、模型扩展核心技术：全分片数据并行 (Fully Sharded Data Parallel) 研究背景随着模型规模不断增长，分布式训练成为必需。本研究针对以下问题展开：现有问...

Self-Refine: 通过自我反馈进行迭代优化

Posted on 三月 30, 2023

论文概述Self-Refine是来自CMU、AI2和顶级研究机构的一个有影响力的迭代优化框架，使大型语言模型能够通过自我生成的反馈自主改进其输出。关键洞察是，就像人类一样，大型语言模型很少在第一次尝试时产生最佳输出，但可以批评和优化自己的工作。三步过程 - (1) 生成初始输出，(2) 提供自我反馈，(3) 基于反馈进行优化 - 不需要额外的训练、监督数据或强化学习。在7个不同任务（对话、数学推理、代码生成、情感反转、首字母缩略词生成、约束生成、评论改写）上使用GPT-3.5、ChatGPT和GPT-4进行评估，Self-Refine平均提高约20%的性能，人类强烈偏好其输出。该成果发表于NeurIPS 2023，影响了众多关于大型语言模型自我改进和批评的后续工作。论文信息：发布时间：2023-03-30 作者：Aman Madaan, Niket Tandon, Prakha...

从标注数据自动增强和选择思维链提示

Posted on 二月 24, 2023

论文概述Automate-CoT解决了手动思维链提示工程的挑战，通过从标注的训练数据自动生成和选择高质量的理性推理链。它使用机器生成的理性推理配合方差减少的策略梯度优化来选择最优的提示组合，消除了对人工标注推理链的需求，同时达到最先进的性能。论文信息：发布时间：2023-02-24 作者：KaShun Shum, Shizhe Diao, Tong Zhang 机构：Hong Kong University of Science and Technology, University of Illinois Urbana-Champaign 研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术：自动思维链 (Automatic CoT) 研究背景思维链提示在推理任务上表现出色，但手工制作高质量的推理链需要大量...

提示模式目录：增强ChatGPT的提示工程

Posted on 二月 21, 2023

论文概述本文引入了一种基于模式的提示工程方法，提出了一个类似于软件设计模式的提示模式目录。这些模式为大型语言模型交互中的常见问题提供可重用的解决方案，提供了一个系统化的框架来记录、应用和组合提示，以改善输出质量和交互效果。论文信息：发布时间：2023-02-21 作者：Jules White, Quchen Fu, Sam Hays等机构：范德堡大学研究方向：提示工程, 大型语言模型推理核心技术：提示模式研究背景大型语言模型在各类任务中展现出强大的能力，但有效的提示工程仍然是一项需要专业知识和经验的技能。本研究针对以下问题展开：现有问题提示工程缺乏系统化的方法论难以总结和传播有效的提示技巧缺乏可重用的提示解决方案研究动机本研究旨在借鉴软件工程中的设计模式思想，为提示工程建立系统化的模式目录，特别关注提示工程、提示模式、软件模式等关键技术。核心方法方法概述...

大型语言模型是推理教师

Posted on 十二月 20, 2022

论文概述本文提出了Fine-tune-CoT（思维链微调）方法，使用大型语言模型作为推理教师，使较小的模型具备复杂推理能力。通过从超大型教师模型生成推理样本来微调较小的模型，该方法将模型规模要求降低了几个数量级，同时实现了显著的推理能力。论文信息：发布时间：2022-12-20 作者：Namgyu Ho, Laura Schmid, Se-Young Yun 机构：KAIST 研究方向：提示工程, 大型语言模型推理核心技术：知识蒸馏研究背景大型语言模型在复杂推理任务上展现出强大的能力，但这些能力通常需要超过100B参数的模型才能涌现。本研究针对以下问题展开：现有问题复杂推理能力主要存在于超大规模模型中小型模型在推理任务上表现不佳缺乏将大模型推理能力迁移到小模型的有效方法研究动机本研究旨在探索如何将大型语言模型的推理能力蒸馏到小型模型中，使得小型模型也能具备复杂...

宪法AI：基于AI反馈实现无害性

Posted on 十二月 15, 2022

论文概述宪法AI（CAI）是Anthropic提出的一种突破性对齐方法，通过自我改进和最少的人工监督来训练无害的AI助手。该方法使用”基于AI反馈的强化学习”（RLAIF）而非人工标注来判断有害性，由一组原则（即”宪法”）进行指导。CAI结合了监督学习阶段（模型批评和修订自己的输出）和强化学习阶段（AI评估训练偏好模型）。这种方法产生了无害但不回避的助手，能够通过解释反对意见来深思熟虑地处理有害查询，在显著降低人工标注成本的同时实现了卓越的对齐效果。论文信息：发布时间：2022-12-15 作者：Yuntao Bai, Saurav Kadavath, Sandipan Kundu等机构：Anthropic 研究方向：提示工程, 大型语言模型推理核心技术：宪法AI对齐研究背景大型语言模型（LLM）在各类任务中展现出强大的能力，但如何确保模型输出的安全性和对齐性仍是一个重...

SmoothQuant：用于大语言模型的准确高效训练后量化

Posted on 十一月 21, 2022

Key Contributions 开创性的激活平滑技术，通过等价变换将量化难度从激活数学上迁移到权重在OPT、BLOOM、GLM、MT-NLG、Llama、Falcon、Mistral和Mixtral模型上实现无需训练的W8A8量化，精度损失可忽略不计展示了高达1.56倍的推理加速和2倍的内存减少，使530B参数LLM能够在单节点上服务解决了阻止先前方法准确进行LLM激活INT8量化的激活离群值问题使LLM中的所有矩阵乘法(包括注意力层和FFN层)都能量化为INT8，而不仅仅是权重被工业界广泛采用：NVIDIA TensorRT-LLM(2023)、Microsoft ONNX Runtime(2024)、Amazon SageMaker(2023) MethodologySmoothQuant解决了LLM权重易于量化但激活具有极端离群值导致大量化误差的关键挑战。核心洞...

大型语言模型是人类级别的提示工程师

Posted on 十一月 3, 2022

论文概述这项突破性工作引入了自动提示工程师（Automatic Prompt Engineer, APE）框架，能够自动为大型语言模型生成和选择指令。APE将指令视为程序，通过搜索LLM提议的候选指令进行优化，并在另一个LLM上评估零样本性能来选择最佳指令。该方法在24个NLP任务中的19个上超过了人工编写的提示，标志着自动化提示工程过程的重大进展。论文信息：发布时间：2022-11-03 作者：Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han等机构：University of Montreal, University of Oxford, UC Berkeley等研究方向：提示工程、LLM推理核心技术：自动提示工程（APE）研究背景提示工程通常需要大量人工尝试和专业知识，这限制了其应用范围和效率。本研究针对以下问题展开： ...

GPTQ：用于生成式预训练Transformer的准确训练后量化

Posted on 十月 31, 2022

Abstract生成式预训练Transformer模型，即GPT或OPT，通过在复杂语言建模任务中的突破性表现脱颖而出，但同时也因其极高的计算和存储成本而著称。具体来说，由于其庞大的规模，即使是大型高精度GPT模型的推理也可能需要多个高性能GPU，这限制了此类模型的可用性。虽然有新兴工作通过模型压缩来缓解这一压力，但现有压缩技术的适用性和性能受到GPT模型规模和复杂性的限制。在本文中，我们应对了这一挑战，并提出了GPTQ，一种基于近似二阶信息的新型一次性权重量化方法，既高度准确又高度高效。具体而言，GPTQ可以在大约四个GPU小时内量化具有1750亿参数的GPT模型，将位宽降至每个权重3或4位，相对于未压缩基线的精度下降可忽略不计。 Key Contributions GPTQ：基于近似二阶信息的新型一次性权重量化方法能够在约4个GPU小时内量化1750亿参数模型将每个权重降至3...

ReAct: 在语言模型中协同推理与行动

Posted on 十月 6, 2022

论文概述ReAct引入了一种范式，其中大型语言模型以交错的方式生成推理轨迹和特定任务的行动，在两种能力之间创造协同效应。推理轨迹帮助模型推导、跟踪和更新行动计划，同时处理异常情况，而行动允许它与外部源（如知识库或环境）交互以收集额外信息。这种方法克服了纯推理或纯行动方法的局限性，在可解释性和可信度方面取得了显著改进。论文信息：发布时间：2022-10-06 作者：Shunyu Yao, Jeffrey Zhao, Dian Yu等机构：Princeton University, Google Research 研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术：推理与行动协同 (ReAct) 研究背景大型语言模型在各类任务中展现出强大的能力，但纯推理方法容易产生幻觉，而纯行动方法缺乏规划能力。本研究针对...

分解式提示：解决复杂任务的模块化方法

Posted on 十月 5, 2022

论文概述这项来自Allen AI的工作引入了分解式提示（Decomposed Prompting），一种通过提示将复杂任务分解为更简单子任务的模块化方法。每个子任务被委托给一个专门的基于提示的LLM库，允许进行优化、进一步分解，或用更有效的解决方案（包括训练模型或符号函数）替换。论文信息：发布时间：2022-10-05 作者：Tushar Khot, Harsh Trivedi, Matthew Finlayson等机构：Allen Institute for AI 研究方向：提示工程、LLM推理核心技术：任务分解（Task Decomposition）研究背景大型语言模型在处理复杂任务时往往力不从心，单一提示难以涵盖所有必要的推理步骤。本研究针对以下问题展开：现有问题复杂任务难以用单一提示有效处理不同子任务需要不同的专业知识和推理策略缺乏系统化的任务分解和模块...

Public Multimodal Dataset (PMD)：Meta开源的7000万图文对数据集

Posted on 六月 15, 2022

多模态预训练的基石：Meta的7000万图文对开源数据集在多模态AI发展历程中，高质量的图文配对数据始终是核心瓶颈。Meta AI（原Facebook AI Research）于2022年发布的Public Multimodal Dataset（PMD），以7000万图文对、6800万唯一图像的规模，成为多模态预训练领域的重要里程碑。这个数据集不仅为FLAVA等突破性模型提供了训练基础，更为整个AI社区树立了大规模多模态数据集的标杆。数据集概览：规模与构成核心统计数据图文对总数：7000万对唯一图像数：6800万张来源数据集：8个高质量公开数据集主要语言：英语许可证：CC-BY-4.0（需遵守各子数据集许可）数据来源组成PMD的独特之处在于它是一个精心策划的数据集集合，而非单一来源： Conceptual Captions - 高质量的图像描述数据 Concept...

从简到繁提示使大型语言模型能够进行复杂推理

Posted on 五月 21, 2022

论文概述从简到繁提示 (Least-to-Most Prompting) 是一种创新的提示工程策略，通过将复杂问题分解为一系列更简单的子问题并顺序解决它们，实现了强大的组合泛化能力。受教育心理学”由简到繁”学习策略的启发，这种方法使大型语言模型能够解决比训练示例更复杂的问题。实验表明，使用GPT-3 code-davinci-002配合从简到繁提示，在SCAN组合泛化基准测试的任何分割上都能达到至少99%的准确率（仅用14个示例），而标准思维链提示只能达到16%。论文信息：发布时间：2022-05-21 作者：Denny Zhou, Nathanael Schärli, Le Hou等机构：Google Research, Google Brain 研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术：从简...

自洽性改进语言模型中的思维链推理

Posted on 三月 21, 2022

论文概述本论文提出了自洽性 (Self-Consistency)，这是一种新颖的解码策略，通过替换朴素的贪婪解码显著改进思维链提示。自洽性不是只采用贪婪路径，而是采样一组多样化的推理路径，并通过对采样路径进行边缘化来选择最一致的答案。这利用了一个直觉：复杂的推理问题通常允许多种不同的思考方式，但都导向唯一的正确答案，在多个推理基准测试中实现了显著的性能提升。论文信息：发布时间：2022-03-21 作者：Xuezhi Wang, Jason Wei, Dale Schuurmans等机构：Google Research 研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术：自洽性 (Self-Consistency) 研究背景大型语言模型在思维链提示下展现出强大的推理能力，但单次生成的结果可能不稳定。本研...

思维链提示激发大型语言模型的推理能力

Posted on 一月 28, 2022

论文概述思维链 (Chain-of-Thought, CoT) 提示是一项突破性技术，通过生成中间推理步骤显著提高大型语言模型的推理能力。本论文展示了如何通过简单的少样本提示配合推理链，在算术、常识和符号推理任务上实现突破性性能，而无需任何模型微调。CoT已成为现代大型语言模型应用中的基础技术之一。论文信息：发布时间：2022-01-28 作者：Jason Wei, Xuezhi Wang, Dale Schuurmans等机构：Google Research, Google Brain 研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术：思维链 (Chain-of-Thought) 研究背景大型语言模型在各类任务中展现出强大的能力，但如何有效引导模型进行复杂推理仍是一个挑战。本研究针对以下问题展开： ...

展示你的工作：使用语言模型草稿本进行中间计算

Posted on 十一月 30, 2021

论文概述这项来自Google Research的开创性工作引入了”草稿本”（scratchpad）技术，通过训练transformer输出中间计算步骤，极大地提高了它们执行复杂多步骤计算的能力。通过要求语言模型”逐步”展示其工作过程，该方法使LM能够解决从长加法到执行任意程序等以前难以处理的任务。论文信息：发布时间：2021-11-30 作者：Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari等机构：Google Research 研究方向：提示工程、LLM推理核心技术：思维链（Chain-of-Thought）研究背景语言模型在单步预测任务上表现出色，但在需要多步计算的复杂任务上遇到困难。本研究针对以下问题展开：现有问题语言模型难以执行需要多步骤的复杂计算模型的中间推理过程不可见，难以调试和理解长序列计算容易出错...

微调后的语言模型是零样本学习者（FLAN）

Posted on 九月 3, 2021

论文概述FLAN（Finetuned Language Model for Instruction Following，遵循指令的微调语言模型）是指令微调领域的开创性工作。这篇论文证明，通过自然语言指令描述的多任务微调可以显著提高在未见任务上的零样本性能。通过在60+个NLP任务上进行指令微调，FLAN 137B在25个评估任务中的20个上超过了零样本175B GPT-3。这项工作证明了指令微调是将语言模型转变为更通用任务执行器的强大范式。论文信息：发布时间：2021-09-03 作者：Jason Wei, Maarten Bosma, Vincent Y. Zhao等机构：Google Research, Google Brain 研究方向：提示工程、LLM推理核心技术：指令微调（Instruction Tuning）研究背景大型语言模型（LLM）虽然强大，但在零样本...

在GPU集群上使用Megatron-LM高效训练大规模语言模型

Posted on 四月 9, 2021

论文概述Megatron-LM是来自NVIDIA、微软和顶尖大学的里程碑式分布式训练系统，能够在数千个GPU上高效训练万亿参数语言模型。其核心创新是三维并行（3D Parallelism） - 组合张量并行（节点内）、流水线并行（节点间）和数据并行，以高效地在GPU集群上分区大规模模型。Megatron在3,072个A100 GPU上训练1万亿参数模型时达到502 petaFLOPs，实现了理论峰值吞吐量的52%，并具有近乎完美的线性扩展性。新颖的交错流水线调度相比传统方法提升了10%以上的吞吐量。该工作发表于SC21（超级计算2021）并获得最佳论文奖，Megatron-LM已成为大规模LLM训练的事实标准，被GPT-3、Turing-NLG等众多研究项目采用。论文信息：发布时间：2021-04-09 作者：Deepak Narayanan, Mohammad Shoeybi...

ZeRO-Offload: 将十亿规模模型训练平民化

Posted on 一月 18, 2021

论文概述ZeRO-Offload是微软研究院提出的突破性内存优化技术，通过在单个GPU上实现130亿以上参数模型的训练，将十亿规模模型训练平民化 - 相比原生PyTorch提升了10倍。关键创新是战略性地将优化器状态和梯度卸载到CPU内存，同时将计算密集型的前向/反向传播保持在GPU上，使用NVIDIA统一内存实现自动CPU-GPU数据移动。ZeRO-Offload在V100上为100亿参数模型实现了40 TFlops吞吐量（相比PyTorch训练14亿参数模型的30 TFlops），可近线性扩展到128个GPU，并在与模型并行结合时可在单个DGX-2节点上训练700亿以上参数的模型。该技术于2021年在USENIX ATC发表，并集成到微软DeepSpeed中，使大规模模型训练对没有大规模GPU集群的研究人员和从业者来说变得触手可及。论文信息：发布时间：2021-0...

语言模型是少样本学习者（GPT-3）

Posted on 五月 28, 2020

论文概述GPT-3是一个拥有1750亿参数的自回归语言模型，比之前任何非稀疏语言模型大10倍。这篇突破性论文证明了足够大规模的语言模型可以仅通过文本交互（少样本示例）在各种NLP任务上实现强大性能，无需任何梯度更新或微调 (Fine-Tuning)。GPT-3引入了上下文学习 (In-Context Learning) 的概念，从根本上改变了我们对语言模型能力的理解，开启了大型语言模型时代。论文信息：发布时间：2020-05-28 作者：Tom B. Brown, Benjamin Mann, Nick Ryder等机构：OpenAI 研究方向：提示工程 (Prompt Engineering), 大型语言模型推理 (LLM Reasoning) 核心技术：上下文学习 (In Context Learning) 研究背景大型语言模型在各类任务中展现出强大的能力，但传统方法通...

检索增强生成：用于知识密集型NLP任务

Posted on 五月 22, 2020

论文概述检索增强生成 (Retrieval-Augmented Generation, RAG) 是一个突破性的框架，它结合了预训练的参数化记忆（序列到序列模型）和非参数化记忆（维基百科的密集向量索引），专门用于知识密集型NLP任务。RAG模型使用预训练的神经检索器访问维基百科，然后将检索到的文档作为上下文传递给生成器,产生更具体、更多样化、更符合事实的输出。这项工作在开放域问答任务上达到了最先进水平，并证明了检索增强模型比纯参数化模型产生更可靠和可解释的输出。论文信息：发布时间：2020-05-22 作者：Patrick Lewis, Ethan Perez, Aleksandra Piktus等机构：Facebook AI Research, University College London, New York University 研究方向：提示工程 (Prompt ...

RSD: 奖励引导的推测解码实现高效LLM推理

Posted on 一月 1, 1970

Abstract论文提出Reward-Guided Speculative Decoding (RSD)，一种结合轻量级draft模型和强大target模型的高效推理框架。不同于传统推测解码严格保证无偏性，RSD引入可控偏置来优先选择高奖励输出。通过process reward model评估中间解码步骤，动态决定何时调用target模型，实现计算成本和输出质量的最佳平衡。在奥林匹克级别的推理任务上，相比标准解码方法FLOPs降低4.4倍，同时准确率提升+3.5（相比并行解码方法）。 Key Contributions 奖励引导的推测解码框架: 首次将process reward model引入推测解码，用奖励信号指导draft model生成可控偏置策略: 不追求严格无偏，而是引入可控偏置优先高奖励输出，实现质量-效率平衡动态target model调用: 基于中间步骤的rew...

FlashMLA-ETAP: 高效转置Attention流水线加速H20 GPU上的MLA推理

Posted on 一月 1, 1970

AbstractFlashMLA-ETAP提出了一种针对NVIDIA H20 GPU单实例部署场景优化的Multi-Head Latent Attention (MLA)推理框架。通过引入高效转置Attention流水线(ETAP)，重构attention计算以减少冗余操作，并将KV context长度与WGMMA操作的M维度对齐，充分利用H20硬件特性。在64K序列长度、batch size 16的场景下，相比FlashMLA实现2.78倍加速，相比FlashAttention-3和FlashInfer分别实现5.24倍和4.94倍提升。同时保持数值稳定性，RMSE比FlashMLA低15.2倍。 Key Contributions Efficient Transpose Attention Pipeline (ETAP): 通过转置重构attention计算，减少冗余操作并优化硬...

SageAttention3: 基于微缩放FP4的Attention推理加速与8-bit训练探索

Posted on 一月 1, 1970

AbstractSageAttention3是针对新一代Blackwell GPU的FP4 Tensor Cores设计的高效attention加速方案。该论文提出了针对推理场景的FP4量化attention机制，并首次探索了训练阶段的低bit attention。在RTX5090上实现了1038 TOPS的性能，相比最快的FlashAttention实现提升5倍。此外，论文还开发了准确高效的8-bit attention用于前向和反向传播，在微调任务中实现无损性能，但在预训练中收敛较慢。 Key Contributions FP4 Attention推理加速: 针对Blackwell GPU的FP4 Tensor Cores设计优化的attention计算方案，实现5倍性能提升即插即用设计: 提供plug-and-play接口，可无缝集成到各类LLM推理框架中 8-bit训练探索...

KVLinC: 结合Hadamard旋转和线性校正的KV Cache量化

Posted on 一月 1, 1970

AbstractKVLinC提出了一种缓解KV cache量化中attention误差的框架。通过结合两种关键技术：1) Hadamard旋转以降低value量化误差，2) 轻量级线性校正适配器显式补偿量化key引入的误差。该方法在LLaMA、Qwen2.5和Qwen3模型家族上进行评估，实现了相比Flash Attention基线高达2.55倍的推理加速，同时保持模型性能。设计了定制化attention kernel以最大化效率收益。 Key Contributions Hadamard旋转优化Value量化: 对value cache应用Hadamard变换，均匀化数据分布以降低量化误差线性校正适配器: 引入轻量级线性校正模块显式补偿量化key带来的误差 Key-Value分治策略: 针对key和value的不同特性采用不同的量化和误差缓解策略定制Attention Kern...

VecInfer: 基于向量量化的2-bit KV Cache高效LLM推理

Posted on 一月 1, 1970

AbstractVecInfer针对LLM推理中的KV Cache内存瓶颈问题，提出了一种基于向量量化的激进压缩方案。通过smooth和Hadamard变换抑制key cache中的outlier，实现了对数据分布的全面覆盖。仅使用2-bit量化即可达到与全精度相当的性能，并设计了优化的CUDA kernel最小化内存访问开销。在Llama-3.1-8B模型上，大batch场景下self-attention计算获得2.7倍加速，单batch端到端延迟在196k序列长度下降低8.3倍。 Key Contributions Outlier抑制的向量量化: 通过smooth和Hadamard变换抑制key cache outliers，实现更有效的2-bit向量量化 2-bit极限压缩: 在仅2-bit量化的情况下实现与全精度相当的性能，8倍内存压缩比优化CUDA kernel: 定制化...