思维骨架：提示大型语言模型进行高效并行生成

Posted on 七月 28, 2023

论文概述思维骨架（Skeleton-of-Thought, SoT）是清华大学和微软研究院提出的一种创新推理优化技术，通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架（大纲），然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估，SoT 实现了高达 2.39 倍的加速，同时保持或提高答案质量。该论文发表于 ICLR 2024，SoT 展示了一种以数据为中心的推理效率方法，将大型语言模型视为黑盒，并适用于任何现成的模型，包括基于 API 的服务。论文信息：发布时间：2023-07-28 作者：Xuefei Ning, Zinan Lin, Zixuan Zhou等机构：清华大学...

阅读全文