论文概述思维骨架(Skeleton-of-Thought, SoT)是清华大学和微软研究院提出的一种创新推理优化技术,通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架(大纲),然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估,SoT 实现了高达 2.39 倍的加速,同时保持或提高答案质量。该论文发表于 ICLR 2024,SoT 展示了一种以数据为中心的推理效率方法,将大型语言模型视为黑盒,并适用于任何现成的模型,包括基于 API 的服务。
论文信息:
发布时间:2023-07-28
作者:Xuefei Ning, Zinan Lin, Zixuan Zhou等
机构:清华大学...