Infinite Retrieval: 基于注意力增强的无限长上下文处理

论文概述Infinite Retrieval(InfiniRetri)是一项突破性的研究成果,解决了大语言模型在处理超长上下文输入时面临的核心挑战。该方法的创新之处在于利用模型自身的注意力信息来实现对无限长输入的精确检索,而无需任何额外训练。研究团队发现模型的注意力分布与生成答案之间存在强相关性,基于这一洞察设计了InfiniRetri方法。在Needle-In-a-Haystack测试中,该方法处理超过100万token时达到100%准确率,在真实场景中带来高达288%的性能提升。 论文信息: 发布时间:2025-02-18 作者:Xiaoju Ye, Zhichun Wang, Jingyuan Wang 研究方向:上下文工程 (Context Engineering), 长上下文处理 (Long-Context Processing) 核心技术:注意力增强 (Attentio...

阅读全文

基于潜在推理的测试时计算扩展:循环深度方法

论文概述这项研究提出了一种全新的语言模型架构,通过在潜在空间中进行隐式推理来实现测试时计算的扩展。与传统方法通过生成更多token来扩展推理能力不同,该模型采用了循环块迭代的创新设计,能够在测试时展开至任意深度,从而在不增加输出长度的情况下显著提升推理能力。研究团队将概念验证模型扩展到35亿参数,在计算效率上达到相当于500亿参数传统模型的水平,且无需专门训练数据,可在小上下文窗口下工作。 论文信息: 发布时间:2025-02-07 作者:Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein 研究方向:提示工程 (Prompt Engineerin...

阅读全文

QServe:用于高效LLM服务的W4A8KV4量化与系统协同设计

Abstract量化可以加速大语言模型(LLM)推理。在INT8量化之外,研究社区正在积极探索更低精度,如INT4。然而,最先进的INT4量化技术仅能加速低批量、边缘LLM推理,无法在大批量、基于云的LLM服务中提供性能提升。我们发现了一个关键问题:现有的INT4量化方法在GPU上对权重或部分和进行反量化时存在显著的运行时开销(20-90%)。为了解决这一挑战,我们引入了QoQ,一种W4A8KV4量化算法,采用4位权重、8位激活和4位KV缓存。QoQ代表quattuor-octo-quattuor,在拉丁语中表示4-8-4。QoQ通过QServe推理库实现,并取得了可测量的加速。 Key Contributions QoQ (quattuor-octo-quattuor):结合4位权重、8位激活、4位KV缓存的新型W4A8KV4量化算法 渐进量化技术,在W4A8 GEMM中实现低反量...

阅读全文

思维骨架:提示大型语言模型进行高效并行生成

论文概述思维骨架(Skeleton-of-Thought, SoT)是清华大学和微软研究院提出的一种创新推理优化技术,通过并行解码减少大型语言模型的生成延迟。受人类思维过程的启发——我们在详细阐述之前首先概述想法——SoT 提示大型语言模型首先生成答案的高层骨架(大纲),然后通过批量解码或并行 API 调用并行完成每个骨架点。在包括 GPT-4、LLaMA 和 Vicuna 在内的 12 个大型语言模型和多样化问题类型上进行评估,SoT 实现了高达 2.39 倍的加速,同时保持或提高答案质量。该论文发表于 ICLR 2024,SoT 展示了一种以数据为中心的推理效率方法,将大型语言模型视为黑盒,并适用于任何现成的模型,包括基于 API 的服务。 论文信息: 发布时间:2023-07-28 作者:Xuefei Ning, Zinan Lin, Zixuan Zhou等 机构:清华大学...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero