LoRAFusion: LoRA明明只训练0.3%参数,为什么还这么慢?核心观点:LoRA把175B模型的微调成本降到了全参数训练的1/1000,但大家都忽略了一个事实——LoRA的实现效率很低,大量时间浪费在冗余的内存访问上。LoRAFusion通过算子融合和智能调度,让LoRA训练再快2倍,同时把70B模型的内存需求从1120GB降到142GB(2-3张A100就够)。这不是算法创新,而是把LoRA该有的性能彻底释放出来。
LoRA的性能悖论LoRA的数学很优雅:在每个线性层加一个低秩旁路 ΔW = BA,其中 B∈R^(d×r),A∈R^(r×d),rank r 通常只有8-64。
理论上,LoRA应该比全参数训练快得多:
参数量:只有0.29%需要训练(r=16时)
计算量:O(2rdn) vs 全参数的 O(d²n),当r<<d时可忽略
内...
突破记忆墙:长上下文代理LLM推理的优化路径
突破记忆墙:长上下文代理LLM推理的优化路径论文信息
标题: Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference
作者: Haoran Wu, Can Xiao, Jiayi Nie, Xuan Guo, Binglei Lou, Jeffrey T. H. Wong, Zhiwen Mo, Cheng Zhang, Przemyslaw Forys, Wayne Luk, Hongxiang Fan, Jianyi Cheng, Timothy M. Jones, Rika Antonova, Robert Mullins, Aaron Zhao
发布日期: 2025-09-11
ArXiv链接: https://arxiv.org/abs/2509.095...
ChunkKV:基于语义块的KV缓存压缩技术
ChunkKV:基于语义块的KV缓存压缩技术
ArXiv ID: 2502.00299作者: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Yue Liu, Bo Li, Xuming Hu, Xiaowen Chu机构: NVIDIA, Hong Kong University of Science and Technology发布日期: 2025-02-01会议: NeurIPS 2025
摘要传统KV缓存压缩方法以单个token为单位进行重要性评估和淘汰,忽略了语言的语义连贯性。ChunkKV创新性地将语义块(semantic chunks)作为压缩的基本单元,保持完整的语言结构和上下文完整性。
系统通过三个核心技术实现高效压缩:
语义块识别:基于句法分析和语义边界检测,将token序列划分为有意义的语义单元
块级重要性评估...