InfiniPipe: 面向长上下文大语言模型训练的数据中心弹性流水线并行

Posted on 九月 25, 2025

InfiniPipe: 当上下文长度从4K飙到192K，传统流水线并行彻底不够用了核心观点：GPT-4能处理128K token、Claude支持200K、Gemini直接上百万，长上下文已经从实验室走进产品。但训练侧呢？传统流水线并行在32K以上就开始崩溃——通信开销爆炸、内存分布失衡、变长序列处理效率低下。InfiniPipe用”弹性流水线并行”重新定义了长上下文训练的范式，核心逻辑：不要让数据适配模型分割，让模型分割适配数据特征。长上下文训练的三重噩梦训练192K token上下文的模型时，传统流水线并行会遇到灾难性问题：噩梦1: 通信开销爆炸流水线并行在stage之间传递激活值。短序列时这不是瓶颈，但长序列让激活值大小从MB级跳到GB级： 4K token：激活值约100MB 32K token：激活值约800MB 192K token：激活值约4.8GB 你的GPU...

阅读全文