InfiniPipe: 当上下文长度从4K飙到192K,传统流水线并行彻底不够用了核心观点:GPT-4能处理128K token、Claude支持200K、Gemini直接上百万,长上下文已经从实验室走进产品。但训练侧呢?传统流水线并行在32K以上就开始崩溃——通信开销爆炸、内存分布失衡、变长序列处理效率低下。InfiniPipe用”弹性流水线并行”重新定义了长上下文训练的范式,核心逻辑:不要让数据适配模型分割,让模型分割适配数据特征。
长上下文训练的三重噩梦训练192K token上下文的模型时,传统流水线并行会遇到灾难性问题:
噩梦1: 通信开销爆炸流水线并行在stage之间传递激活值。短序列时这不是瓶颈,但长序列让激活值大小从MB级跳到GB级:
4K token:激活值约100MB
32K token:激活值约800MB
192K token:激活值约4.8GB
你的GPU...