ZeRO-Offload: 将十亿规模模型训练平民化

Posted on 一月 18, 2021

论文概述ZeRO-Offload是微软研究院提出的突破性内存优化技术，通过在单个GPU上实现130亿以上参数模型的训练，将十亿规模模型训练平民化 - 相比原生PyTorch提升了10倍。关键创新是战略性地将优化器状态和梯度卸载到CPU内存，同时将计算密集型的前向/反向传播保持在GPU上，使用NVIDIA统一内存实现自动CPU-GPU数据移动。ZeRO-Offload在V100上为100亿参数模型实现了40 TFlops吞吐量（相比PyTorch训练14亿参数模型的30 TFlops），可近线性扩展到128个GPU，并在与模型并行结合时可在单个DGX-2节点上训练700亿以上参数的模型。该技术于2021年在USENIX ATC发表，并集成到微软DeepSpeed中，使大规模模型训练对没有大规模GPU集群的研究人员和从业者来说变得触手可及。论文信息：发布时间：2021-0...

阅读全文