ZeRO-Offload: 将十亿规模模型训练平民化

论文概述ZeRO-Offload是微软研究院提出的突破性内存优化技术,通过在单个GPU上实现130亿以上参数模型的训练,将十亿规模模型训练平民化 - 相比原生PyTorch提升了10倍。关键创新是战略性地将优化器状态和梯度卸载到CPU内存,同时将计算密集型的前向/反向传播保持在GPU上,使用NVIDIA统一内存实现自动CPU-GPU数据移动。ZeRO-Offload在V100上为100亿参数模型实现了40 TFlops吞吐量(相比PyTorch训练14亿参数模型的30 TFlops),可近线性扩展到128个GPU,并在与模型并行结合时可在单个DGX-2节点上训练700亿以上参数的模型。该技术于2021年在USENIX ATC发表,并集成到微软DeepSpeed中,使大规模模型训练对没有大规模GPU集群的研究人员和从业者来说变得触手可及。 论文信息: 发布时间:2021-0...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero