MOSS: 用微缩放和自动缩放实现无损 FP8 训练,OLMo-7B 加速 34%
ArXiv ID: 2511.05811作者: Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu机构: The Chinese University of Hong Kong, Huawei Noah’s Ark Lab发布日期: 2025-11-08
FP8 训练的理想与现实FP8 训练的潜力12345678910FP8 vs BF16 理论对比:指标 | BF16 | FP8 | 提升--------------|-------|-------|------计算密度 | 128 | 256 | 2x内存占用 | 100% | 50% | 50%↓通信开销 | 100% | 25-5...