MOSS: 用微缩放和自动缩放实现无损 FP8 训练，OLMo-7B 加速 34%

Posted on 十一月 8, 2025

MOSS: 用微缩放和自动缩放实现无损 FP8 训练，OLMo-7B 加速 34% ArXiv ID: 2511.05811作者: Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu机构: The Chinese University of Hong Kong, Huawei Noah’s Ark Lab发布日期: 2025-11-08 FP8 训练的理想与现实FP8 训练的潜力12345678910FP8 vs BF16 理论对比：指标 | BF16 | FP8 | 提升--------------|-------|-------|------计算密度 | 128 | 256 | 2x内存占用 | 100% | 50% | 50%↓通信开销 | 100% | 25-5...

阅读全文

LoRAFusion: 大语言模型的高效LoRA微调系统

Posted on 九月 30, 2025

LoRAFusion: LoRA明明只训练0.3%参数，为什么还这么慢？核心观点：LoRA把175B模型的微调成本降到了全参数训练的1/1000，但大家都忽略了一个事实——LoRA的实现效率很低，大量时间浪费在冗余的内存访问上。LoRAFusion通过算子融合和智能调度，让LoRA训练再快2倍，同时把70B模型的内存需求从1120GB降到142GB（2-3张A100就够）。这不是算法创新，而是把LoRA该有的性能彻底释放出来。 LoRA的性能悖论LoRA的数学很优雅：在每个线性层加一个低秩旁路 ΔW = BA，其中 B∈R^(d×r)，A∈R^(r×d)，rank r 通常只有8-64。理论上，LoRA应该比全参数训练快得多：参数量：只有0.29%需要训练（r=16时）计算量：O(2rdn) vs 全参数的 O(d²n)，当r<<d时可忽略内...

阅读全文

InfiniPipe: 面向长上下文大语言模型训练的数据中心弹性流水线并行

Posted on 九月 25, 2025

InfiniPipe: 当上下文长度从4K飙到192K，传统流水线并行彻底不够用了核心观点：GPT-4能处理128K token、Claude支持200K、Gemini直接上百万，长上下文已经从实验室走进产品。但训练侧呢？传统流水线并行在32K以上就开始崩溃——通信开销爆炸、内存分布失衡、变长序列处理效率低下。InfiniPipe用”弹性流水线并行”重新定义了长上下文训练的范式，核心逻辑：不要让数据适配模型分割，让模型分割适配数据特征。长上下文训练的三重噩梦训练192K token上下文的模型时，传统流水线并行会遇到灾难性问题：噩梦1: 通信开销爆炸流水线并行在stage之间传递激活值。短序列时这不是瓶颈，但长序列让激活值大小从MB级跳到GB级： 4K token：激活值约100MB 32K token：激活值约800MB 192K token：激活值约4.8GB 你的GPU...

阅读全文

消费级GPU上的LoRA/QLoRA微调效率实测: RTX 4060案例研究

Posted on 九月 7, 2025

消费级GPU上的LoRA/QLoRA微调效率实测 ArXiv ID: 2509.12229作者: MSR Avinash发布日期: 2025-09-07硬件: NVIDIA RTX 4060 (8GB VRAM)模型: Qwen2.5-1.5B-Instruct 核心发现这是首个系统性研究消费级GPU上LLM微调效率的论文,为使用RTX 4060等8GB显存显卡的开发者提供了宝贵的优化指南。关键结论: ✅ PagedAdamW优化器相比AdamW提升25%吞吐量 (500→628 tok/s) ✅ fp16精度在RTX 4060上优于bf16 ✅ 8GB VRAM可支持2048 token序列(降低batch size) ✅ 最优配置: batch=4, seq=1024, PagedAdamW, fp16 实用价值: 这些发现直接适...

阅读全文

LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率

Posted on 八月 8, 2025

LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率 ArXiv ID: 2508.06412作者: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian机构: Microsoft Research发布日期: 2025-08-08 摘要LLM 的后训练（RLHF、DPO 等）普遍面临低样本效率问题：每批数据只用一次就丢弃，导致数据利用率极低。如果尝试提高数据复用率，又会导致初始偏差（primacy bias）——模型过拟合早期经验，损害后续学习能力。本文提出的 LoRR（LLM optimization with Reset Replay）是一个通用插件，通过三个核心组件解决这个问题：高重放训练：每批数据复用多次（replay ratio 高达 3-10x）周期性重置：使用 Shrink & Perturb 策略定期重...

阅读全文

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练

Posted on 八月 5, 2025

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练 ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05 摘要GRPO（Group Relative Policy Optimization）在 LLM 对齐训练中越来越流行，但存在两个严重稳定性问题：Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO（Gradient-corrected and Threshold-filtered Policy Optimization）通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上，GT...

阅读全文

MegatronApp: 分布式大语言模型训练的高效全面管理工具链

Posted on 七月 26, 2025

MegatronApp: 训练千亿模型时，你最需要的不是算力，而是这个工具链核心观点：Megatron-LM是业界最强的分布式训练框架之一，但它只解决了”怎么训”的问题，没解决”怎么管”的问题。MegatronApp用四个正交模块补齐了生产环境最缺的那块拼图：性能追踪、资源调度、流水线优化、训练可解释性。为什么Megatron需要一个”管家”训练175B参数的GPT-3级别模型，你需要数百张GPU协同工作数周甚至数月。这时候问题来了：哪张GPU在偷懒？某个节点性能下降5%，但1000张GPU的集群里你找不到它，训练效率就悄悄掉了20% 资源分配不合理？前向传播吃计算，反向传播吃带宽，但你的调度器一视同仁，A100的HBM带宽优势被浪费流水线调度僵化？1F1B（one-forward-one-backward）是固定策略，但不同workload下最优策略不同，内存峰值和吞吐量的...

阅读全文

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了

Posted on 七月 24, 2025

GSPO: Qwen团队用序列级优化重新定义GRPO，MoE训练终于稳了 ArXiv ID: 2507.18071作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin机构: Alibaba Group (Qwen Team)发布日期: 2025-07-24 引言：GRPO的致命缺陷GRPO（Group Relative Policy Optimization）自DeepSeek-R1发布以来，已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络，用组内相对奖励来估计优势值，大幅降低了计算成本。但GRPO有一个被广泛忽视的根本...

阅读全文

DPO全景图：从理论到实践的完整指南

Posted on 七月 14, 2025

DPO全景图：从理论到实践的完整指南 ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14 摘要在大语言模型（LLM）的训练旅程中，让模型”听懂人话”一直是个难题。传统的RLHF（基于人类反馈的强化学习）虽然效果不错，但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型（Reward Model），然后用PPO等强化学习算法反复迭代，整个过程既耗时又吃资源。 DPO（Direct Pref...

阅读全文

ZenFlow: DeepSpeed的无停顿卸载训练引擎，5倍加速ZeRO-Offload

Posted on 五月 18, 2025

ZenFlow: DeepSpeed的无停顿卸载训练引擎，5倍加速ZeRO-Offload ArXiv ID: 2505.12242作者: Tingfeng Lan, Yusen Wu, Bin Ma, Zhaoyuan Su, Rui Yang, Tekin Bicer, Masahiro Tanaka, Olatunji Ruwase, Dong Li, Yue Cheng机构: University of Virginia, UC Merced, Argonne National Laboratory, Microsoft DeepSpeed Team发布日期: 2025-05-18 GPU卸载的14倍减速困境当GPU显存不足以容纳整个模型时，将部分模型状态卸载到CPU内存是常见解决方案。但ZeRO-Offload的代价巨大——Llama 2-7B在4张A100上：无卸载每步...

阅读全文

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南

Posted on 四月 16, 2025

Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南 ArXiv ID: 2504.12501作者: Nathan Lambert机构: Independent Researcher发布日期: 2025-04-16 (最新更新: 2025-11-02)页数: 144页Web版本: rlhfbook.com 摘要这是一部全面覆盖**强化学习人类反馈(RLHF)**方法论的144页专著,为LLM对齐领域提供了迄今为止最系统的教学资源。作者Nathan Lambert以温和渐进的方式,从历史根源到实践部署,构建了完整的RLHF知识体系。本书不仅仅是技术手册,更是一座连接理论与实践的桥梁。它追溯RLHF在经济学(偏好理论)、哲学(价值对齐)和最优控制(强化学习)的跨学科根源,帮助读者理解”为什么RLHF有效”而非仅仅”如何使用...

阅读全文

DPO Meets PPO: Token级强化优化统一RLHF范式

Posted on 四月 29, 2024

DPO Meets PPO: Token级强化优化统一RLHF范式 ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng (Peking Univ) + Wei Xiong (Princeton) + Microsoft Research机构: Peking University, Princeton University, Microsoft Research发布日期: 2024-04-29 (最新更新: 2025-05-21)会议: ICML 2025代码: GitHub 核心创新这篇ICML 2025论文提出了Reinforced Token Optimization (RTO),首次成功将DPO和PPO两大RLHF范式统一。传统RLHF方法要么使用离线DPO(简单但性能有限),要么使用在线PPO(强大但复杂)...

阅读全文