MOSS: 用微缩放和自动缩放实现无损 FP8 训练,OLMo-7B 加速 34%
ArXiv ID: 2511.05811作者: Yu Zhang, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu机构: The Chinese University of Hong Kong, Huawei Noah’s Ark Lab发布日期: 2025-11-08
FP8 训练的理想与现实FP8 训练的潜力12345678910FP8 vs BF16 理论对比:指标 | BF16 | FP8 | 提升--------------|-------|-------|------计算密度 | 128 | 256 | 2x内存占用 | 100% | 50% | 50%↓通信开销 | 100% | 25-5...
LoRAFusion: 大语言模型的高效LoRA微调系统
LoRAFusion: LoRA明明只训练0.3%参数,为什么还这么慢?核心观点:LoRA把175B模型的微调成本降到了全参数训练的1/1000,但大家都忽略了一个事实——LoRA的实现效率很低,大量时间浪费在冗余的内存访问上。LoRAFusion通过算子融合和智能调度,让LoRA训练再快2倍,同时把70B模型的内存需求从1120GB降到142GB(2-3张A100就够)。这不是算法创新,而是把LoRA该有的性能彻底释放出来。
LoRA的性能悖论LoRA的数学很优雅:在每个线性层加一个低秩旁路 ΔW = BA,其中 B∈R^(d×r),A∈R^(r×d),rank r 通常只有8-64。
理论上,LoRA应该比全参数训练快得多:
参数量:只有0.29%需要训练(r=16时)
计算量:O(2rdn) vs 全参数的 O(d²n),当r<<d时可忽略
内...
InfiniPipe: 面向长上下文大语言模型训练的数据中心弹性流水线并行
InfiniPipe: 当上下文长度从4K飙到192K,传统流水线并行彻底不够用了核心观点:GPT-4能处理128K token、Claude支持200K、Gemini直接上百万,长上下文已经从实验室走进产品。但训练侧呢?传统流水线并行在32K以上就开始崩溃——通信开销爆炸、内存分布失衡、变长序列处理效率低下。InfiniPipe用”弹性流水线并行”重新定义了长上下文训练的范式,核心逻辑:不要让数据适配模型分割,让模型分割适配数据特征。
长上下文训练的三重噩梦训练192K token上下文的模型时,传统流水线并行会遇到灾难性问题:
噩梦1: 通信开销爆炸流水线并行在stage之间传递激活值。短序列时这不是瓶颈,但长序列让激活值大小从MB级跳到GB级:
4K token:激活值约100MB
32K token:激活值约800MB
192K token:激活值约4.8GB
你的GPU...
消费级GPU上的LoRA/QLoRA微调效率实测: RTX 4060案例研究
消费级GPU上的LoRA/QLoRA微调效率实测
ArXiv ID: 2509.12229作者: MSR Avinash发布日期: 2025-09-07硬件: NVIDIA RTX 4060 (8GB VRAM)模型: Qwen2.5-1.5B-Instruct
核心发现这是首个系统性研究消费级GPU上LLM微调效率的论文,为使用RTX 4060等8GB显存显卡的开发者提供了宝贵的优化指南。
关键结论:
✅ PagedAdamW优化器相比AdamW提升25%吞吐量 (500→628 tok/s)
✅ fp16精度在RTX 4060上优于bf16
✅ 8GB VRAM可支持2048 token序列(降低batch size)
✅ 最优配置: batch=4, seq=1024, PagedAdamW, fp16
实用价值: 这些发现直接适...
LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率
LoRR: 用重置重放机制提升 LLM 偏好优化的样本效率
ArXiv ID: 2508.06412作者: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian机构: Microsoft Research发布日期: 2025-08-08
摘要LLM 的后训练(RLHF、DPO 等)普遍面临低样本效率问题:每批数据只用一次就丢弃,导致数据利用率极低。如果尝试提高数据复用率,又会导致初始偏差(primacy bias)——模型过拟合早期经验,损害后续学习能力。
本文提出的 LoRR(LLM optimization with Reset Replay) 是一个通用插件,通过三个核心组件解决这个问题:
高重放训练:每批数据复用多次(replay ratio 高达 3-10x)
周期性重置:使用 Shrink & Perturb 策略定期重...
GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练
GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练
ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05
摘要GRPO(Group Relative Policy Optimization)在 LLM 对齐训练中越来越流行,但存在两个严重稳定性问题:Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO(Gradient-corrected and Threshold-filtered Policy Optimization)通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上,GT...
MegatronApp: 分布式大语言模型训练的高效全面管理工具链
MegatronApp: 训练千亿模型时,你最需要的不是算力,而是这个工具链核心观点:Megatron-LM是业界最强的分布式训练框架之一,但它只解决了”怎么训”的问题,没解决”怎么管”的问题。MegatronApp用四个正交模块补齐了生产环境最缺的那块拼图:性能追踪、资源调度、流水线优化、训练可解释性。
为什么Megatron需要一个”管家”训练175B参数的GPT-3级别模型,你需要数百张GPU协同工作数周甚至数月。这时候问题来了:
哪张GPU在偷懒?某个节点性能下降5%,但1000张GPU的集群里你找不到它,训练效率就悄悄掉了20%
资源分配不合理?前向传播吃计算,反向传播吃带宽,但你的调度器一视同仁,A100的HBM带宽优势被浪费
流水线调度僵化?1F1B(one-forward-one-backward)是固定策略,但不同workload下最优策略不同,内存峰值和吞吐量的...
GSPO: Qwen团队用序列级优化重新定义GRPO,MoE训练终于稳了
GSPO: Qwen团队用序列级优化重新定义GRPO,MoE训练终于稳了
ArXiv ID: 2507.18071作者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin机构: Alibaba Group (Qwen Team)发布日期: 2025-07-24
引言:GRPO的致命缺陷GRPO(Group Relative Policy Optimization)自DeepSeek-R1发布以来,已经成为LLM强化学习训练的事实标准。它去掉了PPO中昂贵的Critic网络,用组内相对奖励来估计优势值,大幅降低了计算成本。但GRPO有一个被广泛忽视的根本...
DPO全景图:从理论到实践的完整指南
DPO全景图:从理论到实践的完整指南
ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14
摘要在大语言模型(LLM)的训练旅程中,让模型”听懂人话”一直是个难题。传统的RLHF(基于人类反馈的强化学习)虽然效果不错,但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型(Reward Model),然后用PPO等强化学习算法反复迭代,整个过程既耗时又吃资源。
DPO(Direct Pref...
ZenFlow: DeepSpeed的无停顿卸载训练引擎,5倍加速ZeRO-Offload
ZenFlow: DeepSpeed的无停顿卸载训练引擎,5倍加速ZeRO-Offload
ArXiv ID: 2505.12242作者: Tingfeng Lan, Yusen Wu, Bin Ma, Zhaoyuan Su, Rui Yang, Tekin Bicer, Masahiro Tanaka, Olatunji Ruwase, Dong Li, Yue Cheng机构: University of Virginia, UC Merced, Argonne National Laboratory, Microsoft DeepSpeed Team发布日期: 2025-05-18
GPU卸载的14倍减速困境当GPU显存不足以容纳整个模型时,将部分模型状态卸载到CPU内存是常见解决方案。但ZeRO-Offload的代价巨大——Llama 2-7B在4张A100上:无卸载每步...
Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南
Reinforcement Learning from Human Feedback: 全面的RLHF方法论指南
ArXiv ID: 2504.12501作者: Nathan Lambert机构: Independent Researcher发布日期: 2025-04-16 (最新更新: 2025-11-02)页数: 144页Web版本: rlhfbook.com
摘要这是一部全面覆盖**强化学习人类反馈(RLHF)**方法论的144页专著,为LLM对齐领域提供了迄今为止最系统的教学资源。作者Nathan Lambert以温和渐进的方式,从历史根源到实践部署,构建了完整的RLHF知识体系。
本书不仅仅是技术手册,更是一座连接理论与实践的桥梁。它追溯RLHF在经济学(偏好理论)、哲学(价值对齐)和最优控制(强化学习)的跨学科根源,帮助读者理解”为什么RLHF有效”而非仅仅”如何使用...
DPO Meets PPO: Token级强化优化统一RLHF范式
DPO Meets PPO: Token级强化优化统一RLHF范式
ArXiv ID: 2404.18922作者: Han Zhong, Zikang Shan, Guhao Feng (Peking Univ) + Wei Xiong (Princeton) + Microsoft Research机构: Peking University, Princeton University, Microsoft Research发布日期: 2024-04-29 (最新更新: 2025-05-21)会议: ICML 2025代码: GitHub
核心创新这篇ICML 2025论文提出了Reinforced Token Optimization (RTO),首次成功将DPO和PPO两大RLHF范式统一。传统RLHF方法要么使用离线DPO(简单但性能有限),要么使用在线PPO(强大但复杂)...