DPO全景图：从理论到实践的完整指南

Posted on 七月 14, 2025

DPO全景图：从理论到实践的完整指南 ArXiv ID: 2410.15595作者: Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Zongrui Li, Ruirui Lei, Wanggui He, Luu Anh Tuan, Long Chen, Hao Jiang, Zhou Zhao, Fei Wu机构: Zhejiang University发布日期: 2024-10-21最后更新: 2025-07-14 摘要在大语言模型（LLM）的训练旅程中，让模型”听懂人话”一直是个难题。传统的RLHF（基于人类反馈的强化学习）虽然效果不错，但就像用大炮打蚊子——复杂、昂贵、还容易翻车。你需要训练一个奖励模型（Reward Model），然后用PPO等强化学习算法反复迭代，整个过程既耗时又吃资源。 DPO（Direct Pref...

阅读全文