核心观点:后训练是当前LLM的核心竞争力,但多数开源项目只开放模型权重,训练数据和方法论仍然是黑箱。Allen AI的Tulu 3把后训练的全部秘密——数据、代码、方法论——一次性全部公开。
后训练的开源困境假设你拿到了一个不错的基座模型,想通过后训练让它变成一个好用的助手。你需要什么?
SFT数据:教模型按指令做事
偏好数据:教模型什么是好的回答
强化学习数据:在数学和代码等可验证任务上进一步优化
问题是,市面上大多数”开源”的对齐模型只公开了权重。你知道它表现好,但不知道是因为什么数据、什么配比、什么训练策略。想复现?几乎不可能。
Tulu 3彻底改变了这个局面。它不只是发布了数据集,而是发布了完整的后训练配方:数据集 + 数据混合策略 + 训练代码 + 评估工具。
SFT混合数据集:27.3万条的精细配比Tulu 3的SFT数据集不是简单地把公开数据集堆在一起。它是经过精心...