Tulu 3: Allen AI的开源后训练数据全家桶

核心观点：后训练是当前LLM的核心竞争力，但多数开源项目只开放模型权重，训练数据和方法论仍然是黑箱。Allen AI的Tulu 3把后训练的全部秘密——数据、代码、方法论——一次性全部公开。后训练的开源困境假设你拿到了一个不错的基座模型，想通过后训练让它变成一个好用的助手。你需要什么？ SFT数据：教模型按指令做事偏好数据：教模型什么是好的回答强化学习数据：在数学和代码等可验证任务上进一步优化问题是，市面上大多数”开源”的对齐模型只公开了权重。你知道它表现好，但不知道是因为什么数据、什么配比、什么训练策略。想复现？几乎不可能。 Tulu 3彻底改变了这个局面。它不只是发布了数据集，而是发布了完整的后训练配方：数据集 + 数据混合策略 + 训练代码 + 评估工具。 SFT混合数据集：27.3万条的精细配比Tulu 3的SFT数据集不是简单地把公开数据集堆在一起。它是经过精心...

阅读全文