Orca-AgentInstruct: 微软百万级合成指令数据集

Posted on 十月 15, 2025

AgentInstruct：当AI学会自己批改作业核心观点：微软用多代理协作重新定义了合成数据的质量上限，这不是简单的”让GPT生成训练数据”，而是一套完整的AI自我进化系统。 105万条指令数据，成本几乎为零，质量接近人工标注——微软Orca-AgentInstruct的数据让人重新思考：我们真的还需要花大价钱雇人标数据吗？为什么AgentInstruct不是”又一个合成数据集”市面上合成数据集多如牛毛，但大多数都是”prompt engineering的产物”：写个好prompt，调用GPT-4，批量生成，完事。这种做法有个致命问题——垃圾进，垃圾出。 AgentInstruct的野心更大：它想让AI学会自己质检、自己迭代、自己优化。三个代理角色分工明确：内容转换代理：把网络上的非结构化知识提取成结构化信息（相当于AI版的知识图谱工程师）种子指令生成代理：基于知识生成多...

阅读全文

DeepSeek R1：首个开源推理大模型

Posted on 一月 20, 2025

DeepSeek R1：首个开源推理大模型发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948 概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型，采用纯强化学习 (RL) 训练方法，无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构，总参数量 671B，每次推理激活 37B 参数，支持 128K 上下文长度。这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...

阅读全文