Qwen3：阿里云通义千问混合推理大模型

Posted on 四月 28, 2025

概述Qwen3是阿里云通义千问团队于2025年4月28日发布的第三代大语言模型系列，包含从0.6B到235B参数的多个变体，支持密集和混合专家(MoE)两种架构。该系列模型的核心创新在于统一的混合推理框架，能够在思考模式(用于复杂多步推理)和非思考模式(用于快速响应)之间无缝切换，无需在不同模型间切换。Qwen3在36万亿tokens数据上进行预训练，是前代Qwen2.5的两倍，并将多语言支持从29种扩展到119种语言和方言。核心创新Qwen3最突出的创新是其统一的混合推理框架。传统方法需要为不同任务部署不同的模型(如ChatGPT用于通用对话，o1用于复杂推理)，而Qwen3将这两种能力整合到单一模型中。通过动态思考预算机制，用户可以根据任务复杂度自适应地分配计算资源，在延迟和性能之间找到最佳平衡点。这种设计理念的实现依赖于Qwen3创新的训练策略。团队在预训练阶段使用了36万...

阅读全文

智能体上下文工程：自我进化的语言模型上下文系统

Posted on 十月 6, 2024

智能体上下文工程：自我进化的语言模型上下文系统 ArXiv ID: 2510.04618作者: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong…发布日期: 2024-10-06分类: context-engineering评分: 4.2/5.0 摘要本文提出了智能体上下文工程（ACE）框架,将上下文从静态的提示文本转变为可进化的”执行手册”。ACE通过生成、反思和策展三个步骤,让语言模型能够从执行反馈中自主学习和优化上下文,无需人工标注。该方法有效解决了上下文崩溃和简洁性偏见问题,在智能体任务上实现+10.6%性能提升,在金融任务上提升+8.6%,展现了上下文工程的新范式。 🤖 ACE：让上下文自己进化的智能体系统核心创新想象一下，如果LLM的上下文提示能够像生物进化一样，从每次...

阅读全文