NSA：DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案

Posted on 二月 2, 2026

NSA：DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案 ArXiv ID: 2502.11089 作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao等机构: DeepSeek-AI, 北京大学, 华盛顿大学发布日期: 2025年2月摘要随着大语言模型的上下文窗口不断扩大（64K甚至更长），标准的全注意力机制在解码阶段成为严重的性能瓶颈——理论估计显示，64K上下文长度下softmax attention计算占总延迟的70-80%。DeepSeek团队提出NSA（Native Sparse Attention），一种硬件对齐的、可原生训练的稀疏注意力机制。NSA通过动态层级稀疏策略，将粗粒度的token压缩与细粒度的token选择相结合，在保持全注意力模型精度的同时，在64K序列上实现...

阅读全文

动态专家搜索：在测试时增强 MoE LLM 的推理能力

Posted on 九月 26, 2025

动态专家搜索：在测试时增强 MoE LLM 的推理能力 ArXiv ID: 2509.22572作者: Yixuan Han, Fan Ma, Ruijie Quan, Yi Yang机构: Zhejiang University发布日期: 2025-09-26 摘要测试时扩展（TTS）通过在推理期间分配额外计算来增强大型语言模型的推理能力。然而，现有方法主要依赖输出级采样，而忽略了模型架构的作用。本文提出 DES（Dynamic Experts Search），一种利用混合专家（MoE）架构在测试时增强推理的新方法。DES 在测试时动态搜索最优的专家组合，而不是依赖训练时固定的路由策略。实验表明，DES 在相同计算预算下比传统采样方法提升**10-15%**的准确率。问题背景MoE 架构的潜力与局限12345678910111213141516171819202122232...

阅读全文

Qwen3：阿里云通义千问混合推理大模型

Posted on 四月 28, 2025

概述Qwen3是阿里云通义千问团队于2025年4月28日发布的第三代大语言模型系列，包含从0.6B到235B参数的多个变体，支持密集和混合专家(MoE)两种架构。该系列模型的核心创新在于统一的混合推理框架，能够在思考模式(用于复杂多步推理)和非思考模式(用于快速响应)之间无缝切换，无需在不同模型间切换。Qwen3在36万亿tokens数据上进行预训练，是前代Qwen2.5的两倍，并将多语言支持从29种扩展到119种语言和方言。核心创新Qwen3最突出的创新是其统一的混合推理框架。传统方法需要为不同任务部署不同的模型(如ChatGPT用于通用对话，o1用于复杂推理)，而Qwen3将这两种能力整合到单一模型中。通过动态思考预算机制，用户可以根据任务复杂度自适应地分配计算资源，在延迟和性能之间找到最佳平衡点。这种设计理念的实现依赖于Qwen3创新的训练策略。团队在预训练阶段使用了36万...

阅读全文

Llama 4 系列：Meta的开源多模态MoE模型

Posted on 四月 5, 2025

Llama 4 系列：Meta的开源多模态MoE模型概述2025年4月5日，Meta正式发布了Llama 4系列模型，包括Llama 4 Scout和Llama 4 Maverick。这是Meta在开源AI领域的又一重大突破，首次将多模态能力、混合专家（MoE）架构和超长上下文窗口结合在一起，为开源社区提供了极具竞争力的大语言模型。系列模型对比模型名称激活参数总参数量专家数量上下文长度主要特点 Llama 4 Scout 17B 109B 16 10M tokens 超长上下文，适合文档分析 Llama 4 Maverick 17B 400B 128 未公开大规模专家网络，最强性能 Llama 4 Behemoth 288B ~2T 16 未公开推迟发布，旗舰级模型注：Behemoth模型在发布时仍在训练中，预计2025年秋季或更晚发布核心...

阅读全文

DeepSeek R1：首个开源推理大模型

Posted on 一月 20, 2025

DeepSeek R1：首个开源推理大模型发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948 概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型，采用纯强化学习 (RL) 训练方法，无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构，总参数量 671B，每次推理激活 37B 参数，支持 128K 上下文长度。这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...

阅读全文