NSA：DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案

Posted on 二月 2, 2026

NSA：DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案 ArXiv ID: 2502.11089 作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao等机构: DeepSeek-AI, 北京大学, 华盛顿大学发布日期: 2025年2月摘要随着大语言模型的上下文窗口不断扩大（64K甚至更长），标准的全注意力机制在解码阶段成为严重的性能瓶颈——理论估计显示，64K上下文长度下softmax attention计算占总延迟的70-80%。DeepSeek团队提出NSA（Native Sparse Attention），一种硬件对齐的、可原生训练的稀疏注意力机制。NSA通过动态层级稀疏策略，将粗粒度的token压缩与细粒度的token选择相结合，在保持全注意力模型精度的同时，在64K序列上实现...

阅读全文

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型

Posted on 九月 29, 2025

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型模型概述DeepSeek-V3.2-Exp 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型，拥有 685B (MoE with DeepSeek Sparse Attention) 参数规模。在代码生成和理解方面表现出色。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3.2-Exp 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 42.9K，获得了 607 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-V3.2-Exp 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成...

阅读全文