NSA：DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案

Posted on 二月 2, 2026

NSA：DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案 ArXiv ID: 2502.11089 作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao等机构: DeepSeek-AI, 北京大学, 华盛顿大学发布日期: 2025年2月摘要随着大语言模型的上下文窗口不断扩大（64K甚至更长），标准的全注意力机制在解码阶段成为严重的性能瓶颈——理论估计显示，64K上下文长度下softmax attention计算占总延迟的70-80%。DeepSeek团队提出NSA（Native Sparse Attention），一种硬件对齐的、可原生训练的稀疏注意力机制。NSA通过动态层级稀疏策略，将粗粒度的token压缩与细粒度的token选择相结合，在保持全注意力模型精度的同时，在64K序列上实现...

阅读全文