NSA:DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案
ArXiv ID: 2502.11089
作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao等
机构: DeepSeek-AI, 北京大学, 华盛顿大学
发布日期: 2025年2月
摘要随着大语言模型的上下文窗口不断扩大(64K甚至更长),标准的全注意力机制在解码阶段成为严重的性能瓶颈——理论估计显示,64K上下文长度下softmax attention计算占总延迟的70-80%。DeepSeek团队提出NSA(Native Sparse Attention),一种硬件对齐的、可原生训练的稀疏注意力机制。NSA通过动态层级稀疏策略,将粗粒度的token压缩与细粒度的token选择相结合,在保持全注意力模型精度的同时,在64K序列上实现...