NSA：DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案

Posted on 二月 2, 2026

NSA：DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案 ArXiv ID: 2502.11089 作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao等机构: DeepSeek-AI, 北京大学, 华盛顿大学发布日期: 2025年2月摘要随着大语言模型的上下文窗口不断扩大（64K甚至更长），标准的全注意力机制在解码阶段成为严重的性能瓶颈——理论估计显示，64K上下文长度下softmax attention计算占总延迟的70-80%。DeepSeek团队提出NSA（Native Sparse Attention），一种硬件对齐的、可原生训练的稀疏注意力机制。NSA通过动态层级稀疏策略，将粗粒度的token压缩与细粒度的token选择相结合，在保持全注意力模型精度的同时，在64K序列上实现...

阅读全文

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练

Posted on 八月 5, 2025

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练 ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05 摘要GRPO（Group Relative Policy Optimization）在 LLM 对齐训练中越来越流行，但存在两个严重稳定性问题：Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO（Gradient-corrected and Threshold-filtered Policy Optimization）通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上，GT...

阅读全文

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理

Posted on 五月 13, 2025

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理 ArXiv ID: 2506.01969作者: Pengcuo Dege, Qiuming Luo, Rui Mao, Chang Kong发布日期: 2025-05-13分类: inference, attention-optimization, hardware-optimization 摘要FlashMLA-ETAP 提出了一种针对 NVIDIA H20 GPU 单实例部署场景优化的 Multi-Head Latent Attention (MLA) 推理框架。通过引入高效转置 Attention 流水线 (ETAP)，重构 attention 计算以减少冗余操作，并将 KV context 长度与 WGMMA 操作的 M 维度对齐，充分利用 H20 硬件特性。在 64...

阅读全文

DeepSeek R1：首个开源推理大模型

Posted on 一月 20, 2025

DeepSeek R1：首个开源推理大模型发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948 概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型，采用纯强化学习 (RL) 训练方法，无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构，总参数量 671B，每次推理激活 37B 参数，支持 128K 上下文长度。这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...

阅读全文