NSA:DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案

NSA:DeepSeek原生稀疏注意力机制——硬件对齐的高效长上下文方案 ArXiv ID: 2502.11089 作者: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao等 机构: DeepSeek-AI, 北京大学, 华盛顿大学 发布日期: 2025年2月 摘要随着大语言模型的上下文窗口不断扩大(64K甚至更长),标准的全注意力机制在解码阶段成为严重的性能瓶颈——理论估计显示,64K上下文长度下softmax attention计算占总延迟的70-80%。DeepSeek团队提出NSA(Native Sparse Attention),一种硬件对齐的、可原生训练的稀疏注意力机制。NSA通过动态层级稀疏策略,将粗粒度的token压缩与细粒度的token选择相结合,在保持全注意力模型精度的同时,在64K序列上实现...

阅读全文

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练

GTPO: 用梯度冲突修正和熵控制稳定 GRPO 训练 ArXiv ID: 2508.03772作者: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino, Paolo Mori机构: IIT-CNR (Italian National Research Council)发布日期: 2025-08-05 摘要GRPO(Group Relative Policy Optimization)在 LLM 对齐训练中越来越流行,但存在两个严重稳定性问题:Token 级惩罚导致梯度冲突和策略崩溃。本文提出的 GTPO(Gradient-corrected and Threshold-filtered Policy Optimization)通过冲突感知梯度修正和熵阈值过滤解决这些问题。在数学推理基准上,GT...

阅读全文

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理

FlashMLA-ETAP: 高效转置 Attention 流水线加速 H20 GPU 上的 MLA 推理 ArXiv ID: 2506.01969作者: Pengcuo Dege, Qiuming Luo, Rui Mao, Chang Kong发布日期: 2025-05-13分类: inference, attention-optimization, hardware-optimization 摘要FlashMLA-ETAP 提出了一种针对 NVIDIA H20 GPU 单实例部署场景优化的 Multi-Head Latent Attention (MLA) 推理框架。通过引入高效转置 Attention 流水线 (ETAP),重构 attention 计算以减少冗余操作,并将 KV context 长度与 WGMMA 操作的 M 维度对齐,充分利用 H20 硬件特性。在 64...

阅读全文

DeepSeek R1:首个开源推理大模型

DeepSeek R1:首个开源推理大模型 发布日期: 2025-01-20发布机构: DeepSeek AI模型类型: 推理大模型许可证: MIT License技术报告: arXiv:2501.12948 概述DeepSeek R1 是由 DeepSeek AI 于 2025 年 1 月 20 日发布的首个完全开源的推理大模型,采用纯强化学习 (RL) 训练方法,无需监督微调即可实现与 OpenAI o1 相当的推理能力。该模型采用混合专家 (MoE) 架构,总参数量 671B,每次推理激活 37B 参数,支持 128K 上下文长度。 这是开源 AI 社区的一个重要里程碑——首次有开源模型在推理能力上达到商业闭源模型的同等水平。 核心创新DeepSeek-R1-Zero: 纯强化学习的突破DeepSeek R1 的最大创新在于其训练方法论。团队首先训练了 DeepSeek-R1...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero