Ling-1T - inclusionAI 大型语言模型

Posted on 十月 2, 2025

Ling-1T - inclusionAI 大型语言模型模型概述Ling-1T 是 inclusionAI 公司于 2025 年 10月发布的大型语言模型，拥有 1T total (~50B active per token, MoE 1/32 activation ratio) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Ling-1T 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 715，获得了 197 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，State-of-the-art on complex reasoning benchmarks。核心特性 1T total (~50B active p...

阅读全文

FlashAttention-3：通过异步和低精度实现快速准确的注意力机制

Posted on 七月 11, 2024

Abstract注意力机制作为无处不在的Transformer架构的核心层，是大语言模型和长上下文应用的瓶颈。FlashAttention通过最小化内存读写提出了一种在GPU上加速注意力计算的方法。然而，它尚未利用最新硬件的新功能，FlashAttention-2在H100 GPU上仅实现了35%的利用率。我们开发了三种主要技术来加速Hopper GPU上的注意力计算：利用Tensor Cores和TMA的异步特性来(1)通过warp特化重叠整体计算和数据移动，(2)交错执行块级矩阵乘法和softmax操作，以及(3)块量化和非相干处理来利用硬件对FP8低精度的支持。我们展示了FlashAttention-3在H100 GPU上实现了1.5-2.0倍的加速，使用FP16达到最高740 TFLOPs/s(75%利用率)，使用FP8接近1.2 PFLOPs/s。 Ke...

阅读全文