Ling-1T - inclusionAI 大型语言模型

Ling-1T - inclusionAI 大型语言模型模型概述Ling-1T 是 inclusionAI 公司于 2025 年 10月发布的大型语言模型,拥有 1T total (~50B active per token, MoE 1/32 activation ratio) 参数规模。 具备强大的逻辑推理和数学推理能力。 采用 MIT 开源许可证,允许商业使用和二次开发,为企业提供了极大的灵活性。 Ling-1T 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 715,获得了 197 个点赞,显示出强大的社区影响力和用户认可度。 在性能方面,支持 128K tokens 的超长上下文窗口,State-of-the-art on complex reasoning benchmarks。 核心特性 1T total (~50B active p...

阅读全文

FlashAttention-3:通过异步和低精度实现快速准确的注意力机制

Abstract注意力机制作为无处不在的Transformer架构的核心层,是大语言模型和长上下文应用的瓶颈。FlashAttention通过最小化内存读写提出了一种在GPU上加速注意力计算的方法。然而,它尚未利用最新硬件的新功能,FlashAttention-2在H100 GPU上仅实现了35%的利用率。我们开发了三种主要技术来加速Hopper GPU上的注意力计算:利用Tensor Cores和TMA的异步特性来(1)通过warp特化重叠整体计算和数据移动,(2)交错执行块级矩阵乘法和softmax操作,以及(3)块量化和非相干处理来利用硬件对FP8低精度的支持。我们展示了FlashAttention-3在H100 GPU上实现了1.5-2.0倍的加速,使用FP16达到最高740 TFLOPs/s(75%利用率),使用FP8接近1.2 PFLOPs/s。 Ke...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero