Ling-1T - inclusionAI 大型语言模型

Posted on 十月 2, 2025

Ling-1T - inclusionAI 大型语言模型模型概述Ling-1T 是 inclusionAI 公司于 2025 年 10月发布的大型语言模型，拥有 1T total (~50B active per token, MoE 1/32 activation ratio) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Ling-1T 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 715，获得了 197 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，State-of-the-art on complex reasoning benchmarks。核心特性 1T total (~50B active p...

阅读全文

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型

Posted on 九月 29, 2025

DeepSeek-V3.2-Exp - DeepSeek 大型语言模型模型概述DeepSeek-V3.2-Exp 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型，拥有 685B (MoE with DeepSeek Sparse Attention) 参数规模。在代码生成和理解方面表现出色。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3.2-Exp 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 42.9K，获得了 607 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-V3.2-Exp 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成...

阅读全文

GLM-4.6 - 智谱AI 大型语言模型

Posted on 九月 29, 2025

GLM-4.6 - 智谱AI 大型语言模型模型概述GLM-4.6 是智谱AI 公司于 2025 年 9月发布的大型语言模型，拥有 356.8B total (MoE) 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 GLM-4.6 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.6K，获得了 672 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with DeepSeek-V3.1-Terminus and Claude Sonnet 4。 GLM-4.6 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是...

阅读全文

DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型

Posted on 九月 22, 2025

DeepSeek-V3.1-Terminus - DeepSeek 大型语言模型模型概述DeepSeek-V3.1-Terminus 是 DeepSeek 公司于 2025 年 9月发布的大型语言模型，拥有 685B total (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3.1-Terminus 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 20.7K，获得了 314 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-V3.1-Terminus 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表...

阅读全文

Lingshu-7B - 阿里巴巴大型语言模型

Posted on 六月 15, 2025

Lingshu-7B - 阿里巴巴大型语言模型模型概述Lingshu-7B 是阿里巴巴公司于 2025 年 6月发布的大型语言模型，拥有 7B (also 32B variant available) 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B (also ...

阅读全文

DeepSeek-R1-0528 - DeepSeek 大型语言模型

Posted on 五月 28, 2025

DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 599.4K，获得了 2,377 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领...

阅读全文

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型

Posted on 四月 30, 2025

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型，拥有 671B (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.6K，获得了 811 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

阅读全文

Phi-4-mini-instruct 3.8B - 微软大型语言模型

Posted on 二月 1, 2025

Phi-4-mini-instruct 3.8B - 微软大型语言模型模型概述Phi-4-mini-instruct 3.8B 是微软公司于 2025 年 2月发布的大型语言模型，拥有 3.8B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Phi-4-mini-instruct 3.8B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with 7-8B models。核心特性 3.8B 参数规模：采用大规模参数设计，在性能和效率...

阅读全文

Janus-Pro-7B - DeepSeek 大型语言模型

Posted on 一月 26, 2025

Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 78.7K，获得了 3,508 个点赞，显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得...

阅读全文

DeepSeek-R1 - DeepSeek 大型语言模型

Posted on 一月 20, 2025

DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 548.2K，获得了 12,773 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特...

阅读全文

DeepSeek-V3 - DeepSeek 大型语言模型

Posted on 十二月 25, 2024

DeepSeek-V3 - DeepSeek 大型语言模型模型概述DeepSeek-V3 是 DeepSeek 公司于 2024 年 12月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 247.1K，获得了 3,977 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，GPT-4 class capabilities。 DeepSeek-V3 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客...

阅读全文

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型

Posted on 三月 6, 2024

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型模型概述SaulLM-7B (Saul-7B-Base) 是 Mistral AI 公司于 2024 年 3月发布的大型语言模型，拥有 7.24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 SaulLM-7B (Saul-7B-Base) 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SaulLM-7B (Saul-7B-Base) 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模...

阅读全文