NExT-OMNI: 基于离散流匹配的全模态基础模型

Posted on 十月 15, 2025

NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,通过离散流匹配范式实现任意模态间的理解和生成。模型原生支持文本、图像、视频和音频的任意组合输入输出,在多轮交互和跨模态检索任务上超越现有统一模型。 NExT-OMNI: 任意模态统一建模的技术突破核心创新:离散流匹配范式NExT-OMNI是由新加坡国立大学NExT++研究中心开发的全模态基础模型,其核心创新在于采用**离散流匹配(Discrete Flow Matching, DFM)**范式,突破了传统自回归架构的限制。为什么选择离散流匹配?传统的多模态模型主要依赖自回归架构,存在以下局限: 生成效率低: 必须逐token顺序生成,无法并行跨模态建模困难: 不同模态的离散表示难以统一长序列性能下降: 对于视频、音频等长序列模态效果欠佳 DFM范式通过构建度量诱导的概率路径,实现了: 并行解...

LFM2-8B-A1B - Liquid AI 大型语言模型

Posted on 十月 7, 2025

LFM2-8B-A1B - Liquid AI 大型语言模型模型概述LFM2-8B-A1B 是 Liquid AI 公司于 2025 年 10月发布的大型语言模型，拥有 8.3B total (1.5B active per token, MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型支持商业使用，为企业部署提供了法律保障。 LFM2-8B-A1B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 2.4K，获得了 152 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 32K tokens 的超长上下文窗口。 LFM2-8B-A1B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语...

Ling-1T - inclusionAI 大型语言模型

Posted on 十月 2, 2025

Ling-1T - inclusionAI 大型语言模型模型概述Ling-1T 是 inclusionAI 公司于 2025 年 10月发布的大型语言模型，拥有 1T total (~50B active per token, MoE 1/32 activation ratio) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Ling-1T 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 715，获得了 197 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，State-of-the-art on complex reasoning benchmarks。核心特性 1T total (~50B active p...

IBM Granite 4.0 H-Small - IBM 大型语言模型

Posted on 十月 2, 2025

IBM Granite 4.0 H-Small - IBM 大型语言模型模型概述IBM Granite 4.0 H-Small 是 IBM 公司于 2025 年 10月发布的大型语言模型，拥有 32.2B (MoE Hybrid) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 IBM Granite 4.0 H-Small 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 22.1K，获得了 241 个点赞，显示出强大的社区影响力和用户认可度。核心特性 32.2B (MoE Hybrid) 参数规模：采用大...

GLM-4.6 - 智谱AI 大型语言模型

Posted on 九月 29, 2025

GLM-4.6 - 智谱AI 大型语言模型模型概述GLM-4.6 是智谱AI 公司于 2025 年 9月发布的大型语言模型，拥有 356.8B total (MoE) 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 GLM-4.6 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 24.6K，获得了 672 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Competitive with DeepSeek-V3.1-Terminus and Claude Sonnet 4。 GLM-4.6 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是...

Qwen-Image-Edit-2509 - 阿里巴巴大型语言模型

Posted on 九月 22, 2025

Qwen-Image-Edit-2509 - 阿里巴巴大型语言模型模型概述Qwen-Image-Edit-2509 是阿里巴巴公司于 2025 年 9月发布的大型语言模型，拥有 undisclosed (diffusion model) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen-Image-Edit-2509 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 72.9K，获得了 546 个点赞，显示出强大的社区影响力和用户认可度。 Qwen-Image-Edit-2509 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。...

S1-Base-671B - ScienceOne AI 大型语言模型

Posted on 九月 1, 2025

S1-Base-671B - ScienceOne AI 大型语言模型模型概述S1-Base-671B 是 ScienceOne AI 公司于 2025 年 9月发布的大型语言模型，拥有 671B (Heterogeneous Mixture-of-Experts) 参数规模。具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 S1-Base-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 S1-Base-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工...

NVIDIA Nemotron Nano 9B v2 - 英伟达大型语言模型

Posted on 八月 18, 2025

NVIDIA Nemotron Nano 9B v2 - 英伟达大型语言模型模型概述NVIDIA Nemotron Nano 9B v2 是英伟达公司于 2025 年 8月发布的大型语言模型，拥有 9B (pruned from 12B base) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 NVIDIA Nemotron Nano 9B v2 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 NVIDIA Nemotron Nano 9B v2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型...

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型

Posted on 八月 15, 2025

Intern-S1 - InternLM (Shanghai AI Lab) 大型语言模型模型概述Intern-S1 是 InternLM (Shanghai AI Lab) 公司于 2025 年 8月发布的大型语言模型，拥有 235B total (28B activated, MoE) + 6B vision encoder 参数规模。在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型支持商业使用，为企业部署提供了法律保障。 Intern-S1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Intern-S1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

Lingshu-7B - 阿里巴巴大型语言模型

Posted on 六月 15, 2025

Lingshu-7B - 阿里巴巴大型语言模型模型概述Lingshu-7B 是阿里巴巴公司于 2025 年 6月发布的大型语言模型，拥有 7B (also 32B variant available) 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Lingshu-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Lingshu-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B (also ...

DeepSeek-R1-0528 - DeepSeek 大型语言模型

Posted on 五月 28, 2025

DeepSeek-R1-0528 - DeepSeek 大型语言模型模型概述DeepSeek-R1-0528 是 DeepSeek 公司于 2025 年 5月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1-0528 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 599.4K，获得了 2,377 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1-0528 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领...

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型

Posted on 四月 30, 2025

DeepSeek-Prover-V2-671B - DeepSeek 大型语言模型模型概述DeepSeek-Prover-V2-671B 是 DeepSeek 公司于 2025 年 4月发布的大型语言模型，拥有 671B (MoE) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-Prover-V2-671B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 1.6K，获得了 811 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-Prover-V2-671B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带...

Llama 4 系列：Meta的开源多模态MoE模型

Posted on 四月 5, 2025

Llama 4 系列：Meta的开源多模态MoE模型概述2025年4月5日，Meta正式发布了Llama 4系列模型，包括Llama 4 Scout和Llama 4 Maverick。这是Meta在开源AI领域的又一重大突破，首次将多模态能力、混合专家（MoE）架构和超长上下文窗口结合在一起，为开源社区提供了极具竞争力的大语言模型。系列模型对比模型名称激活参数总参数量专家数量上下文长度主要特点 Llama 4 Scout 17B 109B 16 10M tokens 超长上下文，适合文档分析 Llama 4 Maverick 17B 400B 128 未公开大规模专家网络，最强性能 Llama 4 Behemoth 288B ~2T 16 未公开推迟发布，旗舰级模型注：Behemoth模型在发布时仍在训练中，预计2025年秋季或更晚发布核心...

Llama 4 Scout - Meta 大型语言模型

Posted on 四月 5, 2025

Llama 4 Scout - Meta 大型语言模型模型概述Llama 4 Scout 是 Meta 公司于 2025 年 4月发布的大型语言模型，拥有 17B active (16 experts, MoE) 参数规模。作为基座模型，它为下游任务提供了强大的基础能力。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 4 Scout 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 17B active (16 experts, MoE) 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 First open：wei...

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型

Posted on 一月 28, 2025

Mistral Small 24B Instruct 2501 - Mistral AI 大型语言模型模型概述Mistral Small 24B Instruct 2501 是 Mistral AI 公司于 2025 年 1月发布的大型语言模型，拥有 24B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral Small 24B Instruct 2501 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 765.1K，获得了 946 个点赞，显示出强大的社区影响力和用户认可度。核心特性 24B 参数规模：采用大规模参数设计，...

Janus-Pro-7B - DeepSeek 大型语言模型

Posted on 一月 26, 2025

Janus-Pro-7B - DeepSeek 大型语言模型模型概述Janus-Pro-7B 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 Janus-Pro-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 78.7K，获得了 3,508 个点赞，显示出强大的社区影响力和用户认可度。 Janus-Pro-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得...

DeepSeek-R1 - DeepSeek 大型语言模型

Posted on 一月 20, 2025

DeepSeek-R1 - DeepSeek 大型语言模型模型概述DeepSeek-R1 是 DeepSeek 公司于 2025 年 1月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-R1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 548.2K，获得了 12,773 个点赞，显示出强大的社区影响力和用户认可度。 DeepSeek-R1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特...

SmolLM3 3B - Hugging Face 大型语言模型

Posted on 一月 15, 2025

SmolLM3 3B - Hugging Face 大型语言模型模型概述SmolLM3 3B 是 Hugging Face 公司于 2025 年 1月发布的大型语言模型，拥有 3B (3.08B) 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，在代码生成和理解方面表现出色，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 SmolLM3 3B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SmolLM3 3B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型...

METAGENE-1 - Meta 大型语言模型

Posted on 一月 6, 2025

METAGENE-1 - Meta 大型语言模型模型概述METAGENE-1 是 Meta 公司于 2025 年 1月发布的大型语言模型，拥有 7B 参数规模。 METAGENE-1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 METAGENE-1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 7B parameters for metagenomic analysis：提供强大的...

DeepSeek-V3 - DeepSeek 大型语言模型

Posted on 十二月 25, 2024

DeepSeek-V3 - DeepSeek 大型语言模型模型概述DeepSeek-V3 是 DeepSeek 公司于 2024 年 12月发布的大型语言模型，拥有 671B total (MoE) 参数规模。具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 DeepSeek-V3 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 247.1K，获得了 3,977 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，GPT-4 class capabilities。 DeepSeek-V3 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客...

Llama 3.3 70B Instruct - Meta 大型语言模型

Posted on 十一月 26, 2024

Llama 3.3 70B Instruct - Meta 大型语言模型模型概述Llama 3.3 70B Instruct 是 Meta 公司于 2024 年 11月发布的大型语言模型，拥有 70B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 3.3 70B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 588.9K，获得了 2,526 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，Competitive with 405B models。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间...

ChemDFM-v1.5 8B - OpenDFM 大型语言模型

Posted on 十一月 9, 2024

ChemDFM-v1.5 8B - OpenDFM 大型语言模型模型概述ChemDFM-v1.5 8B 是 OpenDFM 公司于 2024 年 11月发布的大型语言模型，拥有 8B 参数规模。 ChemDFM-v1.5 8B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，Comparable or higher than GPT-4 on chemistry tasks。 ChemDFM-v1.5 8B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜...

Qwen2.5-7B-Instruct - 阿里巴巴大型语言模型

Posted on 九月 16, 2024

Qwen2.5-7B-Instruct - 阿里巴巴大型语言模型模型概述Qwen2.5-7B-Instruct 是阿里巴巴公司于 2024 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2.5-7B-Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 5.2M，获得了 816 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口。核心特性 7B 参数规模：采用大规模参数设计，在性能和...

Prithvi-WxC 2.3B - IBM 大型语言模型

Posted on 九月 1, 2024

Prithvi-WxC 2.3B - IBM 大型语言模型模型概述Prithvi-WxC 2.3B 是 IBM 公司于 2024 年 9月发布的大型语言模型，拥有 2.3B 参数规模。该模型支持商业使用，为企业部署提供了法律保障。 Prithvi-WxC 2.3B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 Prithvi-WxC 2.3B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2.3B 参数规模：采用大规模参数设计，在性能和效率之间取...

Llama 3.1 405B Instruct - Meta 大型语言模型

Posted on 七月 16, 2024

Llama 3.1 405B Instruct - Meta 大型语言模型模型概述Llama 3.1 405B Instruct 是 Meta 公司于 2024 年 7月发布的大型语言模型，拥有 405B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama 3.1 405B Instruct 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 799.5K，获得了 580 个点赞，显示出强大的社区影响力和用户认可度。在性能方面，支持 128K tokens 的超长上下文窗口，Competitive with GPT-4 class models。核心特性 40...

SeaLLMs-v3 7B - SeaLLMs 大型语言模型

Posted on 七月 15, 2024

SeaLLMs-v3 7B - SeaLLMs 大型语言模型模型概述SeaLLMs-v3 7B 是 SeaLLMs 公司于 2024 年 7月发布的大型语言模型，拥有 7.62B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 SeaLLMs-v3 7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SeaLLMs-v3 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成...

Gemma-2-27B - Gemma 2 27B flagship model

Posted on 六月 27, 2024

Gemma-2-27B - Gemma 2 27B flagship model模型概述Gemma-2-27B 是谷歌公司于 2024 年 6月发布的大型语言模型，拥有 27B 参数规模。 Gemma-2-27B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 27B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2-27B 属于 Gemma 系列模型。该系列通常...

Gemma-2-9B - Gemma 2 9B with improved architecture

Posted on 六月 27, 2024

Gemma-2-9B - Gemma 2 9B with improved architecture模型概述Gemma-2-9B 是谷歌公司于 2024 年 6月发布的大型语言模型，拥有 9B 参数规模。 Gemma-2-9B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 9B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2-9B 属于 Gemma 系列模型。...

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation

Posted on 六月 17, 2024

DeepSeek-Coder-V2 - DeepSeek Coder V2 with MoE for code generation模型概述DeepSeek-Coder-V2 是 DeepSeek 公司于 2024 年 6月发布的大型语言模型，拥有 236B 参数规模。 DeepSeek-Coder-V2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 236B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持...

Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model

Posted on 六月 7, 2024

Qwen2-0.5B - Qwen2 0.5B ultra-lightweight model模型概述Qwen2-0.5B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 0.5B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-0.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 0.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源...

Qwen2-1.5B - Qwen2 1.5B lightweight model

Posted on 六月 7, 2024

Qwen2-1.5B - Qwen2 1.5B lightweight model模型概述Qwen2-1.5B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 1.5B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-1.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 1.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源：模型权重和...

Qwen2-72B - Qwen2 72B flagship model

Posted on 六月 7, 2024

Qwen2-72B - Qwen2 72B flagship model模型概述Qwen2-72B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 72B 参数规模。 Qwen2-72B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 72B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen2-72B 属于 Qwen 系列模型。该系列通常包含多个不同规模的...

Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities

Posted on 六月 7, 2024

Qwen2-7B - Qwen2 7B with improved 多语言支持 capabilities模型概述Qwen2-7B 是阿里巴巴公司于 2024 年 6月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Qwen2-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡 Apache 2.0 开源许可：完全商业友好，无使用限制，支持二次开发完全开源：模型...

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture

Posted on 五月 6, 2024

DeepSeek-V2 - DeepSeek-V2 with Mixture of Experts architecture模型概述DeepSeek-V2 是 DeepSeek 公司于 2024 年 5月发布的大型语言模型，拥有 236B 参数规模。 DeepSeek-V2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 236B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型D...

BioMedLM - Stanford CRFM / MosaicML 大型语言模型

Posted on 三月 15, 2024

BioMedLM - Stanford CRFM / MosaicML 大型语言模型模型概述BioMedLM 是 Stanford CRFM / MosaicML 公司于 2024 年 3月发布的大型语言模型，拥有 2.7B 参数规模。 BioMedLM 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 BioMedLM 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2.7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平...

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型

Posted on 三月 6, 2024

SaulLM-7B (Saul-7B-Base) - Mistral AI 大型语言模型模型概述SaulLM-7B (Saul-7B-Base) 是 Mistral AI 公司于 2024 年 3月发布的大型语言模型，拥有 7.24B 参数规模。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务，具备强大的逻辑推理和数学推理能力。采用 MIT 开源许可证，允许商业使用和二次开发，为企业提供了极大的灵活性。 SaulLM-7B (Saul-7B-Base) 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 SaulLM-7B (Saul-7B-Base) 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模...

Gemma-2B - Google's first 开源 lightweight model

Posted on 二月 21, 2024

Gemma-2B - Google’s first 开源 lightweight model模型概述Gemma-2B 是谷歌公司于 2024 年 2月发布的大型语言模型，拥有 2B 参数规模。 Gemma-2B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 2B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-2B 属于 Gemma 系列模型。该系列通常包含多个不...

Gemma-7B - Google's Gemma 7B model

Posted on 二月 21, 2024

Gemma-7B - Google’s Gemma 7B model模型概述Gemma-7B 是谷歌公司于 2024 年 2月发布的大型语言模型，拥有 7B 参数规模。 Gemma-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Gemma-7B 属于 Gemma 系列模型。该系列通常包含多个不同规模的版本：小型版...

Qwen1.5-14B - Qwen1.5 14B model

Posted on 二月 5, 2024

Qwen1.5-14B - Qwen1.5 14B model模型概述Qwen1.5-14B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 14B 参数规模。 Qwen1.5-14B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 14B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-14B 属于 Qwen 系列模型。该系列通常包含多个不同规模...

Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model

Posted on 二月 5, 2024

Qwen1.5-0.5B - Qwen1.5 0.5B ultra-lightweight model模型概述Qwen1.5-0.5B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 0.5B 参数规模。 Qwen1.5-0.5B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 0.5B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-0.5B 属...

Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model

Posted on 二月 5, 2024

Qwen1.5-1.8B - Qwen1.5 1.8B lightweight model模型概述Qwen1.5-1.8B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 1.8B 参数规模。 Qwen1.5-1.8B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 1.8B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-1.8B 属于 Qwen...

Qwen1.5-72B - Qwen1.5 72B flagship model

Posted on 二月 5, 2024

Qwen1.5-72B - Qwen1.5 72B flagship model模型概述Qwen1.5-72B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 72B 参数规模。 Qwen1.5-72B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 72B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-72B 属于 Qwen 系列模型。该系列通...

Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities

Posted on 二月 5, 2024

Qwen1.5-7B - Qwen1.5 7B model with strong Chinese capabilities模型概述Qwen1.5-7B 是阿里巴巴公司于 2024 年 2月发布的大型语言模型，拥有 7B 参数规模。 Qwen1.5-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架同系列模型Qwen1.5-7B ...

StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型

Posted on 十二月 15, 2023

StripedHyena-Hessian-7B - Together AI / hessian.AI 大型语言模型模型概述StripedHyena-Hessian-7B 是 Together AI / hessian.AI 公司于 2023 年 12月发布的大型语言模型，拥有 7.65B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 StripedHyena-Hessian-7B 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 N/A，获得了 N/A 个点赞，显示出强大的社区影响力和用户认可度。 StripedHyena-Hessian-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理...

Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following

Posted on 十二月 11, 2023

Mistral-7B-Instruct-v0.2 - Mistral 7B v0.2 with improved 指令微调ion following模型概述Mistral-7B-Instruct-v0.2 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-Instruct-v0.2 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数...

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型

Posted on 十二月 10, 2023

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型模型概述Mixtral 8x7B Instruct v0.1 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型，拥有 46.7B total (8x7B MoE) 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mixtral 8x7B Instruct v0.1 在开源社区获得了广泛认可，Hugging Face 平台上的下载量已达到 288.3K，获得了 4,569 个点赞，显示出强大的社区影响力和用户认可度。核心特性 46.7B total ...

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks

Posted on 十一月 2, 2023

DeepSeek-Coder-33B - DeepSeek Coder 33B for advanced code tasks模型概述DeepSeek-Coder-33B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型，拥有 33B 参数规模。 DeepSeek-Coder-33B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 33B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流...

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation

Posted on 十一月 2, 2023

DeepSeek-Coder-6.7B - DeepSeek Coder 6.7B for code generation模型概述DeepSeek-Coder-6.7B 是 DeepSeek 公司于 2023 年 11月发布的大型语言模型，拥有 6.7B 参数规模。 DeepSeek-Coder-6.7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 6.7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持...

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance

Posted on 九月 27, 2023

Mistral-7B-v0.1 - First Mistral model proving small models can achieve high performance模型概述Mistral-7B-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-v0.1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能...

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following

Posted on 九月 27, 2023

Mistral-7B-Instruct-v0.1 - Mistral 7B v0.1 fine-tuned for 指令微调ion following模型概述Mistral-7B-Instruct-v0.1 是 Mistral AI 公司于 2023 年 9月发布的大型语言模型，拥有 7B 参数规模。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Mistral-7B-Instruct-v0.1 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数...

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-34B - Code Llama 34B 基座模型 for code synthesis模型概述CodeLlama-34B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 34B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-34B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 34B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提...

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-13B - Code Llama 13B 基座模型 for code synthesis模型概述CodeLlama-13B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-13B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提...

CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis

Posted on 八月 24, 2023

CodeLlama-7B - Code Llama 7B 基座模型 for code synthesis模型概述CodeLlama-7B 是 Meta 公司于 2023 年 8月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 CodeLlama-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的AP...

Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue

Posted on 七月 18, 2023

Llama-2-13B-Chat - Llama 2 13B fine-tuned for dialogue模型概述Llama-2-13B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-13B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理 ...

Llama-2-13B - Meta's Llama 2 13B 基座模型

Posted on 七月 18, 2023

Llama-2-13B - Meta’s Llama 2 13B 基座模型模型概述Llama-2-13B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 13B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-13B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 13B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理易于集成：提供标准的API接口，支持主流深度学习框架 ...

Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF

Posted on 七月 18, 2023

Llama-2-7B-Chat - Llama 2 7B fine-tuned for dialogue with RLHF模型概述Llama-2-7B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-7B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批...

Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue

Posted on 七月 18, 2023

Llama-2-70B-Chat - Llama 2 70B fine-tuned for dialogue模型概述Llama-2-70B-Chat 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 70B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-70B-Chat 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处理 ...

Llama-2-7B - Meta's Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM

Posted on 七月 18, 2023

Llama-2-7B - Meta’s Llama 2 7B 基座模型, the first truly commercial-ready 开源 LLM模型概述Llama-2-7B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 7B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 7B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速...

Llama-2-70B - Meta's Llama 2 70B 基座模型 with Grouped-Query Attention

Posted on 七月 18, 2023

Llama-2-70B - Meta’s Llama 2 70B 基座模型 with Grouped-Query Attention模型概述Llama-2-70B 是 Meta 公司于 2023 年 7月发布的大型语言模型，拥有 70B 参数规模。使用 LLaMA 系列许可证，支持商业使用，但需遵守一定的使用条款和限制。 Llama-2-70B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 70B 参数规模：采用大规模参数设计，在性能和效率之间取得最佳平衡完全开源：模型权重和代码完全开放，便于研究和定制化开发高效推理：采用优化的模型架构，支持快速推理和批量处...