Cosmopedia:最大的开源合成数据集,25B token助力小模型训练

引领合成数据新纪元:Cosmopedia的诞生在大语言模型训练领域,数据始终是核心瓶颈。Hugging Face于2024年3月发布的Cosmopedia,以超过300万个文件、250亿token的规模,成为目前最大的开源合成数据集。这不仅是一个里程碑式的成果,更代表了合成数据生成技术从理论到实践的重大突破。 数据规模与多样性:前所未有的覆盖面Cosmopedia的规模令人震撼: 文件数量:超过3000万个合成文本文件 Token总量:250亿token,相当于中等规模预训练语料库 内容类型:涵盖合成教科书、博客文章、故事、WikiHow风格文章 主题覆盖:横跨112个不同主题领域 这种规模和多样性使其成为预训练小型语言模型的理想数据源。与传统的网络爬虫数据相比,Cosmopedia的内容更加结构化、高质量,且完全避免了版权和隐私问题。 生成方法论:从多源数据到高质量合成Cosm...

阅读全文

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型

Mixtral 8x7B Instruct v0.1 - Mistral AI 大型语言模型模型概述Mixtral 8x7B Instruct v0.1 是 Mistral AI 公司于 2023 年 12月发布的大型语言模型,拥有 46.7B total (8x7B MoE) 参数规模。该模型经过指令微调,专门针对对话和任务执行场景进行了优化。 该模型支持多种语言,能够处理包括中文、英文在内的多语言任务。 该模型采用 Apache 2.0 开源许可证,这是一个非常商业友好的许可协议,允许企业在各种场景下自由使用、修改和分发,无需担心版权限制。 Mixtral 8x7B Instruct v0.1 在开源社区获得了广泛认可,Hugging Face 平台上的下载量已达到 288.3K,获得了 4,569 个点赞,显示出强大的社区影响力和用户认可度。 核心特性 46.7B total ...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero