FineWeb: HuggingFace大规模网络爬取预训练数据集

Posted on 十月 15, 2025

核心观点：FineWeb不是又一个Common Crawl包装，它是HuggingFace对”如何将野生互联网数据驯化为可训练语料”这个问题的系统性回答。万亿token规模的背后，是一套可复现的工业级数据处理pipeline。 Common Crawl很好，但太野了Common Crawl每月爬取几十亿网页，这是互联网上最大的公开数据源。问题是原始数据完全不能直接用——充斥着广告、导航栏、评论区、重复内容、低质量机器生成文本。如果直接拿来训练，模型学到的是互联网的噪声，而不是语言。 FineWeb的核心价值在于清洗和质量过滤。它不是简单地去掉HTML标签，而是：内容提取：用启发式规则+机器学习分离正文和噪声去重：URL级去重移除30-40%重复内容，MinHash去重处理近似重复质量评分：基于文本连贯性、语法正确性、信息密度打分语言检测：准确识别100+种语言，置信度评分 ...

阅读全文

Cosmopedia: 大规模合成文本数据集 - 用于小语言模型研究

Posted on 十月 15, 2025

核心观点：Cosmopedia不是”用大模型生成训练数据”的简单实践，它是对”小模型能否通过精心策划的合成数据达到大模型性能”这个命题的系统性验证。答案是肯定的，但前提是数据设计要足够聪明。小模型复兴：不是开倒车在7B、13B甚至70B参数成为主流的今天，HuggingFace投入资源研究1-3B的小模型，这不是技术倒退，而是实用主义的回归。现实是：绝大多数实际应用不需要70B模型的能力边缘设备、移动端、实时场景无法承受大模型的计算成本推理成本是服务化LLM的最大成本来源 Phi-1.5（1.3B参数）证明了小模型的可能性——在特定任务上接近GPT-3.5的性能。关键是什么？不是模型架构，而是训练数据。Cosmopedia正是这个洞察的产物。 1660万条数据的”课程设计”Cosmopedia的8个子集不是随机划分，而是精心设计的能力培养路径：数学推理（auto_ma...

阅读全文

FineMath: HuggingFace 打造的 50B Token 数学预训练语料

Posted on 十二月 20, 2024

FineMath: HuggingFace 打造的 50B Token 数学预训练语料数据集链接: HuggingFace创建机构: HuggingFace TextBook Team许可证: ODC-By 1.0规模: FineMath-3+ (34B token) + FineMath-4+ (9.6B token)质量评分: 4.6/5.0 核心观点数学能力已经成为衡量 LLM 的核心指标，但绝大多数开源数学数据集质量参差不齐。FineMath 用一套精细化的质量评分管道，从 Common Crawl 的噪声海洋中提取出了目前最干净的数学预训练语料。数学数据为什么这么难搞训练一个数学能力强的 LLM，最大的瓶颈不是算力，而是数据。互联网上的数学内容分布极不均匀：高质量的数学推导散落在教育网站、论坛、教材中，混杂着大量低质量的作业抄袭、错误解答和纯公式堆砌。更麻...

阅读全文