FineWeb: HuggingFace大规模网络爬取预训练数据集

Posted on 十月 15, 2025

核心观点：FineWeb不是又一个Common Crawl包装，它是HuggingFace对”如何将野生互联网数据驯化为可训练语料”这个问题的系统性回答。万亿token规模的背后，是一套可复现的工业级数据处理pipeline。 Common Crawl很好，但太野了Common Crawl每月爬取几十亿网页，这是互联网上最大的公开数据源。问题是原始数据完全不能直接用——充斥着广告、导航栏、评论区、重复内容、低质量机器生成文本。如果直接拿来训练，模型学到的是互联网的噪声，而不是语言。 FineWeb的核心价值在于清洗和质量过滤。它不是简单地去掉HTML标签，而是：内容提取：用启发式规则+机器学习分离正文和噪声去重：URL级去重移除30-40%重复内容，MinHash去重处理近似重复质量评分：基于文本连贯性、语法正确性、信息密度打分语言检测：准确识别100+种语言，置信度评分 ...

阅读全文