FineWeb: HuggingFace大规模网络爬取预训练数据集

核心观点:FineWeb不是又一个Common Crawl包装,它是HuggingFace对”如何将野生互联网数据驯化为可训练语料”这个问题的系统性回答。万亿token规模的背后,是一套可复现的工业级数据处理pipeline。 Common Crawl很好,但太野了Common Crawl每月爬取几十亿网页,这是互联网上最大的公开数据源。问题是原始数据完全不能直接用——充斥着广告、导航栏、评论区、重复内容、低质量机器生成文本。如果直接拿来训练,模型学到的是互联网的噪声,而不是语言。 FineWeb的核心价值在于清洗和质量过滤。它不是简单地去掉HTML标签,而是: 内容提取:用启发式规则+机器学习分离正文和噪声 去重:URL级去重移除30-40%重复内容,MinHash去重处理近似重复 质量评分:基于文本连贯性、语法正确性、信息密度打分 语言检测:准确识别100+种语言,置信度评分 ...

阅读全文

© 2025 Generative AI Discovery All Rights Reserved.
Theme by hiero