核心观点:FineWeb不是又一个Common Crawl包装,它是HuggingFace对”如何将野生互联网数据驯化为可训练语料”这个问题的系统性回答。万亿token规模的背后,是一套可复现的工业级数据处理pipeline。
Common Crawl很好,但太野了Common Crawl每月爬取几十亿网页,这是互联网上最大的公开数据源。问题是原始数据完全不能直接用——充斥着广告、导航栏、评论区、重复内容、低质量机器生成文本。如果直接拿来训练,模型学到的是互联网的噪声,而不是语言。
FineWeb的核心价值在于清洗和质量过滤。它不是简单地去掉HTML标签,而是:
内容提取:用启发式规则+机器学习分离正文和噪声
去重:URL级去重移除30-40%重复内容,MinHash去重处理近似重复
质量评分:基于文本连贯性、语法正确性、信息密度打分
语言检测:准确识别100+种语言,置信度评分
...
Cosmopedia: 大规模合成文本数据集 - 用于小语言模型研究
核心观点:Cosmopedia不是”用大模型生成训练数据”的简单实践,它是对”小模型能否通过精心策划的合成数据达到大模型性能”这个命题的系统性验证。答案是肯定的,但前提是数据设计要足够聪明。
小模型复兴:不是开倒车在7B、13B甚至70B参数成为主流的今天,HuggingFace投入资源研究1-3B的小模型,这不是技术倒退,而是实用主义的回归。
现实是:
绝大多数实际应用不需要70B模型的能力
边缘设备、移动端、实时场景无法承受大模型的计算成本
推理成本是服务化LLM的最大成本来源
Phi-1.5(1.3B参数)证明了小模型的可能性——在特定任务上接近GPT-3.5的性能。关键是什么?不是模型架构,而是训练数据。Cosmopedia正是这个洞察的产物。
1660万条数据的”课程设计”Cosmopedia的8个子集不是随机划分,而是精心设计的能力培养路径:
数学推理(auto_ma...
FineMath: HuggingFace 打造的 50B Token 数学预训练语料
FineMath: HuggingFace 打造的 50B Token 数学预训练语料
数据集链接: HuggingFace创建机构: HuggingFace TextBook Team许可证: ODC-By 1.0规模: FineMath-3+ (34B token) + FineMath-4+ (9.6B token)质量评分: 4.6/5.0
核心观点数学能力已经成为衡量 LLM 的核心指标,但绝大多数开源数学数据集质量参差不齐。FineMath 用一套精细化的质量评分管道,从 Common Crawl 的噪声海洋中提取出了目前最干净的数学预训练语料。
数学数据为什么这么难搞训练一个数学能力强的 LLM,最大的瓶颈不是算力,而是数据。互联网上的数学内容分布极不均匀:高质量的数学推导散落在教育网站、论坛、教材中,混杂着大量低质量的作业抄袭、错误解答和纯公式堆砌。
更麻...