FineMath: HuggingFace 打造的 50B Token 数学预训练语料

Posted on 十二月 20, 2024

FineMath: HuggingFace 打造的 50B Token 数学预训练语料数据集链接: HuggingFace创建机构: HuggingFace TextBook Team许可证: ODC-By 1.0规模: FineMath-3+ (34B token) + FineMath-4+ (9.6B token)质量评分: 4.6/5.0 核心观点数学能力已经成为衡量 LLM 的核心指标，但绝大多数开源数学数据集质量参差不齐。FineMath 用一套精细化的质量评分管道，从 Common Crawl 的噪声海洋中提取出了目前最干净的数学预训练语料。数学数据为什么这么难搞训练一个数学能力强的 LLM，最大的瓶颈不是算力，而是数据。互联网上的数学内容分布极不均匀：高质量的数学推导散落在教育网站、论坛、教材中，混杂着大量低质量的作业抄袭、错误解答和纯公式堆砌。更麻...

阅读全文