FineMath: HuggingFace 打造的 50B Token 数学预训练语料

FineMath: HuggingFace 打造的 50B Token 数学预训练语料 数据集链接: HuggingFace创建机构: HuggingFace TextBook Team许可证: ODC-By 1.0规模: FineMath-3+ (34B token) + FineMath-4+ (9.6B token)质量评分: 4.6/5.0 核心观点数学能力已经成为衡量 LLM 的核心指标,但绝大多数开源数学数据集质量参差不齐。FineMath 用一套精细化的质量评分管道,从 Common Crawl 的噪声海洋中提取出了目前最干净的数学预训练语料。 数学数据为什么这么难搞训练一个数学能力强的 LLM,最大的瓶颈不是算力,而是数据。互联网上的数学内容分布极不均匀:高质量的数学推导散落在教育网站、论坛、教材中,混杂着大量低质量的作业抄袭、错误解答和纯公式堆砌。 更麻...

阅读全文

© 2026 Generative AI Discovery All Rights Reserved.
Theme by hiero