HuggingFaceFW/fineweb-2

HuggingFaceFW/fineweb-2

FineWeb-2 是一个包含超过 15 万亿个来自 CommonCrawl 的经过清理和重复数据删除的英语网络数据的数据集。这是流行的 🍷 FineWeb 数据集的第二次迭代,为超过 1000 种 🗣️ 种语言带来了高质量的预训练数据。🥂 FineWeb2 数据集完全可重现,可在宽松的 ODC-By 1.0 许可下使用,并通过数百次消融实验进行了广泛验证。特别是,在我们用来指导处理决策的 9 种不同语言集合中,🥂 FineWeb2 的表现优于其他涵盖多种语言的流行预训练数据集(例如 CC-100、mC4、CulturaX 或 HPLT,但规模要大得多),在某些情况下,在我们精心挑选的多种评估任务:FineTasks 中,它的表现甚至优于专门为其中一种语言策划的一些数据集。

HuggingFaceFW/fineweb-2

详细介绍

FineWeb-2 是一个大规模数据集旨在为训练大型语言模型提供高质量的网络数据。这是流行的🍷 FineWeb 数据集的第二次迭代,为超过 1000 种🗣️ 种语言带来了高质量的预训练数据。🥂 FineWeb2 数据集完全可重现,可在宽松的 ODC-By 1.0 许可下使用,并通过数百次消融实验进行了广泛验证。特别是在我们用来指导处理决策的 9 种不同语言集合中,🥂 FineWeb2 的表现优于其他涵盖多种语言的流行预训练数据集(例如 CC-100、mC4、CulturaX 或 HPLT,但规模要大得多),在某些情况下,在我们精心挑选的评估任务集合:FineTasks 中,甚至比专门为其中一种语言策划的一些数据集表现更好。

更多
数据集

更多分类

关键词

HuggingFacefineweb-2数据集CommonCrawlWeb数据LLM语言模型数据处理datatrove机器学习自然语言处理大型语言模型

分享