HuggingFaceFW/fineweb

HuggingFaceFW/fineweb

FineWeb是一个包含超过15万亿个标记的清理和去重的英文网络数据集,数据来源于CommonCrawl。它针对LLM性能进行了优化,并使用datatrove库进行处理。该数据集旨在为训练大型语言模型提供高质量的数据,并且性能优于其他常用的网络数据集。

HuggingFaceFW/fineweb

详细介绍

FineWeb是一个大规模数据集,旨在为训练大型语言模型提供高质量的网络数据。它包含超过15万亿个标记的清理和去重的英文网络数据,数据来源于CommonCrawl。该数据集使用datatrove库进行处理,并针对LLM性能进行了优化。在基准任务中,它的性能优于其他常用的网络数据集。

更多
数据集

更多分类

关键词

FineWebHuggingFace数据集CommonCrawlWeb数据LLM语言模型数据处理datatrove机器学习自然语言处理大型语言模型

分享