HuggingFaceFW/fineweb-2

FineWeb-2 是一个包含超过 15 万亿个来自 CommonCrawl 的经过清理和重复数据删除的英语网络数据的数据集。这是流行的 🍷 FineWeb 数据集的第二次迭代，为超过 1000 种 🗣️ 种语言带来了高质量的预训练数据。🥂 FineWeb2 数据集完全可重现，可在宽松的 ODC-By 1.0 许可下使用，并通过数百次消融实验进行了广泛验证。特别是，在我们用来指导处理决策的 9 种不同语言集合中，🥂 FineWeb2 的表现优于其他涵盖多种语言的流行预训练数据集（例如 CC-100、mC4、CulturaX 或 HPLT，但规模要大得多），在某些情况下，在我们精心挑选的多种评估任务：FineTasks 中，它的表现甚至优于专门为其中一种语言策划的一些数据集。

详细介绍

FineWeb-2 是一个大规模数据集旨在为训练大型语言模型提供高质量的网络数据。这是流行的🍷 FineWeb 数据集的第二次迭代，为超过 1000 种🗣️ 种语言带来了高质量的预训练数据。🥂 FineWeb2 数据集完全可重现，可在宽松的 ODC-By 1.0 许可下使用，并通过数百次消融实验进行了广泛验证。特别是在我们用来指导处理决策的 9 种不同语言集合中，🥂 FineWeb2 的表现优于其他涵盖多种语言的流行预训练数据集（例如 CC-100、mC4、CulturaX 或 HPLT，但规模要大得多），在某些情况下，在我们精心挑选的评估任务集合：FineTasks 中，甚至比专门为其中一种语言策划的一些数据集表现更好。

Visit Website

更多
数据集

SoulChat2.0：心理咨询师数字孪生框架

SoulChat2.0 是一个构建心理咨询师数字孪生的框架，旨在支持心理健康领域 AI 应用的开发。它包括一个数据生成模块和一个建模模块，能够基于有限的现实世界咨询案例创建个性化的咨询模型。

sachith-gunasekara/t4d：从 ToMi 到 T4D 数据集的转换算法

sachith-gunasekara/t4d 该项目实现了从 ToMi 数据集到 T4D（思考是为了做）数据集的转换算法，如论文中所述https://arxiv.org/abs/2310.03051。它过滤了包含心智理论 (ToM) 问题的示例，并调整算法以解释二阶错误信念。

tartuNLP/Reddit Anhedonia Dataset - hf-mirror

tartuNLP/reddit-anhedonia by huggingface-mirror (hf-mirror)

网站 URL

https://huggingface.co/datasets/HuggingFaceFW/fineweb-2

关键词

HuggingFacefineweb-2数据集CommonCrawlWeb数据LLM语言模型数据处理datatrove机器学习自然语言处理大型语言模型

HuggingFaceFW/fineweb-2

详细介绍

更多
数据集

SoulChat2.0：心理咨询师数字孪生框架

sachith-gunasekara/t4d：从 ToMi 到 T4D 数据集的转换算法

tartuNLP/Reddit Anhedonia Dataset - hf-mirror

网站 URL

更多分类

关键词

分享

HuggingFaceFW/fineweb-2

详细介绍

更多数据集

SoulChat2.0：心理咨询师数字孪生框架

sachith-gunasekara/t4d：从 ToMi 到 T4D 数据集的转换算法

tartuNLP/Reddit Anhedonia Dataset - hf-mirror

网站 URL

更多分类

关键词

分享

更多
数据集