洛锡安日记项目由 125 多个音频/视频录音组成,这些录音来自爱丁堡和苏格兰洛锡安郡的居民。参与者讨论了他们在 Covid-19 大流行不同阶段的经历。录音附有抄录和人口统计信息。
洛锡安日记项目是 Covid-19 大流行期间个人经历的独特集合。其中包括来自苏格兰爱丁堡和洛锡安郡居民的 125 多段音频和视频录音。每段录音都附有文字记录和人口统计信息,为社会和健康研究提供了丰富的资源。该项目旨在记录疫情对个人和社区的影响。
FineWeb-2 是一个包含超过 15 万亿个来自 CommonCrawl 的经过清理和重复数据删除的英语网络数据的数据集。这是流行的 🍷 FineWeb 数据集的第二次迭代,为超过 1000 种 🗣️ 种语言带来了高质量的预训练数据。🥂 FineWeb2 数据集完全可重现,可在宽松的 ODC-By 1.0 许可下使用,并通过数百次消融实验进行了广泛验证。特别是,在我们用来指导处理决策的 9 种不同语言集合中,🥂 FineWeb2 的表现优于其他涵盖多种语言的流行预训练数据集(例如 CC-100、mC4、CulturaX 或 HPLT,但规模要大得多),在某些情况下,在我们精心挑选的多种评估任务:FineTasks 中,它的表现甚至优于专门为其中一种语言策划的一些数据集。
iBVP 数据集是一组同步的 RGB 和热红外视频,其中包含从耳朵获取的 PPG 真实信号。它包括使用 SQA-PhysMD 模型的手动信号质量标签和密集信号质量评估。该数据集旨在诱导现实世界中的心理生理状态和头部运动变化。
DAIC-WOZ 数据集包含临床访谈,旨在支持焦虑、抑郁和创伤后应激障碍等心理困扰状况的诊断。该存储库提供了从 DAIC-WOZ 数据集中提取问题级特征的代码,可用于抑郁水平的多模态分析。