SoulChat2.0 是一个构建心理咨询师数字孪生的框架,旨在支持心理健康领域 AI 应用的开发。它包括一个数据生成模块和一个建模模块,能够基于有限的现实世界咨询案例创建个性化的咨询模型。
SoulChat2.0 是心理健康 AI 领域的一项重大进步,为构建心理咨询师数字孪生提供了一种新颖的方法。该框架利用先进的 LLM 生成高质量的合成数据,捕捉特定咨询师的语言风格和治疗技术。然后使用这些数据对模型进行微调,从而产生能够提供个性化和有效咨询支持的 AI 系统。
FineWeb-2 是一个包含超过 15 万亿个来自 CommonCrawl 的经过清理和重复数据删除的英语网络数据的数据集。这是流行的 🍷 FineWeb 数据集的第二次迭代,为超过 1000 种 🗣️ 种语言带来了高质量的预训练数据。🥂 FineWeb2 数据集完全可重现,可在宽松的 ODC-By 1.0 许可下使用,并通过数百次消融实验进行了广泛验证。特别是,在我们用来指导处理决策的 9 种不同语言集合中,🥂 FineWeb2 的表现优于其他涵盖多种语言的流行预训练数据集(例如 CC-100、mC4、CulturaX 或 HPLT,但规模要大得多),在某些情况下,在我们精心挑选的多种评估任务:FineTasks 中,它的表现甚至优于专门为其中一种语言策划的一些数据集。
Psychology Wiki Datasetpsychology_wiki数据集的构建基于心理学领域的英文维基百科内容,通过系统化的数据采集与整理,确保了信息的广泛覆盖与深度挖掘。数据集中的每一篇文章均经过严格的筛选与标注,涵盖了标题、正文、相关性、受欢迎程度及排名等多个维度,为心理学研究提供了丰富的文本资源。
澳大利亚全国心理健康与福祉研究提供了澳大利亚心理健康问题的关键统计数据,包括精神障碍的流行率、与健康专业人士的咨询以及心理健康相关药物的使用情况。该研究涵盖了广泛的心理健康状况,并深入了解了心理健康对个人和社会的影响。