FineWeb是一个包含超过15万亿个标记的清理和去重的英文网络数据集,数据来源于CommonCrawl。它针对LLM性能进行了优化,并使用datatrove库进行处理。该数据集旨在为训练大型语言模型提供高质量的数据,并且性能优于其他常用的网络数据集。
FineWeb是一个大规模数据集,旨在为训练大型语言模型提供高质量的网络数据。它包含超过15万亿个标记的清理和去重的英文网络数据,数据来源于CommonCrawl。该数据集使用datatrove库进行处理,并针对LLM性能进行了优化。在基准任务中,它的性能优于其他常用的网络数据集。
EmoLLM 是一系列能够支持 理解用户-支持用户-帮助用户 心理健康辅导链路的心理健康大模型,心理健康大模型、LLM、Finetune、InternLM2、InternLM2.5、Qwen、ChatGLM、Baichuan、DeepSeek、Mixtral、LLama3、GLM4、Qwen2 - SmartFlowAI/EmoLLM
本研究调查了美国高等教育教师对在线的态度和行为资源、图书馆和相关主题。它涵盖了广泛的问题,包括教师对电子学术资源的依赖、从印刷期刊到电子期刊的过渡、出版偏好、电子书和学术期刊的保存。
用于建模心理健康状况的电子媒体数据集的不断发展列表。该存储库从不同来源(包括社交媒体平台、在线论坛和学术研究)整理了各种数据集,以支持心理健康建模和 AI 应用方面的研究。