DeepSeek-R1

DeepSeek-R1

DeepSeek-R1是DeepSeek2025年1月最新推出的推理模型,通过大规模强化学习训练,无需监督微调即可展现出卓越的推理能力。该模型在数学、代码和推理任务上表现优异,与OpenAI-o1相当。此外,DeepSeek还开源了基于Llama和Qwen的6个从DeepSeek-R1蒸馏而来的密集模型。

关键词

AIDeepSeek-R1推理模型强化学习监督微调语言模型代码生成机器学习自然语言处理推理数学推理

分享