DeepSeek-V3

DeepSeek-V3

DeepSeek-V3是一个强大的混合专家(MoE)语言模型,总参数量达到6710亿,每次激活370亿参数。该模型采用多头潜在注意力(MLA)和DeepSeekMoE架构,经过大规模预训练和强化学习训练,展现出卓越的性能和高效的推理能力。