DeepSeek-VL2

DeepSeek-VL2

DeepSeek-VL2是一系列先进的混合专家(MoE)视觉语言模型,用于高级多模态理解。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色,具有10亿、28亿和45亿激活参数的三个变体。

DeepSeek-VL2

详细介绍

DeepSeek-VL2是一系列大型混合专家(MoE)视觉语言模型,专为高级多模态理解而设计。它在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等各种任务上展现出卓越的能力。该模型系列包括三个变体,分别具有10亿、28亿和45亿激活参数,在激活参数数量相同或更少的情况下,实现了与现有模型相当或最先进的性能。

更多
人工智能

关键词

DeepSeek-VL2专家混合视觉语言模型多模态理解视觉问答光学字符识别文档理解人工智能机器学习自然语言处理计算机视觉视觉基础

分享