通过清华大学的尖端解决方案发现一种创新的移动 UI 代理方法,该方法利用小型语言模型 (SLM) 的强大功能在设备上自动执行任务。我们的方法通过提供使用高质量数据训练的特定领域的紧凑模型来解决与大型语言模型 (LLM) 相关的隐私和成本问题。这一突破将 UI 任务自动化挑战转化为代码生成问题,由 SLM 有效解决并使用设备上的代码解释器执行。我们以文档为中心的策略会自动为每个应用程序构建详细的 API 文档,创建不同的任务示例来指导代理学习为看不见的任务生成准确而高效的脚本。使用我们的解决方案体验移动 UI 交互的未来,与最先进的移动 UI 代理。使用我们的开源代码保持领先地位,为该领域带来革命性的变化。
大型语言模型 (LLM) 为移动 UI 代理带来了令人兴奋的新进展,这是一个长期存在的研究领域,旨在通过移动 UI 交互完成任意自然语言任务。然而,现有的 UI 代理通常需要强大的大型模型的高推理能力,而这些模型很难在最终用户的设备上本地部署,这引起了人们对用户隐私和集中服务成本的巨大担忧。减少所需模型大小的一种方法是使用高质量的训练数据定制较小的领域特定模型,例如各种类型的应用程序和任务的大规模人工演示,而这样的数据集极难获得。受到最近小型语言模型 (SLM) 卓越编码能力的启发,我们建议将 UI 任务自动化问题转换为代码生成问题,该问题可以通过设备上的 SLM 有效解决,并通过设备上的代码解释器高效执行。与可以使用公共数据集进行大量预训练的常规编码任务不同,由于目标应用程序的多样性、复杂性和多变性,生成 UI 自动化代码具有挑战性。因此,我们采用以文档为中心的方法,自动为每个应用程序构建细粒度的 API 文档,并根据此文档生成不同的任务示例。通过使用合成文档和任务示例指导代理,它学会生成精确而高效的脚本来完成看不见的任务。基于与最先进的移动 UI 代理的详细比较,我们的方法有效地改善了移动任务自动化,成功率显著提高,延迟/令牌消耗更低。代码将开源。
DeepSeek-VL2是一系列先进的混合专家(MoE)视觉语言模型,用于高级多模态理解。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色,具有10亿、28亿和45亿激活参数的三个变体。
在心灵空间找到治愈:在线同伴支持和创伤支持小组。在专家指导下克服创伤后压力障碍症状。加入我们,今天实现积极的改变。
Psyscribe 是一位旨在帮助您改善心理健康的 AI 治疗师。我们的 AI 心理学家完全可个性化,以经济高效且匿名的方式帮助您改善健康状况。您可以在一天中的任何时刻在安全可靠的环境中与您的个人 AI 治疗师聊天。