Back to Blog

AutoDroid-V2:基于小型语言模型的移动设备自动化控制

深入了解清华大学推出的AutoDroid-V2,通过小型语言模型(SLM)在移动设备上实现高效、隐私保护的GUI任务自动化。

Posted by

AutoDroid-V2 移动设备自动化控制

AutoDroid-V2:基于小型语言模型的移动设备自动化控制

大型语言模型(LLMs)为移动UI智能体带来了令人振奋的新进展,这一长期研究领域旨在通过移动UI交互完成任意自然语言任务。然而,现有的UI智能体通常需要强大的大型模型进行高水平的推理,这些模型难以在终端用户设备上本地部署,导致用户隐私和集中式服务成本的巨大担忧。为了减少所需模型的规模,本文提出将UI任务自动化问题转换为代码生成问题,利用小型语言模型(SLM)在设备端高效解决该问题,并通过设备端代码解释器执行生成的脚本。通过文档中心的方法自动构建每个应用的细粒度API文档,并基于此文档生成多样化的任务样本,引导智能体生成精准高效的脚本以完成未见过的任务。与最先进的移动UI智能体相比,我们的方法显著提高了移动任务自动化的成功率,并降低了延迟和token消耗。代码将开源。

论文查看地址:AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation

摘要

大型语言模型(LLMs)为移动UI智能体带来了令人振奋的新进展,这一长期研究领域旨在通过移动UI交互完成任意自然语言任务。然而,现有的UI智能体通常需要强大的大型模型进行高水平的推理,这些模型难以在终端用户设备上本地部署,导致用户隐私和集中式服务成本的巨大担忧。为了减少所需模型的规模,本文提出将UI任务自动化问题转换为代码生成问题,利用小型语言模型(SLM)在设备端高效解决该问题,并通过设备端代码解释器执行生成的脚本。通过文档中心的方法自动构建每个应用的细粒度API文档,并基于此文档生成多样化的任务样本,引导智能体生成精准高效的脚本以完成未见过的任务。与最先进的移动UI智能体相比,我们的方法显著提高了移动任务自动化的成功率,并降低了延迟和token消耗。代码将开源。

技术背景与需求

传统的逐步GUI智能体方法严重依赖云端的大型语言模型(LLM),这不仅增加了用户端的流量消耗和服务器端的集中服务成本,还存在隐私和安全风险。此外,任务执行过程中需要频繁地查询和反思,导致效率较低。

AutoDroid-V2 通过在移动设备上利用小型语言模型(SLM),生成多步骤脚本一次性执行多个GUI操作,大幅减少了查询频率和资源消耗。不仅提高了任务完成的效率,还在隐私保护和资源消耗方面表现突出。

效率提升

AutoDroid-V2通过生成多步骤脚本,一次性执行多个GUI操作,避免了传统方法中的频繁查询,从而大幅减少了查询次数和资源消耗。在基准测试中,AutoDroid-V2的输入和输出token消耗分别减少至43.5分之一和5.8分之一,LLM推理延迟降低至5.7~13.4分之一。任务能够更快地完成,用户体验更加流畅。在23个移动应用上测试的226项任务中,AutoDroid-V2的任务完成率比AutoDroid、SeeClick、CogAgent和Mind2Web等基线提高了10.5%-51.7%,表明AutoDroid-V2在实际应用中具有更高的可靠性和效率。

隐私保护

AutoDroid-V2主要在本地设备上运行,不依赖于云端服务,有效保护了用户的隐私和数据安全。避免了在分享个人GUI页面时可能出现的隐私泄露问题。由于所有的脚本生成和执行都在设备端完成,用户的数据不会被传输到云端,从而降低了数据泄露的风险。

具体措施包括:

  • 降低外部服务器依赖: AutoDroid-V2避免了对外部服务器的依赖,减少了潜在的安全威胁。
  • 稳定性提升: 由于不需要频繁的网络通信,AutoDroid-V2在网络不稳定或断开的情况下仍能稳定运行,确保任务的连续性和可靠性。
  • 离线构建文档: 在离线阶段,AutoDroid-V2会构建应用程序文档,包含AI引导的GUI状态压缩、元素XPath自动生成和GUI依赖分析。
  • 本地脚本生成与执行: 用户提交任务请求后,本地小型语言模型基于先前构建的文档快速生成多步骤脚本,并由特定领域的解释器执行。
  • 多模型测试: AutoDroid-V2在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等多种模型上测试,显示出高度一致的表现,成功率在44.6%-54.4%之间,反向冗余比达90.5%-93.0%。

应用价值

AutoDroid-V2是验证AI在移动设备上决策能力的绝佳工具,特别是在复杂的UI交互测试和用户体验研究中。高效的任务执行能力和强大的兼容性,使其成为科研工作者的理想选择。对于开发者来说,AutoDroid-V2能够帮助自动化日常的测试流程,从简单的UI测试到模拟复杂用户行为,从而提高开发效率,缩短开发周期,降低开发成本。

未来,AutoDroid-V2也有望演变成为一款强大的个人智能助手,自动完成诸如设置闹钟、发送邮件等日常任务,极大提升生活便捷性。

未来研究方向

尽管AutoDroid-V2在许多任务上表现出色,但在面对极端复杂或罕见的任务时,仍有改进空间。未来的研究可以进一步优化模型,提高其在复杂任务中的表现。此外,当前的测试主要集中在安卓平台上,如何将AutoDroid-V2扩展到更多操作系统和设备类型,也是一个重要的研究方向。

结论

AutoDroid-V2在移动设备自动化控制领域展现了巨大的潜力和应用价值。其高效的任务执行能力、卓越的隐私保护和安全性、以及广泛的应用前景,使得它成为未来智能移动设备发展的重要方向。通过在本地设备上部署小型语言模型,AutoDroid-V2不仅提升了自动化任务的效率,还有效保护了用户隐私,为移动设备自动化控制开辟了新的道路。

参考文献

Wen, H., Tian, S., Pavlov, B., Du, W., Li, Y., Chang, G., Zhao, S., Liu, J., Liu, Y., Zhang, Y.-Q., & Li, Y. (2024). AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation. arXiv preprint arXiv:2412.18116. https://doi.org/10.48550/arXiv.2412.18116

常见问题

问:AutoDroid-V2如何在本地设备上运行?

答:AutoDroid-V2利用小型语言模型(SLM)在本地设备上生成多步骤脚本,并通过设备端的代码解释器执行这些脚本,从而实现自动化的GUI操作。

问:AutoDroid-V2在隐私保护方面有哪些优势?

答:AutoDroid-V2主要在本地设备上运行,不依赖云端服务,避免了用户数据传输到外部服务器的风险。此外,所有脚本生成和执行过程均在设备端完成,进一步降低了数据泄露的可能性。

问:AutoDroid-V2的性能如何?

答:在基准测试中,AutoDroid-V2显著减少了token消耗和推理延迟,并在多个移动应用上的任务完成率相比其他基线方法提高了10.5%-51.7%,表现出更高的可靠性和效率。

问:AutoDroid-V2未来的发展方向是什么?

答:未来的研究将致力于优化模型在复杂任务中的表现,以及将AutoDroid-V2扩展到更多操作系统和设备类型,以进一步提升其应用范围和实用性。


论文查看地址:AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation 上一代AutoDroid论文查看地址:AutoDroid: LLM-powered Task Automation in Android

Did you like it? Help us spread the word!

Logo
Ci dedichiamo a creare prodotti che bilanciano felicità e benessere, e ispirano energia positiva.