ExperienceDecember 18, 2024

AutoDroid-V2：基于小型语言模型的移动设备自动化控制

深入了解清华大学推出的AutoDroid-V2，通过小型语言模型（SLM）在移动设备上实现高效、隐私保护的GUI任务自动化。

Posted by

Narcissism and Positive Psychology: Cultivating Self-Awareness and Empathy

Explore how positive psychology offers insights into transforming narcissistic tendencies into independent self-confidence through personal growth and understanding.

倾诉与健康

探讨良好的社会关系和情感倾诉如何改善健康，并研究倾诉对心理和生理的积极影响。

社会规范与帮助行为

探讨社会责任规范如何影响人们在面对困境时的帮助行为，以及不同情境下的帮助动机。

AutoDroid-V2：基于小型语言模型的移动设备自动化控制

大型语言模型（LLMs）为移动UI智能体带来了令人振奋的新进展，这一长期研究领域旨在通过移动UI交互完成任意自然语言任务。然而，现有的UI智能体通常需要强大的大型模型进行高水平的推理，这些模型难以在终端用户设备上本地部署，导致用户隐私和集中式服务成本的巨大担忧。为了减少所需模型的规模，本文提出将UI任务自动化问题转换为代码生成问题，利用小型语言模型（SLM）在设备端高效解决该问题，并通过设备端代码解释器执行生成的脚本。通过文档中心的方法自动构建每个应用的细粒度API文档，并基于此文档生成多样化的任务样本，引导智能体生成精准高效的脚本以完成未见过的任务。与最先进的移动UI智能体相比，我们的方法显著提高了移动任务自动化的成功率，并降低了延迟和token消耗。代码将开源。

论文查看地址：AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation

摘要

技术背景与需求

传统的逐步GUI智能体方法严重依赖云端的大型语言模型（LLM），这不仅增加了用户端的流量消耗和服务器端的集中服务成本，还存在隐私和安全风险。此外，任务执行过程中需要频繁地查询和反思，导致效率较低。

AutoDroid-V2 通过在移动设备上利用小型语言模型（SLM），生成多步骤脚本一次性执行多个GUI操作，大幅减少了查询频率和资源消耗。不仅提高了任务完成的效率，还在隐私保护和资源消耗方面表现突出。

效率提升

AutoDroid-V2通过生成多步骤脚本，一次性执行多个GUI操作，避免了传统方法中的频繁查询，从而大幅减少了查询次数和资源消耗。在基准测试中，AutoDroid-V2的输入和输出token消耗分别减少至43.5分之一和5.8分之一，LLM推理延迟降低至5.7~13.4分之一。任务能够更快地完成，用户体验更加流畅。在23个移动应用上测试的226项任务中，AutoDroid-V2的任务完成率比AutoDroid、SeeClick、CogAgent和Mind2Web等基线提高了10.5%-51.7%，表明AutoDroid-V2在实际应用中具有更高的可靠性和效率。

隐私保护

AutoDroid-V2主要在本地设备上运行，不依赖于云端服务，有效保护了用户的隐私和数据安全。避免了在分享个人GUI页面时可能出现的隐私泄露问题。由于所有的脚本生成和执行都在设备端完成，用户的数据不会被传输到云端，从而降低了数据泄露的风险。

具体措施包括：

降低外部服务器依赖： AutoDroid-V2避免了对外部服务器的依赖，减少了潜在的安全威胁。
稳定性提升： 由于不需要频繁的网络通信，AutoDroid-V2在网络不稳定或断开的情况下仍能稳定运行，确保任务的连续性和可靠性。
离线构建文档： 在离线阶段，AutoDroid-V2会构建应用程序文档，包含AI引导的GUI状态压缩、元素XPath自动生成和GUI依赖分析。
本地脚本生成与执行： 用户提交任务请求后，本地小型语言模型基于先前构建的文档快速生成多步骤脚本，并由特定领域的解释器执行。
多模型测试： AutoDroid-V2在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等多种模型上测试，显示出高度一致的表现，成功率在44.6%-54.4%之间，反向冗余比达90.5%-93.0%。

应用价值

AutoDroid-V2是验证AI在移动设备上决策能力的绝佳工具，特别是在复杂的UI交互测试和用户体验研究中。高效的任务执行能力和强大的兼容性，使其成为科研工作者的理想选择。对于开发者来说，AutoDroid-V2能够帮助自动化日常的测试流程，从简单的UI测试到模拟复杂用户行为，从而提高开发效率，缩短开发周期，降低开发成本。

未来，AutoDroid-V2也有望演变成为一款强大的个人智能助手，自动完成诸如设置闹钟、发送邮件等日常任务，极大提升生活便捷性。

未来研究方向

尽管AutoDroid-V2在许多任务上表现出色，但在面对极端复杂或罕见的任务时，仍有改进空间。未来的研究可以进一步优化模型，提高其在复杂任务中的表现。此外，当前的测试主要集中在安卓平台上，如何将AutoDroid-V2扩展到更多操作系统和设备类型，也是一个重要的研究方向。

结论

AutoDroid-V2在移动设备自动化控制领域展现了巨大的潜力和应用价值。其高效的任务执行能力、卓越的隐私保护和安全性、以及广泛的应用前景，使得它成为未来智能移动设备发展的重要方向。通过在本地设备上部署小型语言模型，AutoDroid-V2不仅提升了自动化任务的效率，还有效保护了用户隐私，为移动设备自动化控制开辟了新的道路。

参考文献

Wen, H., Tian, S., Pavlov, B., Du, W., Li, Y., Chang, G., Zhao, S., Liu, J., Liu, Y., Zhang, Y.-Q., & Li, Y. (2024). AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation. arXiv preprint arXiv:2412.18116. https://doi.org/10.48550/arXiv.2412.18116

常见问题

问：AutoDroid-V2如何在本地设备上运行？

答：AutoDroid-V2利用小型语言模型（SLM）在本地设备上生成多步骤脚本，并通过设备端的代码解释器执行这些脚本，从而实现自动化的GUI操作。

问：AutoDroid-V2在隐私保护方面有哪些优势？

答：AutoDroid-V2主要在本地设备上运行，不依赖云端服务，避免了用户数据传输到外部服务器的风险。此外，所有脚本生成和执行过程均在设备端完成，进一步降低了数据泄露的可能性。

问：AutoDroid-V2的性能如何？

答：在基准测试中，AutoDroid-V2显著减少了token消耗和推理延迟，并在多个移动应用上的任务完成率相比其他基线方法提高了10.5%-51.7%，表现出更高的可靠性和效率。

问：AutoDroid-V2未来的发展方向是什么？

答：未来的研究将致力于优化模型在复杂任务中的表现，以及将AutoDroid-V2扩展到更多操作系统和设备类型，以进一步提升其应用范围和实用性。

论文查看地址：AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation 上一代AutoDroid论文查看地址：AutoDroid: LLM-powered Task Automation in Android