AutoDroid-V2:基于小型语言模型的移动设备自动化控制
深入了解清华大学推出的AutoDroid-V2,通过小型语言模型(SLM)在移动设备上实现高效、隐私保护的GUI任务自动化。
Posted by
AlexRelated reading
高德拉特《目标2:绝不是靠运气》与积极心理学:从系统思维到积极心态的转变
Explore how Goldratt's insights in *The Goal* align with positive psychology, focusing on the role of mindset, systems thinking, and goal-oriented strategies in overcoming challenges and fostering personal growth.
Embracing the Journey: From Zero Coding Experience to a Comprehensive Psychology Resource
From no coding experience to building a comprehensive psychology resource, explore the journey and growth through AI, Next.js, and positive psychology.
探索社会心理学如何应对全球气候变化带来的行为挑战,揭示公众认知与行动之间的差距。
Latest articles
从心理学的角度分析大谷翔平的成长环境、目标管理、自我调节与心理韧性,探讨他在投打二刀流道路上的成功关键。
微小的举动能够改变世界:积极心理学如何解释善意与连结的巨大影响力
探讨微小的善意如何通过积极心理学的视角,带来人与人之间的连结,促进社会的正向变化。
Luigi Mangione: A Psychological Analysis from Elite Student to Crime Suspect
Luigi Mangione's behaviors and viewpoints are not merely manifestations of personal psychological issues but also reflect broader psychological phenomena in modern society, such as the decline of autonomy, social isolation, and resistance against systemic injustice. Addressing these issues requires a multifaceted approach encompassing social, cultural, and psychological strategies to ensure individual mental health and societal harmony
AutoDroid-V2:基于小型语言模型的移动设备自动化控制
大型语言模型(LLMs)为移动UI智能体带来了令人振奋的新进展,这一长期研究领域旨在通过移动UI交互完成任意自然语言任务。然而,现有的UI智能体通常需要强大的大型模型进行高水平的推理,这些模型难以在终端用户设备上本地部署,导致用户隐私和集中式服务成本的巨大担忧。为了减少所需模型的规模,本文提出将UI任务自动化问题转换为代码生成问题,利用小型语言模型(SLM)在设备端高效解决该问题,并通过设备端代码解释器执行生成的脚本。通过文档中心的方法自动构建每个应用的细粒度API文档,并基于此文档生成多样化的任务样本,引导智能体生成精准高效的脚本以完成未见过的任务。与最先进的移动UI智能体相比,我们的方法显著提高了移动任务自动化的成功率,并降低了延迟和token消耗。代码将开源。
论文查看地址:AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation
摘要
大型语言模型(LLMs)为移动UI智能体带来了令人振奋的新进展,这一长期研究领域旨在通过移动UI交互完成任意自然语言任务。然而,现有的UI智能体通常需要强大的大型模型进行高水平的推理,这些模型难以在终端用户设备上本地部署,导致用户隐私和集中式服务成本的巨大担忧。为了减少所需模型的规模,本文提出将UI任务自动化问题转换为代码生成问题,利用小型语言模型(SLM)在设备端高效解决该问题,并通过设备端代码解释器执行生成的脚本。通过文档中心的方法自动构建每个应用的细粒度API文档,并基于此文档生成多样化的任务样本,引导智能体生成精准高效的脚本以完成未见过的任务。与最先进的移动UI智能体相比,我们的方法显著提高了移动任务自动化的成功率,并降低了延迟和token消耗。代码将开源。
技术背景与需求
传统的逐步GUI智能体方法严重依赖云端的大型语言模型(LLM),这不仅增加了用户端的流量消耗和服务器端的集中服务成本,还存在隐私和安全风险。此外,任务执行过程中需要频繁地查询和反思,导致效率较低。
AutoDroid-V2 通过在移动设备上利用小型语言模型(SLM),生成多步骤脚本一次性执行多个GUI操作,大幅减少了查询频率和资源消耗。不仅提高了任务完成的效率,还在隐私保护和资源消耗方面表现突出。
效率提升
AutoDroid-V2通过生成多步骤脚本,一次性执行多个GUI操作,避免了传统方法中的频繁查询,从而大幅减少了查询次数和资源消耗。在基准测试中,AutoDroid-V2的输入和输出token消耗分别减少至43.5分之一和5.8分之一,LLM推理延迟降低至5.7~13.4分之一。任务能够更快地完成,用户体验更加流畅。在23个移动应用上测试的226项任务中,AutoDroid-V2的任务完成率比AutoDroid、SeeClick、CogAgent和Mind2Web等基线提高了10.5%-51.7%,表明AutoDroid-V2在实际应用中具有更高的可靠性和效率。
隐私保护
AutoDroid-V2主要在本地设备上运行,不依赖于云端服务,有效保护了用户的隐私和数据安全。避免了在分享个人GUI页面时可能出现的隐私泄露问题。由于所有的脚本生成和执行都在设备端完成,用户的数据不会被传输到云端,从而降低了数据泄露的风险。
具体措施包括:
- 降低外部服务器依赖: AutoDroid-V2避免了对外部服务器的依赖,减少了潜在的安全威胁。
- 稳定性提升: 由于不需要频繁的网络通信,AutoDroid-V2在网络不稳定或断开的情况下仍能稳定运行,确保任务的连续性和可靠性。
- 离线构建文档: 在离线阶段,AutoDroid-V2会构建应用程序文档,包含AI引导的GUI状态压缩、元素XPath自动生成和GUI依赖分析。
- 本地脚本生成与执行: 用户提交任务请求后,本地小型语言模型基于先前构建的文档快速生成多步骤脚本,并由特定领域的解释器执行。
- 多模型测试: AutoDroid-V2在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等多种模型上测试,显示出高度一致的表现,成功率在44.6%-54.4%之间,反向冗余比达90.5%-93.0%。
应用价值
AutoDroid-V2是验证AI在移动设备上决策能力的绝佳工具,特别是在复杂的UI交互测试和用户体验研究中。高效的任务执行能力和强大的兼容性,使其成为科研工作者的理想选择。对于开发者来说,AutoDroid-V2能够帮助自动化日常的测试流程,从简单的UI测试到模拟复杂用户行为,从而提高开发效率,缩短开发周期,降低开发成本。
未来,AutoDroid-V2也有望演变成为一款强大的个人智能助手,自动完成诸如设置闹钟、发送邮件等日常任务,极大提升生活便捷性。
未来研究方向
尽管AutoDroid-V2在许多任务上表现出色,但在面对极端复杂或罕见的任务时,仍有改进空间。未来的研究可以进一步优化模型,提高其在复杂任务中的表现。此外,当前的测试主要集中在安卓平台上,如何将AutoDroid-V2扩展到更多操作系统和设备类型,也是一个重要的研究方向。
结论
AutoDroid-V2在移动设备自动化控制领域展现了巨大的潜力和应用价值。其高效的任务执行能力、卓越的隐私保护和安全性、以及广泛的应用前景,使得它成为未来智能移动设备发展的重要方向。通过在本地设备上部署小型语言模型,AutoDroid-V2不仅提升了自动化任务的效率,还有效保护了用户隐私,为移动设备自动化控制开辟了新的道路。
参考文献
Wen, H., Tian, S., Pavlov, B., Du, W., Li, Y., Chang, G., Zhao, S., Liu, J., Liu, Y., Zhang, Y.-Q., & Li, Y. (2024). AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation. arXiv preprint arXiv:2412.18116. https://doi.org/10.48550/arXiv.2412.18116
常见问题
问:AutoDroid-V2如何在本地设备上运行?
答:AutoDroid-V2利用小型语言模型(SLM)在本地设备上生成多步骤脚本,并通过设备端的代码解释器执行这些脚本,从而实现自动化的GUI操作。
问:AutoDroid-V2在隐私保护方面有哪些优势?
答:AutoDroid-V2主要在本地设备上运行,不依赖云端服务,避免了用户数据传输到外部服务器的风险。此外,所有脚本生成和执行过程均在设备端完成,进一步降低了数据泄露的可能性。
问:AutoDroid-V2的性能如何?
答:在基准测试中,AutoDroid-V2显著减少了token消耗和推理延迟,并在多个移动应用上的任务完成率相比其他基线方法提高了10.5%-51.7%,表现出更高的可靠性和效率。
问:AutoDroid-V2未来的发展方向是什么?
答:未来的研究将致力于优化模型在复杂任务中的表现,以及将AutoDroid-V2扩展到更多操作系统和设备类型,以进一步提升其应用范围和实用性。
论文查看地址:AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation 上一代AutoDroid论文查看地址:AutoDroid: LLM-powered Task Automation in Android