清华AutoDroid-V2：移动端GUI自动化控制迎来新突破！-网界

清华大学智能产业研究院（AIR）近期公布了一项突破性的研究，该研究聚焦于移动设备上的自然语言控制自动化。AIR在2024年末发布了一篇论文，详细介绍了一款名为AutoDroid-V2的AI模型。这款模型利用小型语言模型（SLM）显著提升了移动设备上的自动化控制能力。

传统的移动设备自动化控制主要依赖于大型语言模型（LLM）和视觉语言模型（VLM），这些模型通过自然语言命令实现复杂的用户任务。然而，这些传统方法大多采用“逐步GUI智能体”方式，频繁查询GUI状态，依赖云端模型进行决策，这不仅带来了隐私和安全问题，还增加了用户端流量消耗和服务器端成本。

相比之下，AutoDroid-V2采用了全新的方法。它根据用户指令生成多步骤脚本，通过设备上的小型语言模型一次性执行多个GUI操作，从而显著减少了查询频率和资源消耗。这种方法不仅避免了对云端大型模型的依赖，还有效保护了用户隐私和数据安全，降低了服务器端的成本。

在基准测试中，AutoDroid-V2表现出色。研究团队在23个移动应用上测试了226项任务，与AutoDroid、SeeClick、CogAgent和Mind2Web等基线方法相比，AutoDroid-V2的任务完成率提高了10.5%至51.7%。这一显著的提升表明，AutoDroid-V2在移动设备自动化控制领域具有巨大的潜力。

AutoDroid-V2在资源消耗方面也表现出色。与基线方法相比，AutoDroid-V2的输入和输出token消耗分别减少至原来的四十三分之一和五十八分之一，LLM推理延迟降低至原来的五分之一到十三分之四。这些改进使得AutoDroid-V2在实际应用中更加高效节能。

在跨LLM测试中，AutoDroid-V2也表现出良好的一致性和稳定性。研究团队在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等不同规模的模型上进行了测试，结果显示AutoDroid-V2的成功率在44.6%至54.4%之间，反向冗余比在90.5%至93.0%之间。这一结果表明，AutoDroid-V2对不同规模的LLM具有良好的适应性和鲁棒性。