网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

清华AutoDroid-V2:移动端GUI自动化控制迎来新突破!

2025-01-02来源:ITBEAR编辑:瑞雪

清华大学智能产业研究院(AIR)近期公布了一项突破性的研究,该研究聚焦于移动设备上的自然语言控制自动化。AIR在2024年末发布了一篇论文,详细介绍了一款名为AutoDroid-V2的AI模型。这款模型利用小型语言模型(SLM)显著提升了移动设备上的自动化控制能力。

传统的移动设备自动化控制主要依赖于大型语言模型(LLM)和视觉语言模型(VLM),这些模型通过自然语言命令实现复杂的用户任务。然而,这些传统方法大多采用“逐步GUI智能体”方式,频繁查询GUI状态,依赖云端模型进行决策,这不仅带来了隐私和安全问题,还增加了用户端流量消耗和服务器端成本。

相比之下,AutoDroid-V2采用了全新的方法。它根据用户指令生成多步骤脚本,通过设备上的小型语言模型一次性执行多个GUI操作,从而显著减少了查询频率和资源消耗。这种方法不仅避免了对云端大型模型的依赖,还有效保护了用户隐私和数据安全,降低了服务器端的成本。

在基准测试中,AutoDroid-V2表现出色。研究团队在23个移动应用上测试了226项任务,与AutoDroid、SeeClick、CogAgent和Mind2Web等基线方法相比,AutoDroid-V2的任务完成率提高了10.5%至51.7%。这一显著的提升表明,AutoDroid-V2在移动设备自动化控制领域具有巨大的潜力。

AutoDroid-V2在资源消耗方面也表现出色。与基线方法相比,AutoDroid-V2的输入和输出token消耗分别减少至原来的四十三分之一和五十八分之一,LLM推理延迟降低至原来的五分之一到十三分之四。这些改进使得AutoDroid-V2在实际应用中更加高效节能。

在跨LLM测试中,AutoDroid-V2也表现出良好的一致性和稳定性。研究团队在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等不同规模的模型上进行了测试,结果显示AutoDroid-V2的成功率在44.6%至54.4%之间,反向冗余比在90.5%至93.0%之间。这一结果表明,AutoDroid-V2对不同规模的LLM具有良好的适应性和鲁棒性。

阿里巴巴“通义”App升级更名“千问”,AI战略转向消费级市场新布局
根据官方消息,“千问”定位为阿里旗下最重要的大模型应用入口,其核心能力基于阿里自研的大模型体系Qwen(千问)。 分析人士指出,阿里此前在To B市场和模型研发侧拥有技术基础,但在消费端应用分发层面还未形成…

2025-11-15

Dexmal原力灵机获近10亿融资 阿里蔚来资本助力具身智能研发落地
IT之家 11 月 14 日消息,具身智能公司 Dexmal 原力灵机今日宣布完成数亿元 A+ 轮融资,阿里巴巴为独家投资方。IT之家注意到,该公司 A 轮融资由蔚来资本领投,洪泰基金、联想创投、锡创投和正…

2025-11-14

百度世界大会发布文心大模型5.0 参数量2.4万亿能力达全球领先
文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式,文心5.0的技术路…

2025-11-13