
论文地址:https://arxiv.org/pdf/2406.01014
代码链接:https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v2

01
摘要
Mobile-Agent-v2 是一款旨在通过协同工作的多个智能体实现高效导航的移动设备辅助工具。该系统由三个核心组件构成:规划智能体,决策智能体和反思智能体。
规划智能体的职责是依据历史数据制定任务流程,并利用设计的记忆模块来存储历史界面中的关键信息。
决策智能体在制定操作计划时,会利用记忆模块中的数据,并监控当前界面的关键信息,同时对记忆进行更新。
反思智能体则监控决策智能体操作前后界面的变化,评估操作结果是否符合预期,并在需要时采取措施进行修正。

02
核心内容

2.1 视觉感知模块
2.2 记忆模块

2.3 规划智能体模块

2.4 决策智能体模块
启动应用程序(指定应用):如果当前界面是主屏幕,可以通过此操作启动名为“指定应用”的应用程序。 定位点击(坐标x,y):此操作用于在坐标点(x,y)进行点击。 执行滑动操作(起点x1,y1,终点x2,y2):此操作用于从起点(x1,y1)滑动至终点(x2,y2)。 输入文本(具体内容):如果键盘处于可用状态,可以通过此操作在文本框中输入“具体内容”。 返回主屏幕:此操作用于从任何界面返回至主屏幕。 结束操作:当决策智能体判断所有需求已满足时,可以采用此操作来结束整个操作序列。
2.5 反思智能体模块
尽管Mobile-Agent-v2拥有视觉识别能力,它偶尔仍会做出一些意外的行为。在某些特定的情况下,即使是最先进的机器学习模型(MLLM),如GPT-4V,也可能发生严重的判断失误。为了解决这个问题,研究者们引入了一个名为“反思智能体”的机制,它能够监控决策智能体在操作前后屏幕的变化,以评估操作是否达到了预期的目的。

03
总结
Mobile-Agent-v2,是一款专为移动设备设计的辅助工具,通过多智能体的协同工作,能够实现更加高效的导航功能。本研究通过引入规划智能体和记忆模块来应对导航过程中的挑战。为了保障任务的顺畅执行,本文还特别设计了反光板。实验数据揭示,相较于单一代理的Mobile-Agent,Mobile-Agent-v2在性能上取得了显著的改进。同时,研究还发现,通过引入手动操作的相关知识,能够进一步提升系统的整体性能。
▎往期推荐




