多智能体协同，移动设备辅助工具让导航更高效

AI 搜索引擎 2024-12-02

231

今天分享的论文由北京交通大学与阿里巴巴集团联合发布。

标题: Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration

论文地址：https://arxiv.org/pdf/2406.01014

代码链接：https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v2

摘要

Mobile-Agent-v2 是一款旨在通过协同工作的多个智能体实现高效导航的移动设备辅助工具。该系统由三个核心组件构成：规划智能体，决策智能体和反思智能体。

规划智能体的职责是依据历史数据制定任务流程，并利用设计的记忆模块来存储历史界面中的关键信息。
决策智能体在制定操作计划时，会利用记忆模块中的数据，并监控当前界面的关键信息，同时对记忆进行更新。
反思智能体则监控决策智能体操作前后界面的变化，评估操作结果是否符合预期，并在需要时采取措施进行修正。

这三个智能体在规划，决策和反思三个阶段各尽其责，相互协作，以降低导航过程中的复杂度。

核心内容

Mobile-Agent-v2 的工作模式基于循环迭代，其主要有5大功能模块：规划智能体模块，决策智能体模块，反思智能体模块，视觉感知模块以及记忆模块。其详细流程如下图所示。

2.1 视觉感知模块

即使是最尖端的机器学习语言模型（MLLMs），在处理屏幕识别任务时也会遇到难题。为了克服这些挑战，本文引入了一个视觉感知模块来增强其性能。这个模块由三个核心组件构成：文本识别组件、图标识别组件和图标描述组件。通过将屏幕截图输入到该模块，我们能够准确地提取屏幕上的文本和图标内容，包括它们的位置坐标。

2.2 记忆模块

为了解决从历史记录中定位关键内容的问题，本文开发了一个记忆组件，它能够存储与当前任务相关的屏幕焦点信息。这个记忆组件充当短期记忆的角色，并且会随着任务的进展而动态更新。在处理涉及多个应用程序的复杂场景时，这个记忆组件显得尤为重要。

2.3 规划智能体模块

为了减少决策过程中对繁琐历史操作的依赖，本文提出了一种独立的规划智能体机制。尽管每次操作可能发生在不同的上下文环境中，并且各有其特点，但它们往往服务于相似的目标。以下图为例，前四次操作虽然各自不同，但它们的核心目的都是查询比赛结果。因此，本文设计了这种规划智能体，其目的是对历史操作进行总结，并监控任务的执行进度。

2.4 决策智能体模块

决策智能体主要包含两大任务：

1. 操作空间

为了简化操作流程，设计者构建了一个特定的操作维度，并规定决策智能体仅能在此范围内选择操作。对于复杂度较高的操作，例如点击和滑动，引入了一个附加的参数维度来精确定位或处理特定信息。

以下是操作维度的具体说明：

启动应用程序（指定应用）：如果当前界面是主屏幕，可以通过此操作启动名为“指定应用”的应用程序。
定位点击（坐标x，y）：此操作用于在坐标点（x，y）进行点击。
执行滑动操作（起点x1，y1，终点x2，y2）：此操作用于从起点（x1，y1）滑动至终点（x2，y2）。
输入文本（具体内容）：如果键盘处于可用状态，可以通过此操作在文本框中输入“具体内容”。
返回主屏幕：此操作用于从任何界面返回至主屏幕。
结束操作：当决策智能体判断所有需求已满足时，可以采用此操作来结束整个操作序列。

2. 记忆单元更新

决策智能体的每个动作都紧密贴合任务需求，并且依赖于当前页面的视觉识别结果，这使得它非常适合在屏幕上识别与任务紧密相关的重点信息。为此，决策智能体被赋予了更新记忆单元的功能。在决策过程中，决策智能体会被引导去检查屏幕上是否存在与任务相关的重点内容。一旦发现此类信息，决策智能体会将其整合到记忆中，以便在未来的决策中使用。

2.5 反思智能体模块

尽管Mobile-Agent-v2拥有视觉识别能力，它偶尔仍会做出一些意外的行为。在某些特定的情况下，即使是最先进的机器学习模型（MLLM），如GPT-4V，也可能发生严重的判断失误。为了解决这个问题，研究者们引入了一个名为“反思智能体”的机制，它能够监控决策智能体在操作前后屏幕的变化，以评估操作是否达到了预期的目的。

总结

Mobile-Agent-v2，是一款专为移动设备设计的辅助工具，通过多智能体的协同工作，能够实现更加高效的导航功能。本研究通过引入规划智能体和记忆模块来应对导航过程中的挑战。为了保障任务的顺畅执行，本文还特别设计了反光板。实验数据揭示，相较于单一代理的Mobile-Agent，Mobile-Agent-v2在性能上取得了显著的改进。同时，研究还发现，通过引入手动操作的相关知识，能够进一步提升系统的整体性能。

▎往期推荐

基于多Agent系统自动发现科学假设

快思考与慢思考Agent

CoAct: 基于多Agent层级协作的AI框架

FixAgent: 基于多Agent交互的自动debug应用框架

决策能力协同设计

文章转载自AI 搜索引擎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。