控制电脑手机的智能体人人都能造，微软开源OmniParser

控制电脑手机的智能体人人都能造，微软开源OmniParser
发布时间：2024-10-27 20:55:51

大模型控制计算机果真就是未来方向？

最近这几天，让大模型具备控制计算机（包括电脑和手机）的相关研究和应用如雨后春笋般不断涌现。

先是 Anthropic 发布了能控制计算机的新版 Claude 3.5 Sonnet，之后荣耀 MagicOS 9.0 来了个全局智能体，再然后，昨天智谱发布了具备「全栈式工具使用能力」的 AutoGLM，同时华为也公布了一项可让 AI 像人类一样操作手机的新研究成果 LiMAC。

很显然，这股热潮完全没有要停息的意思。今天，有网友发现苹果已经默默发布了 Ferret-UI 的两个实现版本（分别基于 Gemma 2B 和 Llama 8B），这是苹果今年五月发布的一个可让 AI 理解手机屏幕的技术，详情参阅《让大模型理解手机屏幕，苹果多模态 Ferret-UI 用自然语言操控手机》。

来自 X 用户 Niels Rogge

Ferret-UI 项目地址：https://huggingface.co/papers/2404.05719

不仅如此，微软也低调开源了他们的相关研究 OmniParser，这是一个基于大模型的屏幕解析工具，可将 UI 截图转换成结构化的元素；据称其解析和理解 UI 的能力达到了当前最佳水平，甚至超越了 GPT-4V。

项目地址：https://huggingface.co/microsoft/OmniParser
代码地址：https://github.com/microsoft/OmniParser
论文标题：OmniParser for Pure Vision Based GUI Agent
论文地址：https://arxiv.org/abs/2408.00203

有了这个工具，或许每个人都可以创建自己的计算机操控智能体了。

先来看看 OmniParser 的效果。对于一个用户任务：「将约翰内斯堡提供素食选择的餐厅保存到我的行程中」。

OmniParser 首先会解析 Tripadvisor 网页屏幕上的所有元素，然后它成功从中找到了「餐厅」选项。之后它点击（动作执行需要搭配其它模型）该选项，打开了一个搜索框。OmniParser 继续解析，这一次没有在屏幕上找到所需关键词，于是它在搜索框中输入了「约翰内斯堡」。再次解析后，它打开了相应的搜索项，展开了搜索结果。同样，继续解析，它成功定位到了素食选项，然后进行了勾选。最后，点击筛选出的第一个选项上的相应按钮将其收藏到行程中。至此，任务完成。