OmniParser，微软的用于纯视觉 GUI 分析的Agent

时间：2024-12-27 10:58:26浏览次数：6

标签：4V GUI Agent GPT OmniParser model 模型 icon

OmniParser 是微软最近发布的一个解析界面的库，主要将成果解析后转送给大模型体系进行更多的能力拓展。等于是将传统的UI界面，转换成了LLM大模型语言等Agent系统能直接理解和处理的输入源了。非常有意思。

用官方的话来说：OmniParser是一种将用户界面截图解析为结构化、易于理解的元素的综合方法，它显著增强了 GPT-4V 生成能够准确地基于界面相应区域的操作的能力。

以下来说说我的感受和理解。

本文中的截图或者说配图都是用微信小程序【字形绘梦】制作，谢谢该软件的免费支持。

1 概要

GPT-4V 和 GPT-4o 等大型视觉语言模型 (VLM) 的最新进展已显示出在驱动用户界面 (UI) 内运行的智能代理系统方面的巨大潜力。然而，这些多模态模型的全部潜力在实际应用中仍未得到充分挖掘，特别是在仅使用视觉输入充当跨不同操作系统和应用程序的通用代理方面。

主要限制因素之一是缺乏一种强大的屏幕解析技术，该技术能够

1) 可靠地识别用户界面中的可交互图标，

2) 理解屏幕截图中各种元素的语义并准确地将预期操作与屏幕上的相应区域关联起来。

了解一下 OmniParser，这是一个紧凑的屏幕解析模块，可以将 UI 屏幕截图转换为结构化元素。OmniParser 可以与各种模型一起使用，以创建能够对 UI 采取行动的代理。与 GPT-4V 一起使用时，它可以显著提高代理为界面区域生成精确接地操作的能力。

2 主要内容

开源项目地址：

https://github.com/microsoft/OmniParser

2.1 安装

準備好Conda，和虛擬環境，如下圖

定位到Git獲取下來的目錄位置，在命令行中執行安裝指令 pip install -r requirements.txt，如下圖

2.2 下載模型，放到位置中

放到源代碼目錄下

2.3 執行Demo # For v1

python gradio_demo.py –icon_detect_model weights/icon_detect/best.pt –icon_caption_model florence2

# For v1.5

python gradio_demo.py –icon_detect_model weights/icon_detect_v1_5/model_v1_5.pt –icon_caption_model florence2

3 创建 OmniParser

整理专业数据集– OmniParser 的开发始于两个数据集的创建：

可交互的图标检测数据集，该数据集从流行网页中精选而出，并带有注释以突出显示可点击和可操作的区域。
图标描述数据集，旨在将每个 UI 元素与其对应的功能关联起来。此数据集是训练模型理解检测到的元素的语义的关键组件。

微调检测和字幕模型– OmniParser 利用两个互补的模型：

一种在可交互图标数据集上进行微调的检测模型，可以可靠地识别屏幕截图中的可操作区域。
在图标描述数据集上训练的字幕模型，提取检测到的元素的功能语义，生成其预期动作的上下文准确描述。

4 基准性能

我们证明，通过解析结果，GPT-4V 在 ScreenSpot 基准测试中的表现得到了极大提升。在 Mind2Web 上，OmniParser +GPT-4V 的性能优于使用从 HTML 中提取的额外信息的 GPT-4V 代理。而在 AITW 基准测试中，OmniParser 的表现优于使用经过视图层次结构训练的专用 Android 图标检测模型增强的 GPT-4V。

为了进一步证明 OmniParser 是现成视觉语言模型的插件选择，我们展示了 OmniParser 与最近发布的视觉语言模型 Phi-3.5-V 和 Llama-3.2-V 相结合的 ScreenSpot 基准性能。我们希望 OmniParser 可以作为一种通用且易于使用的工具，能够在 PC 和移动平台上解析一般用户屏幕，而无需依赖 Android 中的 HTML 和视图层次结构等额外信息。

标签：4V,GUI,Agent,GPT,OmniParser,model,模型,icon
From： https://blog.csdn.net/ms44/article/details/144685724

全面分析Agentic AI 在医疗健康行业应用场景
欢迎来到AI应用探索，这里专注于探索AI应用。看一个新事物在行业的应用场景，首先得看它具备哪些关键能力，能解决行业内的哪些痛点问题或关键需求，以及与传统方式相比是否有本质上的区别。AgenticAI是以大语言模型（LLM）为核心驱动、能进行自主决策及规划执行的智能体系统，具备理解、......
英伟达：Agentic AI通过四步自主解决复杂问题
英伟达的GPU产品（如A100、H100）目前仍占据数据中心AI工作负载的主导市场份额，覆盖了90%以上的大规模AI计算。相比竞争对手，英伟达的产品在计算效率、能效比和生态支持方面均有显著优势。最近，AgenticAI在业界和学术界都非常火爆，并被普遍认为是AI应用的爆发方向。那么作为AI基础设......
全面对比AI Agent 与 Agentic AI
欢迎来到AI应用探索，这里专注于探索AI应用。AIAgent与AgenticAI都是目前火热的AI应用方式，小到各种工具，大到企业应用系统，无不充斥着使用AIAgent或AgenticAI来改造一遍的期望。那么，究竟何为AIAgent？AgenticAI又是何方神圣？他们又有什么区别和联系呢？先看下他们基本的概......
AppAgent源码 (OpenAIModel 类)
1.config.yaml文件准备模型用的是字节跳动的，链接：https://www.volcengine.com/MODEL:"OpenAI"#Thetypeofmulti-modalLLMyouwouldliketousetopowertheAppAgent,mustbeeitherOpenAIorQwenOPENAI_API_BASE:"https://ark.cn-beijing.volces.com/ap......
构建多代理检索增强生成（Multi-Agent Retrieval-Augmented Generation）系统
在当今快速发展的AI领域中，多代理检索增强生成（Multi-AgentRetrieval-AugmentedGeneration，简称多代理RAG）(面向企业RAG（RetrievalAugmentedGeneration）系统的多维检索框架)系统作为一种革命性的架构，正在企业级应用中崭露头角。多智能体RAG系统作为一种创新架构，为企业构建高效......
智谱开源CogAgent的最新模型CogAgent-9B-20241220，全面领先所有开闭源GUI Agent模型
在现代数字世界中，图形用户界面（GUI）是人机交互的核心。然而，尽管大型语言模型（LLM）如ChatGPT在处理文本任务上表现出色，但在理解和操作GUI方面仍面临挑战，因此最近一年来，在学界和大模型社区中，越来越多的研究者和开发者们开始关注VLM-basedGUIAgent。2023年12月，智谱发布了CogAgent，第一个......
Book notes: The Business Case for AI: A Leader's Guide to AI Strategies, Best Pr
这本书的第一部分塑造了你的思维。我们了解了AI是什么和不是什么，帮助您设定期望。我们没有将AI视为取代您工作的机器人，而是了解到AI可以成为一种实用的商业工具。您现在可以使用它来提高生产力、减少人为错误，甚至增加收入。我们还了解到，AI并不是解决所有问题的灵丹妙......
Multi-agent智能体工具-业务应用智能根因定位落地
会议主题：第二讲Multi-agent智能体工具-业务应用智能根因定位会议摘要：此次会议是智能运维落地系列课程的第二讲，主要讨论了一个基于多agent实现的业务系统故障更新定位工具。该工具旨在模仿人类的联合排障过程，通过运维经理的牵头，将问题分解给不同领域的专家进行排查，最终定位故障根......
python图片脚本4-批量图片加水印(详细注释+GUI界面+exe可执行文件)
目录前言导航pillow库的使用篇tkiner库的使用篇图片脚本篇源码批量处理图片尺寸脚本源码效果GUI界面源码效果打包成.exe可执行文件共勉博客前言本文介绍一个用python第三方库pillow写的批量处理图片加水印的脚本，以及脚本对应的使用tkinter库写的GUI界面并把它打......
什么是智能体（Agent）？一文彻底读懂智能体Agent ！！！
电影《钢铁侠》中的智能助手J.A.R.V.I.S.（JustARatherVeryIntelligentSystem，即“只是一个相当聪明的系统”）为我们描绘了一个未来AIAgent的雏形。J.A.R.V.I.S.，作为托尼·斯塔克（钢铁侠）的得力助手，不仅拥有强大的数据处理能力，还能精准理解并执行主人的指令，甚至能在关键时......