<
头闻号

深州市南护机床橡塑配件厂

塑料包装机械|封口机械|贴标机械|包装机械|屠宰及肉类初加工设备|洗地机

首页 > 新闻中心 > 让大模型成为能够操控计算机的智能体,作者带来OmniParser V2详解
让大模型成为能够操控计算机的智能体,作者带来OmniParser V2详解
发布时间:2025-03-29 22:20:22        浏览次数:2        返回列表

图形用户界面(GUI)自动化需要智能体能够理解并交互用户界面。然而,使用通用大型语言模型(LLM)作为 GUI 智能体面临多个挑战:1. 可靠识别 UI 中的可交互图标, 2.理解截图中各元素的语义,并准确关联预期操作和屏幕区域。OmniParser 通过将 UI 截图从像素空间 tokenize 为结构化元素,使其可被 LLM 理解,从而支持基于检索的下一步操作预测。

相比上个版本,OmniParser V2 在检测较小的可交互元素时能达到更高的精度,并且推理速度更快。OmniParser V2 使用了更大的数据集包括交互元素检测数据和交互图标描述数据进行训练。通过减小交互图标标注模型的图像尺寸,OmniParser V2 与前一版本相比延迟降低了 60%。在最近发布的以高分辨率屏幕和小图标为特点基准测试 ScreenSpot Pro 中,Omniparser+GPT-4o 以 39.6 的平均分值获得 SOTA,这相比 GPT-4o 原本的 0.8 分有了大幅提升。

为了更好的帮助大家了解 OmniParser V2,机器之心最新一期线上分享邀请到微软研究院 AI Frontiers Lab 资深研究员鲁亚东,为大家进行详细介绍。

分享主题:OmniParser V2 和高质量 web agent trajectory 合成系统

嘉宾介绍:鲁亚东是微软研究院 AI Frontiers Lab 资深研究员, computer use agent project lead,专注于 multimodal LLM 在 UI 解析和 GUI 自动化方面的研究:en-us/research/people/yadonglu/

分享摘要:

Project 1:OmniParser V2 通过更大规模的交互元素检测数据和图标功能描述数据训练,实现更高效的 GUI 解析。相比前一版本,它的推理延迟降低 60%,在 ScreenSpot Pro 基准测试中,OmniParser+GPT-4o 取得了 39.6 的SOTA准确率。本次分享将介绍 OmniParser V2 的核心技术、性能提升以及应用场景。

Project 2:Explorer web agent,我们构建了一套数据合成系统,用在 5 万个热门网站上,自动生成了 100k 高质量网页浏览 trajectory,每条 trajectory 只需 28 美分,并在此基础上训练了explorer model (4B/7B), 在多项agent benchmark得到 sota 表现。

直播时间:北京时间3月4日10:00-11:00

直播预约:

本次直播设有 QA 环节,欢迎大家加群一起来聊。