比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行

家人们,苹果一直在悄悄进步!

近期,据小鹿观察,各大科技巨头不仅在提升模型解决复杂问题的能力上竞争激烈,而且还在大语言模型应用于用户界面(UI)交互方面上暗暗发力!

最近,Anthropic对其Claude3.5 Sonnet的UI交互功能进行了升级,而微软则推出了开源工具OmniParser,旨在将屏幕内容转换为结构化数据,以便更有效地利用。

能不能一键丝滑地集成这些大语言模型到系统级应用中应该是各大巨头的下一个赛点了!

苹果公司在产品交互上一直都坚持进步,今天小鹿发现苹果做了一个专门理解和与移动用户界面交互的模型Ferret-UI 2,这个模型不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,从而执行任务或提供信息。

意思是,这个模型用起来后能时刻观察你在手机屏幕上的一举一动,并时刻准备听你召唤提供帮助,执行任务。

根据官方论文的实验结果,在交互页面上的元素识别、意图识别,其测试得分达到了89.73,显著领先于GPT-4o的77.73分!

图片

创新点

Ferret-UI 2 实现了更准确地识别和理解不同设备和操作系统上的UI元素,从而执行复杂的用户中心交互任务。

主要优势有:

  • 多平台、跨设备支持:早期的 Ferret-UI 主要支持移动设备(如 iPhone 和 Android 手机)的UI理解,而 Ferret-UI 2 扩展到了平板(如 iPad)、网页和智能电视(如 Apple TV)等多种平台。其中,在iPhone端基本可以运行流畅,iPad端准确率达68%,安卓设备上的成功率达到71%。

图片

  • 高分辨率自适应:Ferret-UI 2可以适应不同分辨率的屏幕,可以在高清大屏或手机小屏上都保持准确的UI识别效果。无论屏幕大小或清晰度如何,它都能精准识别屏幕上的按钮、图标和文本等元素。

  • 支持更复杂的用户交互任务:Ferret-UI 2 不仅能执行基础点击和操作指令,还能理解更复杂的用户意图。模型能够根据用户的模糊指令做出准确响应。

实现方法

不同于传统的基于坐标点击的操作方式,Ferret-UI 2能够根据用户的自然语言指令自动定位并执行相应的操作

研究团队利用了GPT-4V生成训练数据,使得模型不仅能够识别UI元素,还能执行特定的操作,如滑动页面、填写表单和选择选项,提高了系统对界面元素之间空间关系的理解。

论文标题:《Multi-modal|UI Understanding, Multi-round Reasoning SegmentationFerret-UI 2: Mastering Universal User Interface Understanding Across Platforms》

论文链接:http://arxiv.org/abs/2410.18967v1

模型地址:https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

图片

构建数据

为了训练一个强大的多平台UI理解模型,研究团队构建了自己的数据集,完整的数据集生成流程图如图2所示。

图片

原始注释收集。

用于训练Ferret-UI 2的数据来自不同平台类型的数据的组合,包括iPhone、Android、iPad、网页和AppleTV等。

图片

  • 研究团队在多种使用场景下收集的iPhone、iPad和AppleTV数据,并人工标注小部件边界框坐标和标签。为了节省标注成本,不收集文本注释,文本边界框被替换为使用OCR置信度阈值为0.5的屏幕范围内OCR检测到的文本和边界框。

  • 网页数据来源于WebUI数据集(Wu等,2023)。所有类型的UI小部件的边界框和非图片小部件的文本注释直接从源HTML视图层次结构树解析,提供高质量的注释。

  • Android数据的截图、边界框和文本注释是从RICO数据集转换而来的。

研究团队对所有收集的数据进行了筛选处理:

  • 筛除或调整超出预设边界的边界框,并在筛选后移除那些不再包含任何边界框的空白截图

  • 删除文本注释中含有超过5%非ASCII字符的截图

尽管数据来自不同的源头,其标签的类型也各不相同,但研究团队剔除了与研究关系不大的标签(如UI类型),并将剩余的标签统一归类到一个共有13个类别的标签体系中,包括:‘复选框’、‘按钮’、‘容器’、‘对话框’、‘图标’、‘页面控制’、‘图片’、‘分段控制’、‘滑块’、‘标签栏’、‘文本’、‘文本字段’和‘切换’,从而得到了一个包含原始UI小部件注释的跨平台统一数据集。

在此方法中,每个UI组件都被标记了角落式边界框和独特的数字标签,以便于识别。

此外,为了更好地区分空间接近或嵌套的组件,同一类的UI组件被标记以相同的颜色,从而增强了视觉提示的效果,帮助模型更有效地识别组件边界。

Ferret-UI2区分了基本和高级任务。

对于基本任务,Ferret-UI2将简单的引用和定位数据转换为对话形式,使模型能够对各种UI屏幕建立基本理解。

对于更侧重于用户体验的高级任务,Ferret-UI2采用了基于GPT-4o的“标记集视觉提示”技术来生成训练数据,并用单步用户中心交互取代了之前方法中简单的点击指令。在生成多轮感知和交互问答的训练样本时,他们采用了Set-of-Mark(SoM)视觉提示,如图3所示。

图片

模型架构

Ferret-UI 2 采用了创新的模型架构,如图4所示。

图片

Ferret-UI 2结合了 Any-Resolution(AnyRes)方法,增强了对指代和定位的处理能力,使编码器能够捕捉不同分辨率下的图像信息。该架构采用了自适应 N 网格机制,基于算法动态确定最优网格大小,以最小的分辨率失真和像素变化对屏幕截图的每个区域进行编码。

动态高分辨率图像编码模块利用 CLIP 图像编码器提取全局和局部特征,将这些特征送入大型语言模型(LLM),实现对高分辨率图像的编码。视觉采样器能够根据用户指令识别和选择相关的 UI 区域,输出对 UI 元素的感知或交互描述。

在生成训练数据时,Ferret-UI 2 使用 Set-of-Marks(SoM)视觉提示,增强了模型对 UI 元素空间关系的理解能力。型通过端到端的训练过程,直接从原始数据注释中学习,生成高质量的训练数据,并优化模型性能。

实验结果

为了评估Ferret-UI2的性能,研究团队构建了涵盖五个平台的45个基准测试,包括每个平台的6个基本任务和3个高级任务。结果表明,Ferret-UI 2在各类任务中的表现均优于Ferret-UI和GPT-4o,尤其是在用户指向和定位任务中,其准确率显著提高,远远超过了GPT-4o。

图片

结语

Ferret-UI 2改善了跨不同平台的用户界面(UI)理解和交互,支持多平台,具有高分辨率图像编码和自适应网格化功能,并且改进了数据生成。

大语言模型在人机交互中的体验优化确实是非常重要的!

随着技术的不断进步,人工智能系统正在朝着更加智能、自然和无缝的交互方向发展。现代应用程序已经扩展到多模态交互,包括视觉和语音识别,使用户界面能够更全面地理解用户的多维度需求。而像Ferret-UI这样的工作,就是在多模态交互的基础上,将大语言模型与设备无缝缝合,为自然语言、人类语音等原始交互信号无障碍驱动设备提供技术基础~

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/3515.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

C++练习题(1)

//C交换两个数的值 #include <iostream> using namespace std; int main() { int a,b,temp; scanf("%d %d",&a,&b); tempa; ab; btemp; printf("%d %d",a,b); return 0; } //C交换两个数的值 #include <…

Docker:namespace隔离实战

上一篇&#xff1a;容器化和虚拟化 namespace namespace通过一种内核技术来实现&#xff0c;允许将不同的系统资源隔离和封装到独立的命名空间中。 为容器化、虚拟化和隔离提供强大的基础。通过使用namespace技术&#xff0c;Linux内核可以创建多个独立的命名空间&#xff0…

生物医药产业前景如何?怎样开展生物医药产业分析?

▶生物医药产业前景 生物医药产业的前景是非常广阔的&#xff0c;主要呈现以下几大特点&#xff1a; 1.市场规模增长&#xff1a;预计到2029年&#xff0c;中国医药制造规上企业营业收入将达到5.4万亿元&#xff0c;2024-2029年年均增长率达到14.04%。这表明生物医药产业将继…

Ubuntu用docker安装AWVS和Nessus(含破解)

Ubuntu安装AWVS(更多搜索&#xff1a;超详细Ubuntu用docker安装AWVS和Nessus) 首先安装docker&#xff0c;通过dockers镜像安装很方便&#xff0c;且很快&#xff1b;Docker及Docker-Compose-安装教程。 1.通过docker search awvs命令查看镜像&#xff1b; docker search awvs…

大模型微调技术 --> P-Tuning v1和 P-Tuning v2

P-Tuning 是一种通过引入可学习的 提示 向量来增强预训练语言模型能力的技术&#xff0c;属于提示学习的一种。 1.背景 GPT 在 NLP 领域经过 finetuning 之后很难击败 BERT&#xff0c;主要是因为现在预训练模型的方法有很多种(主要是 MLM)&#xff0c;但在 finetune 的时候&…

Angular引用控件类

说明&#xff1a; angular 在一个控件类里面&#xff0c;引入另外一个控件类&#xff0c;这样做的好处&#xff0c;就是代码分离&#xff0c;当你一个页面存在多少类似于独立的界面时&#xff0c;可以使用这种方式&#xff0c;分离代码 更好维护程序 效果图&#xff1a; step…

124.WEB渗透测试-信息收集-ARL(15)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;123.WEB渗透测试-信息收集-ARL&#xff08;14&#xff09; 点击fofa任务下发&#xff08…

Linux命令 - 关于命令及其使用

文章目录 1 什么是命令&#xff1f;2 识别命令3 命令帮助文档4 命令别名 1 什么是命令&#xff1f; 命令可以是以下四种形式之一&#xff1a; 可执行程序&#xff1a;就像我们所看到的位于/usr/bin目录中的文件一样&#xff0c;这一类程序可以是用诸如C和C语言编写的程序编译…

【万字详文介绍】:迭代扩张卷积神经网络(IDCNN)

&#x1f497;&#x1f497;&#x1f497;欢迎来到我的博客&#xff0c;你将找到有关如何使用技术解决问题的文章&#xff0c;也会找到某个技术的学习路线。无论你是何种职业&#xff0c;我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章&#xff0c;也欢…

220V变5V300mA非隔离芯片WT5104

220V变5V300mA非隔离芯片WT5104 WT5104特点包括&#xff1a; - 宽输入电压&#xff1a;85VAC~265VAC&#xff0c;适应全球电网电压波动。 - 输出规格&#xff1a;稳定5V直流电&#xff0c;最大电流500mA&#xff0c;适用于轻功率电子设备。 - 工作模式灵活&#xff1a;支持CCM…

WonderWorld: Interactive 3D Scene Generation from a Single Image 论文解读

目录 一、概述 二、相关工作 1、新视图生成 2、单视图3D场景生成 3、视频生成 4、快速的3D场景表示 三、WonderWorld 1、FLAGS表示 2、引导深度扩散模块 3、单视角层次生成 4、基于几何的初始化 surfel表示 5、阶段一——生成3D场景部分 6、阶段二——用户交互控…

kkfileview4.2.1 LibreOffice_7.1.4_Linux_x86-64_rpm.tar.gz

问题 java.lang.IllegalStateException: officeHome doesnt exist or is not a directory: optlibreoffice7.1 安装 kkfileview4.2.1 LibreOffice_7.1.4_Linux_x86-64_rpm.tar.gz 测试 全过程脚本 [zengwenfenglocalhost Desktop]$ pwd /home/zengwenfeng/Desktop [zengwe…

可编辑71页PPT | 企业架构及典型设计方案

荐言分享&#xff1a;企业架构&#xff08;Enterprise Architecture, EA&#xff09;是战略与技术之间的桥梁&#xff0c;旨在确保企业的信息系统、业务流程、组织结构和技术基础设施能够协同工作&#xff0c;以支持企业的整体战略目标。它通过定义一套标准化的框架、原则、模型…

python代码获取zabbix上机器磁盘使用率

1.需要先给机器打上标记os_type: Linux或者os_type: Windows 2.代码请求获取数据&#xff1a; 先装一下相关的数据包 pip install pyzabbix from pyzabbix import ZabbixAPI import requests import urllib3 import concurrent.futuresclass ZabbixInfo():def __init__(self…

一个完整的crm系统都应该具备哪些功能?CRM系统功能盘点

前段时间我们去拜访一位企业老板&#xff0c;正好他们在开会&#xff0c;团队正在讨论如何与一位潜在的大客户达成交易。 客户对产品表现出浓厚的兴趣&#xff0c;也提出了一些具体的问题&#xff0c;例如上一次交易的详细信息、服务响应时间以及可能的折扣方案&#xff0c;但…

导师双选系统开发:Spring Boot技术详解

第一章 绪论 1.1 选题背景 如今的信息时代&#xff0c;对信息的共享性&#xff0c;信息的流通性有着较高要求&#xff0c;尽管身边每时每刻都在产生大量信息&#xff0c;这些信息也都会在短时间内得到处理&#xff0c;并迅速传播。因为很多时候&#xff0c;管理层决策需要大量信…

CTF顶级工具与资源

《Web安全》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484238&idx1&snca66551c31e37b8d726f151265fc9211&chksmc0e47a12f793f3049fefde6e9ebe9ec4e2c7626b8594511bd314783719c216bd9929962a71e6&scene21#wechat_redirect 《网安面试指南》h…

数列分块入门

本期是数列分块入门。其中的大部分题目来自hzwer在LOJ上提供的数列分块入门系列。 Blog:here (其实是对之前分块的 blog 的整理补充) sto hzwer orz %%% [转载] ---------------------------------------------------------------------------------…

模型自动绑骨,在线生成动画,神奇的网站《Mixamo》

英文名mixamo 网站地址&#xff1a;Mixamohttps://www.mixamo.com/#/首先进入需要注册&#xff0c;国内的手机号就可以&#xff0c;但是会有一些慢&#xff0c;多试几次 1、进入界面如下 2、载入自己的模型 2、绑定骨骼 拖动这几个有颜色的圈圈分别对应右图位置&#xff0c;点…

2024 CSS保姆级教程四

CSS中的动画 CSS动画&#xff08;CSS Animations&#xff09;是为层叠样式表建议的允许可扩展标记语言&#xff08;XML&#xff09;元素使用CSS的动画的模块​ 即指元素从一种样式逐渐过渡为另一种样式的过程​ 常见的动画效果有很多&#xff0c;如平移、旋转、缩放等等&#…