Self-Operating Computer:基于PyAutoGui加AI实现无人“驾驶“电脑,让Python带你走近未来世界

近年来,AI 领域不断取得突破,特别是多模态模型的出现,为计算机无人操控带来了全新的可能性。 想象一下,你的电脑不再需要你手动操作,而是可以像人一样,理解你的指令,并自动执行一系列鼠标键盘操作,完成你的任务。这听起来像是科幻电影里的场景,但现在,它已经成为现实!

Self-Operating Computer 正是这样一个框架,它将强大的 AI 多模态模型应用于计算机操控,赋予电脑“无人驾驶”的能力。 这个项目由 HyperwriteAI 开发,并已开源到 GitHub 平台,供所有人使用。

图片

框架的核心思想是将 AI 模型与计算机交互过程进行连接,使模型能够像人类一样 “看” 屏幕,“理解” 指令,并通过鼠标键盘操作完成任务。 换句话说,它将 AI 的“智能”与计算机的“执行力”完美融合,打造出一种全新的交互模式。

框架特点

  • • 多模型兼容性: 该框架可以与多种多模态模型集成,包括 GPT-4.0、Gemini Pro Vision、Claude 3 和 LLaVA。

  • • 集成易用性: 用户可以通过简单的命令行操作,轻松启动框架并选择所需的 AI 模型。

  • • 持续发展: HyperwriteAI 正在不断完善该框架,并计划支持更多 AI 模型,以提升其功能和性能。

  • 图片

模型与功能

该框架目前集成了多种 AI 模型,并支持不同的操作模式,为用户提供了丰富的选择。

1. GPT-4.0 with OCR: 该模式结合了 GPT-4.0 的强大语言能力和 OCR(光学字符识别)技术,使模型能够识别屏幕上的文字信息,并根据文本指令进行操作。

2. GPT-4.0 with SoM: SoM(Set-of-Mark Prompting)是一种新兴的视觉提示方法,可以增强多模态模型的视觉理解能力。该模式利用 SoM 技术,提升了模型对屏幕元素的识别和定位精度。

3. Gemini Pro Vision: 来自 Google 的 Gemini Pro Vision 模型,具备强大的视觉理解能力,可以识别图像并生成文本描述,为计算机操控提供了新的可能性。

4. Claude 3: 由 Anthropic 开发的 Claude 3 模型,在文本理解和生成方面表现出色,也能够与视觉信息结合,实现更精准的计算机操控。

5. LLaVA: LLaVA 是一种基于视觉和语言的 AI 模型,能够理解图像和文字,并进行多模态任务。该框架支持使用 Ollama 在本地运行 LLaVA 模型,方便用户进行实验和研究。

6. Voice Mode: 该模式支持语音输入指令,用户可以用声音来操控电脑,更加便捷直观。

使用步骤

使用 Self-Operating Computer Framework 非常简单,用户只需按照以下步骤操作即可:

  1. 1. 安装项目: 使用 pip 命令安装框架。

  2. 2. 运行项目: 执行 operate 命令,按需要输入指令参数。

  3. 3. 选择模型: 根据需要选择不同的 AI 模型,例如 GPT-4.0、Gemini Pro Vision 等等。

  4. 4. 输入指令: 通过文本、语音或图像,输入你想要电脑执行的任务。

  5. 5. 观察结果: 框架将自动执行你的指令,并显示操作结果。

未来展望

无人"驾驶"电脑拥有巨大的潜力,它不仅可以改变我们与电脑的交互方式,更可以为各种应用场景带来革命性的变化。 例如,它可以用于:

  • • 自动化办公: 自动填写表格、发送邮件、整理文档等等。

  • • 游戏操控: 自动执行游戏操作,例如打怪升级、完成任务等等。

  • • 网站测试: 自动测试网站功能,寻找 bug 等等。

  • • 辅助工具: 帮助残疾人操控电脑,提高生活质量等等。

未来,随着 AI 技术的不断发展,其应用范围也会更加广泛。

项目地址:https://github.com/OthersideAI/self-operating-computer

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1555504.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

在 Ubuntu 安装 Python3.7(没有弯路)

注:当前Ubuntu版本为18.04 下载Python源码包 wget https://www.python.org/ftp/python/3.7.12/Python-3.7.12.tgz安装前准备 安装依赖组件 apt-get updateapt-get install build-essential zlib1g-dev libncurses5-dev libgdbm-dev libnss3-dev libssl-dev libs…

ELK日志收集之ES的DSL查询语句

一、简介 在Elasticsearch中,我们可以使用Elasticsearch-DSL(Elasticsearch Domain Specific Language)来构建和执行复杂的搜索查询。官方Query DSL指导文档。 叶查询:在特定字段中寻找特定值,例如 match ,term 或 range。 复合查询:具有查询…

yub‘s Algorithm Adventure Day6

链表相交 link:面试题 02.07. 链表相交 - 力扣(LeetCode) 思路分析 看到描述很直接的想到双指针,但是看到题解之后被K佬的神级理解折服,太妙了! 双指针 public class Solution {public ListNode getIn…

《PyTorch深度学习快速入门教程》学习笔记(第15周)

目录 摘要 Abstract 1. 安装Anaconda 2. 查看显卡驱动 3. 安装Pytorch 4. Pytorch加载数据 5. 常用数据集两种形式 6. 路径直接加载数据 7. Dataset加载数据 摘要 本周报的目的在于汇报《PyTorch深度学习快速入门教程》课程第一周的学习成果,主要聚焦于py…

【unity游戏开发】彻底理解AnimatorStateInfo,获取真实动画长度

前言 前置知识:设置参数后,下一个循环才会切换对应动画,所以在下一个循环获取真实的动画长度 AnimatorStateInfo是结构体!值类型,要不断重复获取才是最新的 主要是自动设置trigger切换的动画自动切回上一个动画&#x…

进阶岛第4关:InternVL 多模态模型部署微调实践

准备InternVL模型 我们使用InternVL2-2B模型。该模型已在share文件夹下挂载好,现在让我们把移动出来。 mkdir -p /root/project/joke/modelcp -r /root/share/new_models/OpenGVLab/InternVL2-2B /root/project/joke/model # 不用ln -s 准备环境 这里我们来手动配…

算法笔记(十一)——优先级队列(堆)

文章目录 最后一块石头的重量数据流中的第 K 大元素前K个高频单词数据流的中位数 优先级队列是一种特殊的队列,元素按照优先级从高到低(或从低到高)排列,高优先级的元素先出队,可以用 堆来实现 堆是一种二叉树的结构&…

Microsoft Edge 离线安装包制作或获取方法和下载地址分享

方法一:自制压缩包 进入目录 "C:\Program Files (x86)\Microsoft\Edge\Application" 或 "C:\Program Files (x86)\Microsoft\EdgeCore\Edge版本号",将所有文件打包,再放到没有安装到 Edge 的电脑里解压,运行…

【瑞昱RTL8763E】歌曲传输

1 概要 Watch 端 SD 卡中的歌曲除了可以通过 USB 传输,还可以通过 SPP/BLE 传输来完成歌曲的添加与删 除操作。其中,Android 手机可以安装 LocalPlayback.apk 使用 SPP 协议与 watch 交互;iOS 手机可以安装 LocalPlayback.ipa 通过 BLE 与 wa…

【高等数学学习记录】函数的极限

一、知识点 (一)知识结构 #mermaid-svg-Dz0Ns0FflWSBWY50 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Dz0Ns0FflWSBWY50 .error-icon{fill:#552222;}#mermaid-svg-Dz0Ns0FflWSBWY50 .erro…

计算有向无环图中两节点间简单路径的数量

计算有向无环图中两节点间简单路径的数量 主要步骤:伪代码:C代码实现:解释:在给定一个有向无环图(DAG)以及两个节点s和t时,我们需要计算从节点s到节点t之间的简单路径的数量。为了实现这一目标,我们可以使用动态规划的思想,在拓扑排序的基础上解决问题。 主要步骤: 拓…

Spring cloud 中gateway原理

Spring Cloud Gateway 是 Spring Cloud 生态系统中的一个 API 网关解决方案,用于在微服务架构中处理请求路由、负载均衡、认证授权、监控等功能。它基于 Spring 5、Spring Boot 2 和 Project Reactor,提供了非阻塞的、响应式的 API 网关功能。 核心概念…

论文翻译 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

摘要 近年来,NLP从业者集中于以下实践:(i)导入现成的预训练(掩码)语言模型;(ii)在CLS令牌的隐藏表示(随机初始化权重)上附加多层感知器;(iii)在下游任务(MLP-FT)上微调整个模型。这一过程在标准的NLP基准上产生了巨大的收益,但这些模型仍然很脆弱&#x…

VCSEL驱动电路

1.1 驱动电路 发射端可用MOS管控制VCSEL二极管负极方式发出脉冲光(正极对地),具体作用过程如下: Step 1: MOS管断开, C2 电容充电(左侧HV); Step 2: 信号控制MOS管打开; Step 3: MOS管打开后, C2电容左侧电压降为0V, 右侧变为…

CF2013E Prefix GCD

【题目大意】 给定一个长度为 n n n 的数列 a 1 … n a_{1 \dots n} a1…n​,你可以将 a 1 … n a_{1 \dots n} a1…n​ 按照任意顺序进行重排,使得: ∑ i 1 n gcd ⁡ { a 1 , a 2 , a 3 , … , a n } \sum\limits_{i1}^{n}\gcd\left \{…

如何向文科生解释什么是计算机的缓存

缓存(Cache)是计算机系统中的一个至关重要的技术概念,用于提高数据访问的速度。我们可以把缓存想象成一个临时的存储区域,它存放着系统中常用或最近使用的数据,以便快速访问,而不必每次都从速度较慢的原始数…

新编英语语法教程

新编英语语法教程 1. 新编英语语法教程 (第 6 版) 学生用书1.1. 目录1.2. 电子课件 References A New English Grammar Coursebook 新编英语语法教程 (第 6 版) 学生用书新编英语语法教程 (第 6 版) 教师用书 1. 新编英语语法教程 (第 6 版) 学生用书 https://erp.sflep.cn/…

拒绝踏空和卖飞,魔改CCI指标主升浪战法!

〇、写在前边 其实最应该学习量化的,就是散户。 作为散户,我们能获取的只有公开信息,这使得我们天然就落后于机构、大户和内幕狗。 那么我们可以利用公开信息来提升投资表现吗?当然可以。 网上有大量免费或者低成本就能获取的…

野火STM32F103VET6指南者开发板入门笔记:【1】点亮RGB(基于结构体)

文章目录 硬件介绍软件介绍:结构体方式软件介绍:宏定义方式 硬件介绍 提示:本文是基于野火STM32F103指南者开发板所写例程,其他开发板请自行移植到自己的工程项目当中即可。 RGB-LEDPin引脚:低电平-点亮,高…

表达式求值(可以计算两位数以上)

此程序可计算两位数以上的表达式 import java.util.Stack;public class ExpressionEvaluator {public int evaluate(String s) {Stack<Integer> numbers new Stack<>();Stack<Character> operators new Stack<>();int i 0;char c s.charAt(i);whil…