探索视听新纪元: ChatGPT的最新语音和图像功能全解析


🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁

在这里插入图片描述

🐅🐾猫头虎建议程序员必备技术栈一览表📖:

🤖 人工智能 AI:
🧠 Machine Learning | 🔍 Deep Learning | ⚙️ TensorFlow | 🔥 PyTorch | 🌀 Keras | 🗣️ NLP | 👁️ Computer Vision | 🎮 Reinforcement Learning | 📊 Scikit-learn | 🤖 GPT

🦄 博客首页——🐅🐾猫头虎的博客🎐
🐳 《面试题大全专栏》 🦕 文章图文并茂🦖生动形象🐅简单易学!欢迎大家来踩踩~🌺
🌊 《IDEA开发秘籍专栏》 🐾 学会IDEA常用操作,工作效率翻倍~💐
🌊 《100天精通Golang(基础入门篇)》 🐅 学会Golang语言,畅玩云原生,走遍大小厂~💐


🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!🐅🐾🍁🐥


文章目录

    • 探索视听新纪元: ChatGPT的最新语音和图像功能全解析
    • 🚀 ChatGPT 的视听新技能
      • 🎙 与ChatGPT的语音交流
        • 🎧 语音样例
        • 🎵 选择声音
      • 🖼 图像交流
      • 逐步推出图像和语音功能
        • 语音
        • 图像输入
          • 使视觉既有用又安全
          • 模型限制的透明度
      • 扩展访问权限
      • 结论
      • 参考资料
  • 原创声明

探索视听新纪元: ChatGPT的最新语音和图像功能全解析


大家好,我是猫头虎博主🐯,今天我要带领大家了解一下,OpenAI的 #ChatGPT 刚刚更新了一些令人兴奋的视听功能!🎉 这些新增功能将使我们能够通过语音和图像与ChatGPT交流,让交互变得更为直观和生动。现在,让我们一起探究一下这些新功能吧!
在这里插入图片描述

🚀 ChatGPT 的视听新技能

  • 发布日期: 2023年9月25日
  • 作者: OpenAI
  • 产品与公告: OpenAI刚刚为ChatGPT推出了全新的语音和图像功能,让我们可以通过语音交谈或展示图像与ChatGPT交流,为用户提供了一种更直观的交互方式。

这些新功能为ChatGPT的使用打开了无限可能!比如在旅行时,你可以拍摄一个地标,然后实时交谈讨论它的历史;在家里,你可以拍摄冰箱和橱柜的内容,确定晚餐吃什么(还能得到逐步的食谱指导哦);晚餐后,通过拍照,圈出数学题目,让ChatGPT为你和你的孩子提供解题提示。

在接下来的两周内,这些新功能将逐步推出给Plus和Enterprise用户。语音功能将在iOS和Android平台上推出,而图像功能将在所有平台上提供。

在这里插入图片描述

🎙 与ChatGPT的语音交流

现在,通过语音与你的数字助手进行往返交谈变得可能了!无论是在外面,还是在家里请求一个睡前故事,或解决餐桌上的争论,一切都变得轻而易举。

  • 如何启用语音: 只需转到移动应用的“设置”→“新功能”,选择加入语音交谈。然后,点击主屏幕右上角的耳机按钮,并从五种不同的声音中选择你喜欢的声音。

新的语音功能由先进的文本转语音模型支持,能够仅通过文本和几秒钟的样本语音生成逼真的人类音频。OpenAI与专业的配音演员合作创建了每种声音,并使用开源的语音识别系统Whisper将你的话语转换成文本。

🎧 语音样例

故事
在一个宁静的树林里,有一只名叫Lila的毛茸茸的妈妈猫。在一个阳光明媚的日子里,她和她顽皮的小猫Milo在一棵老橡树的树荫下依偎着。

“Milo,” Lila说道,她的声音柔和而温柔,“你很快就会有一个新的玩伴了。”

Milo的耳朵竖了起来,显得很好奇。“一个新玩伴?”

Lila轻轻地呼噜着说:“是的,一个妹妹。”

Milo的眼睛亮了起来,兴奋不已。“一个妹妹?她会像我一样追逐尾巴吗?”

Lila呵呵笑了。“哦,她会有她自己的怪癖的。你会教她的,对吧?”

Milo急切地点了点头,已经开始憧憬他们将来会共度的冒险时光。

🎵 选择声音
  • Juniper

🖼 图像交流

现在,你可以向ChatGPT显示一张或多张图片,无论是解决烧烤架无法启动的问题,探索冰箱里的食物来计划一顿饭,还是分析复杂的图表以处理工作相关的数据,一切都变得轻而易举。

  • 如何启用图像: 点击照片按钮来捕捉或选择图像。如果你使用的是iOS或Android设备,首先点击加号按钮。你还可以讨论多张图片或使用我们的绘图工具来指导你的助手。

图像理解功能由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将他们的语言推理技能应用于各种各样的图片,如照片、截图和包含文本与图像的文档。

逐步推出图像和语音功能

OpenAI 的目标是建立安全、有益的通用人工智能(AGI)。我们相信逐步推出我们的工具,这样可以使我们有时间进行改进,完善风险缓解措施,同时为未来更强大的系统做好准备。随着涉及声音和视觉的高级模型的出现,这种策略变得更为重要。

语音

新的语音技术能够仅通过几秒钟的真实语音生成逼真的合成声音,为许多创意和易用性应用打开了大门。然而,这些功能也带来了新的风险,比如可能被恶意行为者用来模仿公众人物或进行欺诈。

这就是为什么我们使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的声音演员创建的。我们也在与其他人以类似的方式合作。例如,Spotify 正在利用这项技术的强大功能,为他们的语音翻译功能的测试提供支持,该功能帮助播客者通过将播客翻译成其他语言,以播客者自己的声音扩展他们的故事讲述范围。

图像输入

基于视觉的模型也带来了新的挑战,从关于人的幻觉到在高风险领域依赖模型的图像解释。在更广泛的部署之前,我们在极端主义和科学熟练度等领域对模型进行了红队测试,并与多样化的 alpha 测试者合作。我们的研究使我们能够在负责任使用的几个关键细节上达成一致。

探索视听新纪元 ChatGPT的最新语音和图像功能全解析

使视觉既有用又安全

与其他 ChatGPT 功能一样,视觉功能旨在帮助你处理日常生活。它在可以看到你看到的东西时表现最好。

我们直接通过与 Be My Eyes(一款为盲人和视力障碍人士提供服务的免费移动应用)的合作,了解了视觉功能的使用和限制。用户告诉我们,他们发现在背景中恰好有人出现的图片上进行通用交谈是很有价值的,比如当你试图弄清楚遥控器设置时,有人出现在电视上。

我们还采取了技术措施,大大限制了 ChatGPT 分析和直接陈述人的能力,因为 ChatGPT 并不总是准确的,而且这些系统应该尊重个人的隐私。

实际使用和反馈将帮助我们改善这些保障措施,同时保持工具的实用性。

模型限制的透明度

用户可能会依赖 ChatGPT 处理一些专业话题,比如研究领域。我们对模型的限制保持透明,并且不鼓励在没有适当验证的情况下使用它来处理高风险的用例。此外,该模型擅长转录英文文本,但对一些其他语言,特别是非罗马字母的语言,表现不佳。我们建议非英语用户不要使用 ChatGPT 进行此类操作。

你可以在图像输入系统卡中了解更多关于我们的安全方法和与 Be My Eyes 的合作。

扩展访问权限

在接下来的两周内,Plus 和 Enterprise 用户将有机会体验语音和图像功能。我们很高兴在此之后很快将这些功能推出给其他用户群体,包括开发人员。

在这次更新中,ChatGPT的视听功能无疑为我们提供了一个全新、直观和创意的交互方式。想象一下,通过简单的语音和图像交互,我们能够得到及时的帮助和信息,这真是太令人兴奋了!作为猫头虎博主,我会继续关注ChatGPT的更新,为大家带来更多的信息和使用技巧。记得保持关注哦!😉

在这里插入图片描述

结论

通过本次的探索,我们可以明显看出,ChatGPT的新的视听功能为我们提供了一个更为直观和多元化的交互方式。不仅如此,它还为我们打开了一个新世界的大门,让我们能够通过语音和图像,与数字助手进行更为丰富和实用的交流。这对于我们日常的学习、工作和生活都带来了很大的便利。随着技术的不断进步,我们有理由相信,ChatGPT将会持续为我们提供更为先进和人性化的功能,使我们的数字生活变得更为丰富多彩。作为猫头虎博主,我会继续关注ChatGPT的更新,并在第一时间为大家带来最新的资讯和使用技巧。敬请期待!

参考资料

  1. OpenAI. (2023, September 25). ChatGPT Can Now See, Hear, and Speak. Retrieved from https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

希望你们喜欢这次的更新,我们下次见!👋

在这里插入图片描述

原创声明

======= ·

  • 原创作者: 猫头虎

作者wx: [ libin9iOak ]

学习复习

本文为原创文章,版权归作者所有。未经许可,禁止转载、复制或引用。

作者保证信息真实可靠,但不对准确性和完整性承担责任

未经许可,禁止商业用途。

如有疑问或建议,请联系作者。

感谢您的支持与尊重。

点击下方名片,加入IT技术核心学习团队。一起探索科技的未来,共同成长。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143251.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

正则表达式贪婪模式和非贪婪模式

一、贪婪模式 贪婪模式表示尽可能多的匹配字符串&#xff0c;正则表达式六个量词元字符?、、*、{n}、{n,m}、{n,}默认是贪婪模式 接下来引入一个场景来分析说明 获取html a标签href属性的值 <a href"https://www.baidu.com/" attr"abc"></a>…

深度学习与视频直播美颜sdk:背后的技术革新

时下&#xff0c;深度学习技术在视频直播美颜sdk中的应用正引领着一场技术革新的浪潮。本文将探讨深度学习如何在视频直播美颜sdk背后推动了技术的革新&#xff0c;以及它是如何影响我们的日常直播体验的。 一、传统美颜技术的局限性 在深入探讨深度学习之前&#xff0c;让我们…

linux内网渗透

一、信息收集 主机发现&#xff1a; nmap -sP 192.168.16.0/24 端口探测 masscan -p 1-65535 192.168.16.168 --rate1000 开放端口如下 nmap端口详细信息获取 nmap -sC -p 8888,3306,888,21,80 -A 192.168.16.168 -oA ddd4-port目录扫描 gobuster dir…

【EI会议征稿】2023计算机网络技术与电子信息工程国际学术会议(CNTEIE 2023)

2023计算机网络技术与电子信息工程国际学术会议&#xff08;CNTEIE 2023&#xff09; 2023 International Conference on Computer Network Technology and Electronic and Information Engineering 2023计算机网络技术与电子信息工程国际学术会议&#xff08;CNTEIE 2023&a…

Unity中Shader模板测试使用到的二进制

文章目录 前言&#xff08;接上一篇文章&#xff09;一、模板测试公式1、简化版(在ReadMask默认值的情况下)2、完整版 二、二进制的值1、0 和 1组成2、符号3、二进制的与运算4、二进制和十进制转化 三、在Shader中的实际操作 前言&#xff08;接上一篇文章&#xff09; Unity中…

软件测试经验盘点:测试人的至暗时刻高光时刻

作为一名测试工程师&#xff0c;在项目开展中可能会遇到一些困难和挑战&#xff0c;这些情况可能会使我们感到沮丧和无望。以下是一些可能被称为测试工程师的至暗时刻&#xff1a; 项目/版本上线前&#xff1a; ◆需求文档多次评审不通过&#xff0c;浪费了大量的测试时间&…

python 绘制 graphviz

dot 绘图 python 绘制 graphviz 环境 上一节中在本地安装了 graphviz&#xff0c; python 要想使用还需安装 pip 包 pip install graphvizpython 使用 dot Digraph(comment"My Graph") # 添加一些节点 dot.node("A", "Node A") dot.node(&q…

Grafana离线安装部署以及插件安装

Grafana是一个可视化面板&#xff08;Dashboard&#xff09;&#xff0c;有着非常漂亮的图表和布局展示&#xff0c;功能齐全的度量仪表盘和图形编辑器&#xff0c;支持Graphite、zabbix、InfluxDB、Prometheus和OpenTSDB作为数据源。Grafana主要特性&#xff1a;灵活丰富的图形…

rtp流广播吸顶喇叭网络有源吸顶喇叭

SIP-7043 rtp流广播吸顶喇叭网络有源吸顶喇叭 一、描述 SIP-7043是我司的一款SIP网络有源吸顶喇叭&#xff0c;具有10/100M以太网接口&#xff0c;内置有一个高品质扬声器&#xff0c;将网络音源通过自带的功放和喇叭输出播放&#xff0c;可达到功率20W。SIP-7043作为SIP系统的…

怒刷LeetCode的第10天(Java版)

目录 第一题 题目来源 题目内容 解决方法 方法一&#xff1a;两次拓扑排序 第二题 题目来源 题目内容 解决方法 方法一&#xff1a;分治法 方法二&#xff1a;优先队列&#xff08;Priority Queue&#xff09; 方法三&#xff1a;迭代 第三题 题目来源 题目内容…

前端开发和后端开发的一些建议

前端开发和后端开发是Web开发的两个方向 前端开发主要负责实现用户在浏览器上看到的界面和交互体验&#xff0c;包括HTML、CSS和JavaScript等技术。后端开发主要负责处理服务器端的逻辑和数据&#xff0c;包括数据库操作、服务器配置和接口开发等技术。 前端开发 前端开发需…

js惰性函数 ----如何让函数执行之后只执行函数某一部分

看下面这份ts代码 实现的效果也很简单,就是将一份文本,复制到剪切板上,未了兼容更多的浏览器(没错说的就是你>ie !),做了一个兼容性判断, 当浏览器支持navigator.clipboard这个api时,就直接调用这个api将文本复制到剪切板中, 如果不支持这个api的话,就执行else里面的代码,这…

在服务器上创建git仓库

1、在服务器上创建git仓库 选择一个创建文件夹的地方&#xff0c;这个地方不会将源码存放在这里&#xff0c;只用于版本控制 # 创建一个专门放置git的文件夹&#xff0c;也可以叫其它名 mkdir git && cd git # 创建自己项目的文件夹&#xff0c;文件夹后面要带 .git…

下划线在键盘上怎么打?这3个方法快收藏!

“我最近的工作中好像很多文件里都有下划线&#xff0c;但是我不知道在键盘上应该怎么把下划线打出来&#xff0c;有没有知道的朋友呀&#xff1f;” 在计算机文档和编程中&#xff0c;下划线是一个常见的特殊字符。很多用户在使用电脑时可能也经常需要用到下划线。但是下划线在…

什么是内容运营?

关于内容运营&#xff0c;在不同种类的公司&#xff0c;侧重点也不一样。 电商平台的内容运营岗更偏内容营销&#xff1b;产品功能比较简单的公司&#xff0c;内容运营和新媒体运营的岗位职责差不多&#xff1b;而内容平台的内容运营更多的是做内容的管理和资源整合。

华为ensp单臂路由及OSPF实验

单臂路由及OSPF实验 1.1实验背景 在这个实验中&#xff0c;我们模拟了一个复杂的网络环境&#xff0c;该网络环境包括多个子网和交换机。这个实验旨在帮助网络工程师和管理员了解如何配置单臂路由和使用开放最短路径优先&#xff08;OSPF&#xff09;协议来实现不同子网之间的…

软考高级架构师下篇-17安全架构设计理论与实践

目录 1. 引言信息安全面临的威胁2. 安全体系架构的范围3.典型安全模型4.信息安全整体架构设计5.数据库系统安全设计6.系统架构脆弱性分析7.安全架构设计实践8. 前文回顾1. 引言 随着科技的发展,信息系统的安全受到诸多方面的威胁,设计信息系统安全架构需要从各个方面考虑,这…

Dev C++安装与运行

参考: https://blog.csdn.net/Keven_11/article/details/126388791 https://www.cnblogs.com/-Wallace-/p/cpp-stl.html 2021年真题要求 2022年真题要求 河南省的考试环境 IDE环境 Dev C 安装 下载 安装 点击OK&#xff0c;选择我接受 修改安装路径为D盘d:\Program Fi…

CorelDRAW Graphics Suite2023绿色中文版本下载教程

CorelDRAW Graphics Suite2023版是领先的一体化软件包&#xff0c;它包括多个程序&#xff0c;如CorelDRAW、Corel PHOTO-PAINT、Corel CAPTURE、Corel Font Manager、Duplexing Wizard等&#xff0c;可全部安装&#xff0c;也可根据实际需要选择进行安装&#xff0c;都是最新版…

vue初体验之-前端工程化-vue项目的创建(超级无敌详细)

一&#xff1a;下载node.js &#xff08;网址如下&#xff1a;Node.js&#xff09; 1.NodeJS安装 2. 选择安装目录 选择安装到一个&#xff0c;没有中文&#xff0c;没有空格的目录下&#xff08;新建一个文件夹NodeJS&#xff09; 3. 验证NodeJS环境变量 NodeJS 安装完毕后…