GPT-4o全方位综合指南:功能解析、使用技巧与最佳实践

探索AI新时代:从GPT-4o特性到实用技巧,解锁高效AI助手的全部潜力

猫头虎是谁?

大家好,我是 猫头虎,别名猫头虎博主,擅长的技术领域包括云原生、前端、后端、运维和AI。我的博客主要分享技术教程、bug解决思路、开发工具教程、前沿科技资讯、产品评测图文、产品使用体验图文、产品优点推广文稿、产品横测对比文稿,以及线下技术沙龙活动参会体验文稿。内容涵盖云服务产品评测、AI产品横测对比、开发板性能测试和技术报告评测等。

目前,我活跃在CSDN、51CTO、腾讯云开发者社区、阿里云开发者社区、知乎、微信公众号、视频号、抖音、B站和小红书等平台,全网拥有超过30万的粉丝,统一IP名称为 猫头虎 或者 猫头虎博主。希望通过我的分享,帮助大家更好地了解和使用各类技术产品。

原创作者 ✍️

  • 博主猫头虎
    • 全网搜索关键词猫头虎
    • 作者微信号Libin9iOak
    • 作者公众号猫头虎技术团队
    • 更新日期2024年6月16日
    • 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能!

专栏链接 🔗

  • 精选专栏
    • 《面试题大全》 — 面试准备的宝典!
    • 《IDEA开发秘籍》 — 提升你的IDEA技能!
    • 《100天精通鸿蒙》 — 从Web/安卓到鸿蒙大师!
    • 《100天精通Golang(基础入门篇)》 — 踏入Go语言世界的第一步!
    • 《100天精通Go语言(精品VIP版)》 — 踏入Go语言世界的第二步!

领域矩阵 🌐

  • 猫头虎技术领域矩阵
    • 猫头虎技术矩阵
    • 新矩阵备用链接

加入猫头虎的技术圈,一起探索编程世界的无限可能! 🚀

文章目录

  • 探索AI新时代:从GPT-4o特性到实用技巧,解锁高效AI助手的全部潜力
    • 猫头虎是谁?
    • 原创作者 ✍️
    • 专栏链接 🔗
    • 领域矩阵 🌐
    • 加入猫头虎的技术圈,一起探索编程世界的无限可能! 🚀
    • 什么是 GPT-4o?
    • GPT-4o 有什么新功能?
    • GPT-4o 的文本评估
    • GPT-4o 的视频功能
    • GPT-4o 的音频功能
    • 使用 GPT-4o 生成图像
    • GPT-4o 的视觉理解
    • 评估 GPT-4o 的视觉用例
      • 使用 GPT-4o 进行光学字符识别 (OCR)
      • 使用 GPT4-o 进行文档理解
      • 使用 GPT-4o 进行视觉问答
      • 使用 GPT-4o 进行对象检测
    • GPT-4o 用例
      • 实时计算机视觉用例
      • 单设备多模式用例
      • 通用企业应用程序
    • 结论
    • 参考资料
      • 联系与版权声明 📩

img

GPT-4o是 OpenAI 广受欢迎的大型多模态模型GPT-4的第三次主要迭代,该模型通过 Vision 扩展了 GPT-4的功能。新发布的模型能够以集成和无缝的方式与用户交谈、查看和交互,在使用 ChatGPT 界面时比以前的版本更加出色。

在GPT-4o 公告中,OpenAI 重点介绍了该模型的“更自然的人机交互”能力。在本文中,我们将讨论 GPT-4o 是什么、它与之前的模型有何不同、评估其性能以及 GPT-4o 的用例。

什么是 GPT-4o?

OpenAI 的 GPT-4o,“o”代表 omni(意思是“全部”或“普遍”),于 2024 年 5 月 13 日在直播公告和演示中发布。它是一个具有文本、视觉和音频输入和输出功能的多模态模型,基于OpenAI 的 GPT-4的上一个版本(带有视觉模型 GPT-4 Turbo)。GPT-4o 的强大功能和速度来自于它是一个处理多种模态的单一模型。以前的 GPT-4 版本使用了多个单一用途的模型(语音到文本、文本到语音、文本到图像),并创建了在不同任务之间切换模型的碎片化体验。

OpenAI 声称,与 GPT-4T 相比,它的速度提高了一倍,输入令牌(每百万 5 美元)和输出令牌(每百万 15 美元)都便宜了 50%,并且速率限制提高了五倍(每分钟最多 1000 万个令牌)。GPT-4o 具有 128K 上下文窗口,知识截止日期为 2023 年 10 月。目前,一些新功能可通过 ChatGPT、桌面和移动设备上的 ChatGPT 应用程序、OpenAI API(参见API 发行说明)和Microsoft Azure在线获得。

GPT-4o 有什么新功能?

虽然发布演示仅展示了 GPT-4o 的视觉和音频功能,但发布博客中包含的示例远远超出了 GPT-4 先前版本的功能。与前代产品一样,它具有文本和视觉功能,但 GPT-4o 还具有对包括视频在内的所有支持模式的原生理解和生成功能。

正如 Sam Altman 在个人博客中指出的那样,最令人兴奋的进步是模型的速度,尤其是当模型通过语音进行交流时。这是第一次几乎零延迟的响应,你可以像在日常与人交谈中互动一样与 GPT-4o 互动。

在发布带有 Vision 的 GPT-4 不到一年后(参见我们对2023 年 9 月GPT-4的分析),OpenAI 在性能和速度方面取得了重大进步,您一定不会错过。

让我们开始吧!

GPT-4o 的文本评估

对于文本,根据 OpenAI 自行发布的基准测试结果,与其他 LMM(如之前的 GPT-4 版本、Anthropic 的 Claude 3 Opus、谷歌的 Gemini 和 Meta 的 Llama3)相比,GPT-4o 的得分略有提高或相似。

请注意,在提供的文本评估基准测试结果中,OpenAI 比较了 Meta 的 Llama3 的 400b 变体。在发布结果时,Meta 尚未完成对其 400b 变体模型的训练。

img图片来源:OpenAI

GPT-4o 的视频功能

API 发行说明中有关视频使用的重要说明:“API 中的 GPT-4o 支持通过视觉功能理解视频(不带音频)。具体来说,视频需要转换为帧(每秒 2-4 帧,统一采样或通过关键帧选择算法采样)才能输入到模型中。”使用OpenAI 视觉手册可以更好地了解如何使用视频作为输入以及版本的局限性。

GPT-4o 被证明既具有查看和理解上传的视频文件中的视频和音频的能力,也具有生成短视频的能力。

在初始演示中,GPT-4o 多次被要求对视觉元素进行评论或回应。与我们对Gemini 的初步观察类似,演示并未明确说明模型是在接收视频还是在需要“查看”实时信息时触发图像捕获。在初始演示中,有一段时间GPT-4o 可能没有触发图像捕获,因此看到了之前捕获的图像。

在 YouTube 上的这段演示视频中,GPT-4o “注意到” 一个人走到 Greg Brockman 身后,做了兔子耳朵。在可见的手机屏幕上,除了音效外,还会出现“眨眼”动画。这意味着 GPT-4o 可能使用与 Gemini 类似的视频处理方法,即在提取视频图像帧的同时处理音频。

! 演示视频的裁剪部分展示了 GPT-4o“闪烁”的动画。

唯一演示的视频生成示例是 3D 模型视频重建,但据推测它可能具有生成更复杂视频的能力。

img

GPT-4o 之间的一次交换,用户请求并接收基于多张参考图像的旋转徽标的 3D 视频重建

GPT-4o 的音频功能

与视频和图像类似,GPT-4o 还具备提取和生成音频文件的能力。

GPT-4o 对生成的声音表现出了令人印象深刻的精细控制水平,能够改变交流速度、根据要求改变音调,甚至按需唱歌。GPT-4o 不仅可以控制自己的输出,还能理解输入音频的声音作为任何请求的附加上下文。演示显示,GPT-4o 会向试图说中文的人提供音调反馈,并在呼吸练习期间反馈某人的呼吸速度。

根据自行发布的基准测试,GPT-4o 的表现优于 OpenAI 自己的 Whisper-v3(自动语音识别(ASR)领域之前最先进的技术),并且优于 Meta 和 Google 的其他模型的音频翻译。

img图片来源:OpenAI

使用 GPT-4o 生成图像

GPT-4o 具有强大的图像生成能力,展示了一次性基于参考的图像生成和准确的文本描述。

img

img

用户 / GPT-4o 交换生成图像(图片来源:OpenAI)

考虑到保留特定单词并将其转换为替代视觉设计的要求,下面的图像尤其令人印象深刻。这项技能与 GPT-4o 创建自定义字体的能力类似。

来自各种提示的 GPT-4o 输出示例(图片来源:OpenAI)来自各种提示的 GPT-4o 输出示例(图片来源:OpenAI)

GPT-4o 的视觉理解

尽管在之前的迭代中已经具备了最先进的能力,但视觉理解能力得到了改进,在与 GPT-4T、Gemini 和 Claude 的多个视觉理解基准测试中达到了最先进的水平。Roboflow 维护着一套不太正式的视觉理解评估,请参阅开源大型多模态模型的真实世界视觉用例结果。

img图片来源:OpenAI

尽管 OpenAI 尚未公布 GPT-4o 的 OCR 能力,但我们将在本文后面对其进行评估。

评估 GPT-4o 的视觉用例

接下来,我们同时使用 OpenAI API 和 ChatGPT UI 来评估 GPT-4o 的不同方面,包括光学字符识别(OCR)、文档 OCR、文档理解、视觉问答(VQA) 和对象检测。

img

使用 GPT-4o 进行光学字符识别 (OCR)

OCR 是一种常见的计算机视觉任务,用于以文本格式返回图像中的可见文本。在这里,我们提示 GPT-4o “读取序列号。”和“读取图片中的文本”,它都正确回答了这两个问题。

GPT-4o 提示 OCR 问题GPT-4o 提示 OCR 问题

接下来,我们在用于在真实世界数据集上 测试其他 OCR 模型的同一数据集上对 GPT-4o 进行了评估。

我们发现平均准确率为 94.12%(比 GPT-4V 高 10.8%),中位准确率为 60.76%(比 GPT-4V 高 4.78%),平均推理时间为 1.45 秒。

与 GPT-4V 相比,速度提升了 58.47%,使得 GPT-4o 在速度效率(给定时间的准确度指标,按准确度除以经过的时间来计算)类别中处于领先地位。

与其他支持 OCR 的型号相比,速度效率处于中等水平与其他支持 OCR 的型号相比,速度效率处于中等水平

使用 GPT4-o 进行文档理解

接下来,我们评估 GPT-4o 从文本密集的图像中提取关键信息的能力。向 GPT-4o 询问“我付了多少税?”(指收据)和“熏牛肉披萨的价格是多少?”(指披萨菜单),GPT-4o 都正确回答了这两个问题。

img

这是对 GPT-4 Vision 的改进,之前它无法从收据中提取税款。

使用 GPT-4o 进行视觉问答

接下来是一系列视觉问答提示。首先,我们询问 GPT-4o 在一张有四枚硬币的图像中数出了多少枚硬币。

GPT-4o 的答案是五枚硬币。然而,当重试时,它确实回答正确了。响应的这种变化是GPT Checkup网站存在的原因——闭源 LMM 的性能会随着时间的推移而变化,监控其性能非常重要,这样您就可以放心地在应用程序中使用 LMM。

img

这表明 GPT-4o 的计数能力与我们在 GPT-4 Vision 中看到的一样不一致。

此外,GPT-4o 正确识别了《小鬼当家》场景中的图像。

img

使用 GPT-4o 进行对象检测

最后,我们测试了物体检测,事实证明这对于多模态模型来说是一项艰巨的任务。 Gemini、GPT-4 with Vision 和 Claude 3 Opus 都失败了,而 GPT-4o 也未能生成准确的边界框。

imgGPT-4o 的两个不同实例响应了错误的物体检测坐标,这两个坐标均在最右侧图像上进行了注释。(左侧坐标为黄色,右侧坐标为蓝色)

GPT-4o 用例

随着 OpenAI 继续扩展 GPT-4 的功能,并最终发布 GPT-5,用例将呈指数级增长。GPT-4 的发布使图像分类和标记变得非常容易,尽管 OpenAI 的开源CLIP 模型性能相似,但成本要低得多。添加视觉功能使得将GPT-4 与计算机视觉管道中的其他模型相结合成为可能,这为使用 GPT-4 增强开源模型创造了机会,从而可以使用视觉实现功能更全面的自定义应用程序。

GPT-4o 的一些关键元素开辟了另一组以前不可能实现的用例,而这些用例都与基准测试中模型性能的提高无关。Sam Altman 的个人博客表示,他们有一个明确的意图,即“创建人工智能,然后其他人会用它来创造各种让我们都受益的令人惊叹的东西”。如果 OpenAI 的目标是不断降低成本并提高性能,那么这将把事情带到何处?

让我们考虑一些新的用例。

实时计算机视觉用例

新的速度改进与视觉和音频相结合,最终为 GPT-4 开辟了实时用例,这对于计算机视觉用例尤其令人兴奋。使用周围世界的实时视图并能够与 GPT-4o 模型对话意味着您可以快速收集情报并做出决策。这对于从导航到翻译到引导说明再到理解复杂的视觉数据等所有事情都很有用。

以与极其有能力的人类交互的速度与 GPT-4o 交互意味着,随着人工智能不断满足您的需求,您将花费更少的时间向我们的人工智能输入文本,而有更多的时间与周围的世界交互。

单设备多模式用例

让 GPT-4o 在桌面和移动设备上运行(如果这种趋势继续下去,Apple VisionPro等可穿戴设备也会出现),您可以使用一个界面来解决许多任务。您可以显示桌面屏幕,而不是输入文本来提示您如何回答问题。您无需将内容复制并粘贴到 ChatGPT 窗口中,而是在传递视觉信息的同时提出问题。这减少了在各种屏幕和模型之间切换的次数,并减少了创建集成体验的提示要求。

GPT4-o 的单一多模式模型消除了摩擦、提高了速度并简化了设备输入的连接,从而降低了与模型交互的难度。

通用企业应用程序

GPT-4o 将更多模态集成到一个模型中,并提高了性能,因此适用于企业应用程序管道中不需要对自定义数据进行微调的某些方面。虽然比运行开源模型要昂贵得多,但更快的性能使 GPT-4o 在构建自定义视觉应用程序时更实用。

您可以在尚未提供开源模型或微调模型的地方使用 GPT-4o,然后将自定义模型用于应用程序中的其他步骤,以增强 GPT-4o 的知识或降低成本。这意味着您可以快速开始对复杂的工作流程进行原型设计,而不会受到许多用例的模型功能的限制。

结论

GPT-4o 的最新改进包括速度提高了两倍、成本降低了 50%、速率限制降低了 5 倍、上下文窗口大小为 128K 以及单一多模态模型,这些对于构建 AI 应用程序的人们来说都是令人兴奋的进步。越来越多的用例适合用 AI 来解决,而多个输入可实现无缝界面。

更快的性能和图像/视频输入意味着 GPT-4o 可与自定义微调模型和预先训练的开源模型一起 用于计算机视觉工作流程,以创建企业应用程序。

参考资料

Leo Ueno、Trevor Lynn。(2024 年 5 月 14 日)。GPT-4o:综合指南和说明。Roboflow 博客:https://blog.roboflow.com/gpt-4o-vision-use-cases/

👉 更多信息:有任何疑问或者需要进一步探讨的内容,欢迎点击下方文末名片获取更多信息。我是猫头虎博主,期待与您的交流! 🦉💬
在这里插入图片描述

联系与版权声明 📩

  • 联系方式
    • 微信: Libin9iOak
    • 公众号: 猫头虎技术团队
  • 版权声明
    本文为原创文章,版权归作者所有。未经许可,禁止转载。更多内容请访问猫头虎的博客首页。

点击✨⬇️下方名片⬇️✨,加入猫头虎领域社群矩阵。一起探索科技的未来,共同成长。🚀

🔗 猫头虎社群 | 🔗 Go语言VIP专栏 | 🔗 GitHub 代码仓库 | 🔗 Go生态洞察专栏
✨ 猫头虎精品博文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1483955.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【功能】DOTween动画插件使用

一、下载安装DOTween插件,下载地址:DOTween - Asset Store (unity.com) 使用 Free免费版本即可,导入成功后,Project视图中会出现 DOTween 文件夹 二、使用案例 需求1:控制材质球中的某个属性值,实现美术需…

记录些MySQL题集(16)

MySQL 存储过程与触发器 一、初识MySQL的存储过程 Stored Procedure存储过程是数据库系统中一个十分重要的功能,使用存储过程可以大幅度缩短大SQL的响应时间,同时也可以提高数据库编程的灵活性。 存储过程是一组为了完成特定功能的SQL语句集合&#x…

node-red学习

Node-RED : 起步 1、安装nodejs Node.js — 在任何地方运行 JavaScript 验证 2、更换下载源 // 查看当前下载地址 npm config get registry // 设置淘宝镜像的地址 npm config set registry https://registry.npmmirror.com/ // 查看当前的下载地址 npm config get registry…

辅助类BigDecima/BigInteger

** 大数据的运算** 编号1方法解释1add2subtract-3multiply*4divide/

nginx动静分离配置实例

什么是动静分离 ngnix动静分离简单来说就是把动态请求和静态请求分开。不能理解成只是单纯的把动态页面和静态页面物理分离。 可以理解成使用nginx处理静态页面,使用tomcat处理动态页面。 动静分离目前从实现角度上可以分为两种: 纯粹把静态文件独立成…

程序员极力推荐的一款开发工具

如果你是一个独立开发者,或者你只是想自己动手开发一个应用,你一定会遇到各种麻烦事儿:搭建服务器、开发接口API、处理认证和存储问题……光是想想都头大。但别担心,这里有一款工具能让你省心省力,甚至能让你觉得开发应…

【论文阅读】MCTformer+:弱监督语义分割的多类令牌转换器

【论文阅读】MCTformer:弱监督语义分割的多类令牌转换器 文章目录 【论文阅读】MCTformer:弱监督语义分割的多类令牌转换器一、介绍1.1 WSSS背景1.2 WSSS策略 二、联系工作2.1 弱监督语义分割2.2 transformers的可视化应用 三、MULTI-CLASS TOKEN TRANSFORMER3.1 Multi-class t…

JavaSE学习笔记第三弹之异常抛出

今天我们继续来学习JavaSE相关的知识,希望与大家共同努力。 目录 异常 什么是异常 运行时异常 编译时异常 ​编辑 为什么需要异常处理机制 错误 异常的处理与抛出 异常处理 异常抛出 自定义异常 结语 异常 什么是异常 Java中异常是一种在程序运行时发…

PHP宠物店萌宠小程序系统源码

🐾萌宠生活新方式🐾 🏡【一键直达萌宠世界】 你是否也梦想着拥有一家随时能“云撸猫”、“云吸狗”的神奇小店?现在,“宠物店萌宠小程序”就是你的秘密花园!🌟只需轻轻一点,就能瞬…

工厂方法模式java

文章目录 1. 概念2. 示例3. 代码示例 1. 概念 定义: 工厂方法模式又叫工厂模式,通过定义工厂父类创建对象的公共接口,而子类负责创建具体的对象 作用: 由工厂的子类来决定创建哪一个对象 缺点: 工厂一旦需要生成新的东西就需要修改代码,违背的开放封闭原则 2. 示例 3. 代码示…

Go语言并发编程-Context上下文

Context上下文 Context概述 Go 1.7 标准库引入 context,译作“上下文”,准确说它是 goroutine 的上下文,包含 goroutine 的运行状态、环境、现场等信息。 context 主要用来在 goroutine 之间传递上下文信息,包括:取…

rabbitmq简介与布署

rabbitMQ 常见的消息队列产品 rocketMQ(火箭) 阿里出品开源 kakfa 较少的核心提供超高的吞吐量,高可用高可靠高可扩展,但是建议支持较少的topic来保证其高吞吐量,适合大数据计算与日志收集。 rabbitMQ 基于erlang语言…

Chromium CI/CD 之Jenkins实用指南2024- 发送任务到Ubuntu(五)

1. 引言 在前一篇《Chromium CI/CD 之 Jenkins - 创建任务(四)》中,我们详细介绍了如何在Jenkins中创建和配置新任务,包括设置任务名称、选择运行节点、配置触发器、编写执行脚本以及添加文件收集步骤。通过这些步骤,…

COD论文笔记 Deep Gradient Learning for Efficient Camouflaged 2022

动机 这篇论文的动机在于解决伪装目标检测(COD)中的一个关键问题:在复杂背景下,伪装目标与背景的边界模糊,使得检测变得极其困难。现有的方法,如基于边界或不确定性的模型,通常仅响应于伪装目标的稀疏边缘&#xff0c…

最新Qt6的下载与成功安装详细介绍

引言 Qt6 是一款强大的跨平台应用程序开发框架,支持多种编程语言,最常用的是C。Qt6带来了许多改进和新功能,包括对C17的支持、增强的QML和UI技术、新的图形架构,以及构建系统方面的革新。本文将指导你如何在Windows平台上下载和安…

使用小波分析实现文字种类自动识别

文章目录 数据简介开始实验小波分解得出结果结果分析误差分析 数据简介 各找一篇中文,日文,韩文,英文,俄文较长的学术论文。将论文转化为JPG格式。拆分每张JPG生成更多小的JPG。最终获得很多5个不同语言的JPG并且自带标签。数据链…

VPN以及GRE和MGRE

VPN VPN — 是虚拟专用网络 通俗地说,就是通过虚拟的手段,将两个独立的网络,穿越一个公共网络进行连接,实现点到点专线的效果(可以理解为:一个分公司通过公网和总公司建立点到点的专线连接) 现…

Jupyter notebook如何快速的插入一张图片?如何控制插入图片的缩放、靠左展示(ChatGPT)

在Jupyter Notebook中,你可以使用Markdown语法快速插入图片,并且可以通过HTML标签来控制图片的展示方式和缩放。 注意:以下所有操作都有一个前提,即选择Cell-CellType-Markdown 1. 快速插入图片 要在Jupyter Notebook中插入图…

docker安装好了,但是启动失败

新项目要用docker部署,但是docker安装完后,启动失败,服务器用的是国产化的(之前的服务器非国产化,之前也没任何问题),国产化的使用起来问题一大堆,还是bclinux 安装好后重启一直显示 使用journalctl -xe也没任何报错 使用systemctl status docker查看docker状态是灰…

白话大模型微调(Fine-tune)

吾名爱妃,性好静亦好动。好编程,常沉浸于代码之世界,思维纵横,力求逻辑之严密,算法之精妙。亦爱篮球,驰骋球场,尽享挥洒汗水之乐。且喜跑步,尤钟马拉松,长途奔袭&#xf…