2023年03月15日_GPT4的发布会简单介绍

文章目录

  • 各种考试
  • 长度限制
  • 图像输入功能
  • 开发者API
  • 定价
  • 评估框架
  • 1 - 基准测试表现
  • 2 - 文本和图像提示
  • 3 - 系统消息功能
  • 4 - 真实性、稳定性、可靠性

2023年3月15日

今天凌晨呢

万众瞩目的大型多模态模型

GPT-4正式发布

我们先总结一下发布会的重点


首先

这个模型能够接受图像和文本的输入

输出文本的内容

虽然在很多的现实场景中呢

它的能力还不如人类

但是在各种专业

和学术的基准测试中呢

已经能做到人类的表现


各种考试

它能强大到什么程度呢

比如你输入一张手绘的草图

GPT-4就能生成最终设计的网页代码

而且

以高分通过了各种标准化的考试

SAT 700分

GRE几乎满分

逻辑能力

完全吊打GPT-3.5

GPT-4在高级的推理能力

也完全超越ChatGPT

律师模拟的考试中呢

ChatGPT背后

大家都知道是基于的GPT-3.5

它的排名呢在倒数的10%左右

GPT-4考到了前10%左右

这就相当于一下子

从一个班的差等生

蹦到了班里的优等生

这是绝对的飞跃


长度限制

这一次呢

GPT-4将长度上的限制

提升到了32K tokens

什么意思呢

就是能够处理超过25,000个单词的文本

并且还可以使用长格式的内容


OpenAI还贴心的发布了一个

GPT-4的开发者视频

手把手的教你如何去生成代码

检查错误信息

以及报税等等

在这个视频中呢

OpenAI的联合创始人兼总裁

Greg Brockman说了一句话

他并不完美,但是你也一样

这听上去是不是有点扎心呢

是吧

图像输入功能

目前GPT-4的图像输入功能

还没有开放

ChatGPT plus订阅者

可以直接获得有使用上限的

GPT-4的使用权

四个小时之内呢

最多只能发布100条信息

开发者API

开发者呢也可以申请GPT-4的API

进入到候补名单

等待审核通过之后

才能够使用

定价

GPT-4的定价

每1K的prompt tokens是0.03美元

每1K的completion tokens是0.06美元

默认的速率限制

每分钟40K的tokens

每分钟200个请求

GPT-4的上下文长度是8,192个tokens

就是8K的tokens


但是OpenAI还提供了一个32K的版本

可以对32,768个上下文

大概约50页的文本进行有限的访问

这个版本的价格呢

每1,000个prompt tokens0.06美元

1,000个completion tokens0.12美元

评估框架

此外呢OpenAI还开源了一个

用来自动评估AI模型性能的框架

OpenAI Evals

这样呢开发者就可以更好的

去评估模型的优缺点

从而指导团队进一步的去改进模型

好了

以上就是这次GPT-4发布会的一些重点

接下来我们来详细说明

GPT-4的一些特点

1 - 基准测试表现

第一点就是

GPT-4的基准测试表现

远远优于现有的大模型

如果你只是随意的聊天呢

你可能不太能够感受出

GPT-3.5与GPT-4之间的区别

但是当任务的复杂性

达到一定的阈值之后呢

GPT-4将明显比GPT-3.5

更可靠更有创意

而且能够处理更细微的指令


所以OpenAI特意在各种基准测试中

对两种模型做了对比

包括一些最初为人类设计的模拟考试

可以看到在很多的测试中

GPT-4都明显高于GPT-3.5

为机器学习模型

设计的传统基准测试

GPT-4也大大优于现有的大语言模型

以及大多数最先进的SOTA模型


由于许多现有的这个机器模型啊

这个machine learning的基准测试

都是用英语编写的

所以这次OpenAI特意将MMLU

基准测试翻译成了各种语言


在测试的26种语言的24种中

GPT-4都优于GPT-3.5

以及其他的大型语言模型

包括像拉脱维亚语

威尔士语

斯瓦希里语等等非常小众的语言

2 - 文本和图像提示

第二点

GPT-4可以接受文本和图像的提示

虽然现在图像的输入还没有公开

但是OpenAI在官网展示了

7个视觉输入的相关例子

第一个示例呢

是输入了一张由3张图片拼成的图

用户输入这张图有什么奇怪的地方

请一张一张的描述

image-20231230190109255

GPT-4呢就会分别

对这每张图中的内容进行描述

并且指出这幅图

是把一个大的而且过时的VGA接口

插入了一个小的

但是现代化的智能手机的充电端口

这样做是非常荒谬的

其实这个是网络上的一张梗图啊

但是GPT-4也能够很好的去描述它


第二个示例是用户问

格鲁吉亚和西亚

平均每天肉类消费总量是多少

让GPT-4在给答案之前呢

提供一个循序渐进的推理过程

image-20231230190135603

GPT-4也能按照要求做出回答


第三个示例呢

是用户直接给了一张考试题的照片

而且这个试题呢是法语的

image-20231230190150265

让GPT-4一步步的思考作答

而且GPT-4也答对了


第四个例子是

用户问这张图片有什么不寻常之处

image-20231230190203768

GPT-4直接就回答出

这是一名男子正在

行驶中的出租车车顶上

在熨衣板上熨烫衣服

这也是一个不合常理的地方

它可以很好的识别出来


第五个例子是给了几张论文的照片

image-20231230190223030

让GPT-4呢做一些相应的总结

而且GPT-4也可以对用户指定的

图片内容进行展开的解释


第6个例子

是给了GPT-4一张网络上的梗图

搞笑图片

image-20231230190232552

GPT-4回答说这其实呢是一个笑话

结合了太空中的地球照片

和鸡块这两个完全不相关的东西


最后一个示例呢

是让GPT-4去解释这张漫画

image-20231230190242406

GPT-4认为它讽刺了

统计学习和神经网络

在提高模型性能方面的差异

也是对这个图像上的内容

识别的比较准确

3 - 系统消息功能

第三点呢就是在可操作性方面

OpenAI这次提供了一个

叫系统消息 (system messages) 的功能

允许API的用户

定义AI的风格和任务

同时也展示了三个示例


第一个示例

是让这个GPT-4

作为一个总是以苏格拉底风格

来回应学生问题的老师

不是直接给学生去求解

某个线性方程组的答案

而是通过将那个问题

拆分成更简单的部分

引导学生来做独立思考


第二个示例

让GPT-4变成莎士比亚的海盗

就是完全忠于自己的个性啊

可以看到它在多轮对话的过程中呢

始终能够保持着自己的人设


第三个示例呢

让GPT-4成为一名AI的助手

但是总是以这个JSON的方式来

编写这个响应输出啊

然后GPT-4的回答的风格呢

就变成了如下这样

回答内容都是JSON的这个格式风格

4 - 真实性、稳定性、可靠性

第4点

在真实性 稳定性 可靠性等其他方面

基于ChatGPT使用的经验教训

OpenAI团队对GPT-4进行了长达

6个月的对抗性测试和调整

据说达到了有史以来最好的效果

虽然GPT-4仍然存在一定的局限性

包括事实性的幻觉推理错误

但是相对于以前的模型

已经大幅度的减少

在OpenAI内部的对抗性

和真实性的这个评估中呢

GPT-4的得分都要比GPT-3.5高40%


在模型的风险方面

OpenAI聘请了50多位来自于

AI对齐风险

网络安全

生物风险

信任和安全

以及国际安全等领域的专家

来对模型进行对抗性的测试


GPT-4在RLHF训练期间

还加入了一个额外的安全奖励信号

就是通过训练模型

拒绝对此类内容的请求

来减少有害的输出

这种方式将模型

去响应禁止内容请求的可能性

降低了82%


并且GPT-4根据OpenAI的政策

响应敏感请求的频率还提高了29%

总的来说


虽然还有很多的不足

也还有很多的工作要做

但是GPT-4

应该算是一个里程碑式的发布

我们也期待

GPT-4能够成为一个有价值的工具

通过为许多的应用来提供动力

从而改善人们的生活

image-20231230190546299

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/823514.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【Leetcode 39】组合总和 —— 回溯法

39. 组合总和 给你一个无重复元素的整数数组candidates和一个目标整数target ,找出candidates中可以使数字和为目标数target的 所有不同组合,并以列表形式返回。你可以按**任意顺序 **返回这些组合。 candidates中的同一个数字可以 无限制重复被选取 。…

Vue3-29-路由-编程式导航的基本使用

补充一个知识点 路由配置中的 name 属性 : 可以给你的 路由 指定 name属性,称之为 命名路由。 这个 name 属性 在 编程式导航 传参时有重要的作用。 命名路由的写法如下 : 像指定 path 一样,直接指定一个 name 属性即可。{path:/d…

GBASE南大通用-小内存单机安装GBase 8c分布式数据库实践

* 这种小内存部署方式仅用于分布式数据库个人学习使用,不建议用于其他用途。 随着数据高并发复杂场景业务需求不断增多,信息数据呈现出爆炸式增长、多源多维、数据类型繁复等特征。在这一趋势下,目前分布式数据库因其架构的天然优势&#xf…

开放网络+私有云=?星融元的私有云承载网络解决方案实例

在全世界范围内的云服务市场上,开放网络一直是一个备受关注的话题。相比于传统供应商的网络设备,开放网络具备软硬件解耦、云原生、可选组件丰富等优势,对云服务商和超大型企业有足够的吸引力。 SONiC作为开源的网络操作系统,使得…

2047过滤空格(C语言)

目录 一:题目 二:思路分析 三:代码 一:题目 二:思路分析 1.首先,这道题是一个字符串的问题,我们要先知道字符串存放在char类型的数组中的,并不是一个变量就可直接存放的下一个完整…

了解 NSA 关于管理 OSS 和 SBOM 的最新指南

开源软件很容易受到恶意行为者的攻击,但软件材料清单可以帮助减轻威胁。美国国家安全局的指导为管理生态系统奠定了坚实的基础。 软件供应链安全仍然是网络安全和软件行业的一个关键话题,并且有充分的理由,从针对大型软件供应商的持续攻击到…

vlc 查看音频有没有声音

播放文件或者实时流 播放文件 选择音频文件 打开网络流 输入实时流地址 查看音频是否有声音

[LitCTF 2023]Vim yyds

[LitCTF 2023]Vim yyds wp 题目页面如下: 搜索一番,没有发现任何信息。题目描述中说到了源码泄露,那么先进行目录扫描。 dirsearch 目录扫描 命令: dirsearch -u "http://node4.anna.nssctf.cn:28588/"返回结果&…

Go 1.22新特性前瞻

美国时间2023年12月20日,Go官方宣布Go 1.22rc1发布,开启了为期2个多月的、常规的公测之旅,Go 1.22预计将于2024.2月份正式发布! 除了在官网下载Go 1.22rc1版本进行新特性体验之外,我们还可以通过在线的Go Playground选…

黑马程序员SSM框架-Maven进阶

分模块开发与设计 分模块开发意义 分模块开发 依赖管理 依赖传递 依赖传递冲突问题 可以点击红框按钮查看依赖情况。 可选依赖和排除依赖 继承和聚合 聚合 聚合工程开发 继承 聚合和继承的区别 属性 属性的配置与使用 资源文件引用属性 其他属性(了解&#xff0…

基于虚拟机ubuntu的linux和shell脚本的学习,以及SSH远程登陆实战

简介 特点 是一款操作系统,跟windows,macos一样,有下面的特点 简单和高效,一切皆文件,所有配置都通过修改文件解决,不需要繁琐的权限和设置 权限高,把所有细节都交给用户,可完全自定义 安全,所有程序只有自己执行才会启动 分类 1、debian系主要有Debian,Ubun…

【设计模式】组合模式

文章目录 前言一、组合模式1.案例2.组合模式分类3.优点4.使用场景 总结 前言 【设计模式】组合模式 一、组合模式 ​ 对于这个图片肯定会非常熟悉,上图我们可以看做是一个文件系统,对于这样的结构我们称之为树形结构。在树形结构中可以通过调用某个方法…

一款超酷的一体化网站测试工具:Web-Check

Web-Check 是一款功能强大的一体化工具,用于发现网站/主机的相关信息。用于检查网页的工具,用于确保网页的正确性和可访问性。它可以帮助开发人员和网站管理员检测网页中的错误和问题,并提供修复建议。 它只需要输入一个网站就可以查看一个网…

数据库系统原理例题之——SQL 与关系数据库基本操作

SQL 与关系数据库基本操作 第四章 SQL 与关系数据库基本操作【例题】一 、单选题二 、填空题三 、简答题四 、设计题 【答案&解析】一、单选题二、填空题三、简答题四、设计题 【延伸知识点】【延伸知识点答案&解析】 第四章 SQL 与关系数据库基本操作 【例题】 一 、…

【23.12.30期--Spring篇】Spring的AOP介绍(详解)

Spring的AOP介绍 ✔️简述✔️扩展知识✔️AOP是如何实现的 ✔️简述 AOP(Aspect-Oriented Programming),即面向切面编程,用人话说就是把公共的逻辑抽出来,让开发者可以更专注于业务逻辑开发。 和IOC-样,AOP也指的是一种思想。AOP…

字符串函数的实现以及大小写转换、字符统计等------(C每日一编程)

--基本算法: --字符串求长度、拷贝、比较、连接 --大小写转换、字符统计 -其他: --判断回文、逆序、删字符、字符定位 --输入(gets)、输出(puts) 正文解读: 大小写转换:就是加减32…

Shell三剑客:awk(awk编辑编程)六

一、AWK 的函数前言 awk的函数有许多,除了系统自带的内建函数还有就是用户自定义的函数。 二、AWK 常用的函数 rand() # 返回0 和1 之间一个随机数srand() # 生成随机数种子int() # 取整数length([s]) # 返回指定字符串的长度sub(r,s,[t]) # 对t字符串进行搜索&am…

【C++杂货铺】C++11新特性——lambda

文章目录 一、C98中的排序二、先来看看 lambda 表达式长什么样三、lambda表达式语法3.1 捕捉列表的使用细节 四、lambda 的底层原理五、结语 一、C98中的排序 在 C98 中,如果要对一个数据集合中的元素进行排序,可以使用 std::sort 方法,下面…

Spring Boot 基于Redisson实现注解式分布式锁

依赖版本 JDK 17 Spring Boot 3.2.0 Redisson 3.25.0 源码地址&#xff1a;Gitee 导入依赖 <properties><redisson.version>3.25.0</redisson.version> </properties><dependencies><dependency><groupId>org.projectlombok</…

为什么网络安全行业那么缺人才,但招聘岗位却没那么多?

文章目录 一、学校的偏向于学术二、学的东西太基础三、不上班行不行 为什么网络安全的人才缺口那么大&#xff0c;但是大学毕业能找到网安工作的人却很少&#xff0c;就连招聘都没有其他岗位多&#xff1f; 明明央视都说了网络安全的人才缺口还有300多万&#xff0c;现在找不…