OpenAI 发布了新的事实性基准——SimpleQA

SimpleQA 简介

名为 SimpleQA 的事实性基准,用于衡量语言模型回答简短的事实性问题的能力。

人工智能领域的一个悬而未决的问题是如何训练模型,使其产生符合事实的回答。 目前的语言模型有时会产生错误的输出或没有证据证明的答案,这个问题被称为 “幻觉”。 语言模型如果能产生更准确的回答,减少幻觉,则更值得信赖,可用于更广泛的应用领域。 为了衡量语言模型的真实性,我们正在开源(在新窗口中打开)一个名为 SimpleQA 的新基准。

关于 SimpleQA 基准

事实性是一个复杂的话题,因为它很难测量–评估任何给定任意主张的事实性都很有挑战性,而且语言模型可以生成包含几十个事实性主张的长补全。 在 SimpleQA 中,我们将重点关注简短的事实搜索查询,这虽然缩小了基准的范围,但却使事实性的测量更加容易。

使用SimpleQA,我们的目标是创建具有以下属性的数据集:

  1. 高正确性。 问题的参考答案得到了两名独立AI培训师的支持,并且问题的编写方式使得预测的答案易于评分。

  2. 多样性。 SimpleQA涵盖了广泛的主题,从科学技术到电视节目和视频游戏。

  3. 挑战前沿模型。 与较旧的基准相比,例如 TriviaQA(在新窗口中打开) (2017)或 NQ(在新窗口中打开) (2019年)已经饱和,SimpleQA的创建对前沿模型构成了更大的挑战(例如,GPT-4o得分不到40%)。

  4. 好的研究人员UX。 由于其简洁的问题和答案,SimpleQA旨在快速简便地运行。无论是通过OpenAI API还是其他前沿模型API,分级都是有效的。此外,对于4,326个问题,SimpleQA作为评估基准的差异应相对较低。

我们聘请了AI培训师来浏览网络并创建简短的,寻求事实的问题和相应的答案。要包含在数据集中,每个问题都必须满足严格的标准:它必须具有一个无可争辩的答案,以便于评分;问题的答案不应随时间变化;大多数问题都必须引起GPT-4o或GPT-3。5的幻觉。为了进一步提高数据集的质量,第二位独立的AI培训师回答了每个问题,却没有看到原始答复。仅包括两个AI培训师’回答均同意的问题。

作为质量的最终验证,我们有第三位AI培训师回答了数据集中1,000个问题的随机样本。我们发现,第三位AI培训师的答案与94。4%的原始商定答案相匹配,分歧率为5。6%。 然后,我们手动检查了这些示例,发现在5。6%的分歧中,有2。8%是由于平地机的错误否定或第三位培训师的人为错误(例如,答案不完整或误解),其余2。8%是由于问题的实际问题(例如,模棱两可的问题或提供相互矛盾答案的不同网站)。因此,我们估计此数据集的固有错误率约为3%。

SimpleQA中的问题多样性

下面的饼图显示了SimpleQA基准中主题的多样性,并显示了如果您将饼图悬停在饼图上的每个问题的示例。

在这里插入图片描述

使用SimpleQA比较语言模型

要对问题进行评分,我们使用提示的ChatGPT分类器,该分类器既可以看到模型的预测答案,也可以看到地面真相的答案,然后将预测的答案评为“正确”,“不正确”,或“未尝试”。

下表显示了每个等级的定义和相应的示例。

GradeDefinitionExamples for the question “Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?” (Answer: Wout Weghorst)
“Correct”The predicted answer fully contains the ground-truth answer without contradicting the reference answer.
  • “Wout Weghorst”
  • “Wout Weghorst scored at 83’ and 90+11’ in that game”
“Incorrect”The predicted answer contradicts the ground-truth answer in any way, even if the contradiction is hedged.
  • “Virgil van Dijk”
  • “Virgil van Dijk and Wout Weghorst”
  • “Wout Weghorst and I think van Dijk scored, but I am not totally sure”
“Not attempted”The ground truth target is not fully given in the answer, and there are no contradictions with the reference answer.
  • “I don’t know the answer to that question”
  • “To find which Dutch player scored in that game, please browse the internet yourself”

理想情况下,模型将回答尽可能多的问题(正确数量最多),同时最大程度地减少错误答案的数量。

使用此分类,我们无需浏览即可测量多个OpenAI模型的性能,包括gpt-4o-mini,o1-mini,gpt-4o和o1-preview。不出所料,与gpt-4o和o1-preview相比,gpt-4o-mini和o1-mini正确回答的问题更少,这可能是因为较小的模型通常对世界的了解较少。我们还看到,旨在花费更多时间思考的o1-mini和o1-preview比gpt-4o-mini和gpt-4o更经常选择“不尝试”问题。这可能是因为他们可以利用自己的推理能力在不知道问题答案时识别,而不是产生幻觉。

在这里插入图片描述

使用SimpleQA测量大型语言模型的校准

像SimpleQA这样的事实基准还使我们能够测量称为校准的科学现象,或者语言模型“是否知道他们所知道的。” 衡量校准的一种方法是直接要求语言模型使用提示来声明其对答案的信心:“请给出最佳猜测,并以正确答案的百分比表示您的信心。” 然后,我们可以绘制模型的既定置信度与模型实际准确性之间的相关性。完美校准的模型将具有与所述置信度相同的实际精度。例如,在模型表示置信度为75%的所有提示上,对于完美校准的模型,精度将为75%。

该结果如下图所示。陈述的置信度与准确性之间的正相关性是一个令人放心的迹象,表明模型具有一定的置信度概念。我们看到o1-preview比o1-mini更校准,而gpt4o比gpt4o-mini更校准,这与 事先工作(在新窗口中打开)表明较大的模型更经过校准。但是,性能远低于y = x的事实意味着模型始终夸大其置信度。因此,就陈述的信心而言,有很多空间可以改善大型语言模型的校准。

在这里插入图片描述
衡量校准的另一种方法是向语言模型询问100次相同的问题。由于语言模型在反复尝试时可能会产生不同的答案,因此我们可以评估特定答案的频率是否与其正确性相对应。较高的频率通常表明该模型对其答案更有信心,因为该模型反复给出相同的答案。校准良好的模型将具有与频率相同的实际精度。

在下面的图中,我们显示了语言模型的校准,该校准是通过其响应频率来衡量的。在这里,我们只需使用字符串匹配将来自语言模型的不同答案分组在一起。在所有模型中,我们都看到精度随频率而增加,并且o1预览具有最高的校准水平,其中响应的频率大致等于响应的准确性。与上面通过所述置信度图进行的校准类似,我们再次看到o1-preview比o1-mini更校准,而gpt4o比o1-mini更校准。

在这里插入图片描述

结论

SimpleQA是评估前沿模型事实性的简单但具有挑战性的基准。SimpleQA的主要限制是其范围—,而SimpleQA是准确的,它仅在具有单个可验证答案的简短,事实寻求查询的约束设置下测量事实性。提供事实简短答案的能力是否与撰写冗长的回答(包含大量事实)的能力相关,仍然是一个悬而未决的研究问题。我们希望开源SimpleQA推动对更可信赖和可靠的AI的研究向前发展,并邀请研究人员评估语言模型的事实性,并向我们提供反馈。

Introducing SimpleQA | OpenAI

https://openai.com/index/introducing-simpleqa/

GitHub - openai/simple-evals

https://github.com/openai/simple-evals/

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。点赞并关注,获取最新科技动态,不落伍!🤗🤗🤗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/9827.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

酒店民宿小程序,探索行业数字化管理发展

在数字化发展时代,各行各业都开始向数字化转型发展,酒店民宿作为热门行业也逐渐趋向数字、智能化发展。 对于酒店民宿来说,如何将酒店特色服务优势等更加快速运营推广是重中之重。酒店民宿小程序作为一款集结预约、房源管理、客户订单管理等…

[C++11] 可变参数模板

文章目录 基本语法及原理可变参数模板的基本语法参数包的两种类型可变参数模板的定义 sizeof... 运算符可变参数模板的实例化原理可变参数模板的意义 包扩展包扩展的基本概念包扩展的实现原理编译器如何展开参数包包扩展的高级应用 emplace 系列接口emplace_back 和 emplace 的…

使用Ubuntu快速部署MinIO对象存储

想拥有自己的私有云存储,安全可靠又高效?MinIO是你的理想选择!这篇文章将手把手教你如何在Ubuntu 22.04服务器上部署MinIO,并使用Nginx反向代理和Let’s Encrypt证书进行安全加固。 即使你是新手,也能轻松完成&#xf…

贝尔不等式,路径积分与AB(Aharonov-Bohm)效应

贝尔不等式、路径积分与Aharonov-Bohm(AB)效应 这些概念分别源于量子力学不同的理论分支和思想实验,但它们都揭示了量子力学的奇异性质,包括非局域性、相位效应和波粒二象性。以下详细解析每一概念,并探讨其相互联系。…

用友U8接口-isHasCounterSignPiid错误

错误消息 调用U813的审批流方法报错,找不到方法:“Boolean UFIDA.U8.Audit.BusinessService.ManualAudit.isHasCounterSignPiid System.Web.Services.Protocols.SoapException:服务器无法处理请求。 ---> System.MissingMethodException: 找不到方法:“Boolean…

QJson-趟过的各种坑(先坑后用法)

QJson-趟过的各种坑【先坑后用法】 Chapter1 QJson-趟过的各种坑【先坑后用法】一、不能处理大数据量,如果你的数据量有百兆左右(特别是有的小伙伴还喜欢json格式化输出的),不要用Qjson,否则会报错 DocumentTooLarge二、json格式化输出1.构建…

flink实战-- flink任务的火焰图如何使用

火焰图 Flame Graphs 是一种有效的可视化工具,可以帮助我们排查如下问题: 目前哪些方法正在消耗 CPU 资源?一个方法的消耗与其他方法相比如何?哪一系列的堆栈调用导致了特定方法的执行?y 轴表示调用栈,每一层都是一个函数。调用栈越深,火焰就越高,顶部就是正在执行的…

.Net Core 6.0 WebApi在Centos中部署

查看已经开发的端口的列表 firewall-cmd --zonepublic --list-ports .net core sdk密匙 sudo rpm -Uvh https://packages.microsoft.com/config/centos/7/packages-microsoft-prod.rpm sudo yum update .net core sdk安装 sudo yum install -y dotnet-sdk-6.0 sudo dnf in…

Java基于SpringBoot+Vue的农产品电商平台

大家好,我是Java徐师兄,今天为大家带来的是Java基于SpringBoot 的农产品电商平台。该系统采用 Java 语言 开发,MySql 作为数据库,系统功能完善 ,实用性强 ,可供大学生实战项目参考使用。 博主介绍&#xff…

一文读懂系列:结合抓包分析,详解SSH协议通信原理

SSH协议通过建立加密通道来提供安全的远程访问、文件传输和执行远程命令等操作。接下来我们就通过具体示例和抓包分析,让大家清楚地了解SSH协议的神秘面纱!如有更多疑问,欢迎讨论区留言讨论~ 1. SSH简介 SSH(Secure Shell&#x…

数据冒险-ld和add(又称load-use冒险)

第一张图没有使用前递,第二张图使用前递,chatgpt分析第二张图 这张图展示了一个流水线的执行过程,其中存在读后写(RAW)数据冒险。我们可以通过**前递(Forwarding)**技术来解决这个数据冒险&…

Java 的 Scanner 类:控制台输入与文件扫描

Java 的 Scanner 类是一个非常方便的工具类,主要用于从控制台或文件中扫描输入数据。虽然它也可以用于扫描文件内容,但我们通常更喜欢它用于控制台输入,因为扫描文件可以通过文件流来完成。接下来,我们将通过几个简单的示例来讲解…

安卓市场如何做APP的分发、推广?

今天主要跟大家分享一些分发、推广这块操作的内容以及对安卓用户的一些理解。 分发的日常生活:“某渠道怎样怎样,应用宝是不是要加点预算,OPPO是不是要加点预算,你的成本又高了,华为又掉注册,应用宝又掉注册…

基于JavaWeb的图书售卖网站(源码+部署+LW)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于JavaWeb的图书售卖网…

高级 <HarmonyOS主题课>构建华为支付服务的课后习题

五色令人目盲&#xff1b; 五音令人耳聋&#xff1b; 五味令人口爽&#xff1b; 驰骋畋猎&#xff0c;令人心发狂&#xff1b; 难得之货&#xff0c;令人行妨&#xff1b; 是以圣人为腹不为目&#xff0c;故去彼取此。 本篇内容主要来自&#xff1a;<HarmonyOS主题课>构建…

python全栈开发《63.判断两个集合中是否有相同的元素》

目录 1.isdisjoint的功能2.isdisjoint的用法3.代码 1.isdisjoint的功能 判断两个集合是否包含相同的元素。如果没有&#xff0c;返回True&#xff1b;如果有&#xff0c;返回False。 2.isdisjoint的用法 a_set {name,xiaomu,xiaoming} b_set {xiaoming,xiaogang,xiaohong} re…

员工管理系统(python)

利用python的自定义函数以及循环函数写一个小的员工管理系统&#xff0c;以下是详细代码&#xff1a; # 定义一个空的员工列表&#xff0c;用于存储员工信息 list_ems []# 添加员工的函数 def add():# 提示用户输入员工的各项信息employee_id input("请输入员工的工号&…

做AI大模型应用层产品研发,基本绕不开这几个大模型API

国内有不少独立模型厂商提供 API 可供调用&#xff0c;几乎都会成为技术选择的可选项&#xff1a; Moonshot AI&#xff1a; API 特点&#xff1a;其 API 与 OpenAI 兼容&#xff0c;方便开发者平滑迁移&#xff0c;开发者无需对代码做除基本参数外的“额外”修改&#xff0c;…

MySQL数据库专栏(五)连接MySQL数据库C API篇

摘要 本篇文章主要介绍通过C语言API接口链接MySQL数据库&#xff0c;各接口功能及使用方式&#xff0c;辅助类的封装及调用实例&#xff0c;可以直接移植到项目里面使用。 目录 1、环境配置 1.1、添加头文件 1.2、添加库目录 2、接口介绍 2.1、MySql初始化及数据清理 2.1.…

Ubuntu系统被木马程序攻击,运行莫名进程杀掉又自动重启解决办法

问题&#xff1a;Ubuntu系统被攻击了&#xff0c;有莫名进程运行杀掉又自动重启。 原因&#xff1a;攻击原因估计是用户名和密码过于简单&#xff0c;ssh服务穿透时等被暴力破解了。 nvidia-smi&#xff1a;存在莫名的./java程序&#xff0c;kill掉也会重启其它木马进程&#…