【大语言模型-论文速读】GPT的不确定性判断

【大语言模型-论文精读】GPT’s Judgements Under Uncertainty

Authors: Payam Saeedi and Mahsa Goodarzi
论文:https://arxiv.org/pdf/2410.02820
在这里插入图片描述

文章标题翻译

GPT的不确定性判断
Payam Saeedi Rochester Institute of Technology
Mahsa Goodarzi The State University of New York at Albany

摘要

本文研究了人类认知中的固有偏见(例如损失厌恶、框架效应和合取谬误)是否体现在GPT-4o在概率场景中的判断和决策中。通过在九种认知偏见上进行1350次实验,并分析统计与启发式推理的回答,我们展示了GPT-4o在回应具有相似底层概率表示的提示时的矛盾方法。研究结果还揭示了AI的表现参差不齐,它既展示了类似人类的启发式错误,也做出了统计上合理的决策,尽管它经历了相同提示的相同迭代。

创新点

  • 认知偏见的AI体现: 研究了人类认知偏见是否以及如何体现在大型语言模型(LLMs)的决策和判断中。
  • 大规模实验: 在九种不同的认知偏见上进行了1350次实验,以评估GPT-4o的反应。
  • 统计与启发式推理的对比: 分析了GPT-4o的回答是属于统计推理还是启发式推理。

算法模型

  • GPT-4o: 使用OpenAI的API进行实验,GPT-4o是目前为止OpenAI提供的速度最快、效率最高的模型。
  • 零次推理链: 在实验中使用了零次推理链提示技术,让AI以“参与社会实验的人类”的角色进行回答。

实验效果

  • 实验总数: 1350次
  • 详细数据:
    • 合取谬误: GPT-4o在所有实验中几乎总是提供了统计上合理且正确的回答。
    • 概率忽视: 在某些概率忽视实验中,GPT-4o能够正确理解并应用概率概念。
    • 框架效应: GPT-4o在正负框架的同一场景中给出了矛盾的回答。
    • 损失厌恶和展望理论: GPT-4o在大多数实验中未能考虑基于硬币翻转结果的预期价值。
  • 结论: GPT-4o在处理某些类型的认知偏见时表现出了较高的性能,但在特定条件下仍然容易受到认知偏见的影响。
    在这里插入图片描述

文章中提到的GPT-4o模型在处理认知偏见方面的表现呈现出一种混合的模式,它在某些领域做得较好,而在其他领域则存在明显的不足。具体而言,如下

做得好的方面:

  1. 合取谬误(Conjunction Fallacy)

    • GPT-4o在处理合取谬误方面表现出色,始终提供了统计上合理且正确的回答。它能够理解并且正确地应用概率原则,即两个集合的交集总是小于任一集合的大小。
  2. 某些概率忽视(Probability Neglect)

    • 在某些概率忽视的实验中,GPT-4o能够正确地识别事件的独立性,并据此做出反应。例如,当询问一系列硬币投掷中出现正面的概率时,GPT-4o能够坚持每次投掷的概率是独立的。

有待改进的方面:

  1. 偏见相似性(Bias of Resemblence)

    • GPT-4o在识别和处理偏见相似性方面表现不佳,几乎在所有情况下都依赖于简化的启发式方法,而不是基于基础概率进行判断。
  2. 框架效应(Framing Effect)

    • 在框架效应的实验中,GPT-4o对于同一场景的不同表述给出了矛盾的回答,表现出了与人类类似的启发式错误。
  3. 损失厌恶(Loss Aversion)和展望理论(Prospect Theory)

    • GPT-4o在处理损失厌恶和展望理论相关的实验时,往往忽略了基于硬币投掷结果的预期价值,倾向于选择风险较小的选项,而不是根据概率计算预期价值。
  4. 沉没成本谬误(Sunk Cost Fallacy)

    • 尽管GPT-4o能够识别沉没成本谬误并正确引用这一概念,但在实验中它在82%的情况下正确回答,仍有18%的情况未能正确处理。

推荐阅读指数

★★★★☆

推荐理由:

  • 研究的创新性: 该研究探讨了AI在模拟人类决策过程中的认知偏见,这是一个相对较新且重要的研究领域。

扣分理由:

  • 模型的泛化能力: 研究仅在GPT-4o上进行,可能无法完全泛化到其他模型。
  • 实验设计的局限性: 使用零次推理链提示技术可能不能完全代表现实世界中LLM的应用情境。

后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1559299.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【exp报错注入】

整数范围 最大整数 exp 函数介绍 报错盲注注入 payload分析 709C-ASCII 值就等于我们下面的 7091-1 ,C就是我们要猜的值,当我们猜测的值和ASCII码相等时,那么exp就不会出现报错,因为1-1还是等于709: 练习 id1 an…

【AIGC】OpenAI API在快速开发中的实践与应用:优化ChatGPT提示词Prompt加速工程

博客主页: [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯使用最新型号确保最佳实践利用最新模型进行高效任务处理为什么要选择最新模型?结论 💯指令与上下文的分隔最佳实践分隔指令和上下文的重要性使用符…

Win32 API 控制台鼠标操作、坐标获取与相关函数介绍

Win32 API 控制台鼠标操作、坐标获取与相关函数介绍 一、前置介绍读取控制台输入缓冲区数据 ReadConsoleInput 函数控制台输入缓冲区中的输入事件 INPUT_RECORD 结构鼠标输入事件 MOUSE_EVENT_RECORD 结构更改输入模式 SetConsoleMode 函数 二、鼠标坐标获取(以下代码环境为 VS…

PCL 3D-SIFT关键点检测(Z方向梯度约束

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.1.1 SIFT关键点检测 2.1.2 可视化函数 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目实战案例汇总(长期更新&#…

SQL优化 where谓词条件OR优化

1.测试表,及测试语句where条件中OR对应两个字段选择度很高 create table t618 as select * from dba_objects; select object_name from t618 where (object_id12043 or DATA_OBJECT_ID12043) and STATUSVALID; 2.没有索引情况下,全表扫描逻辑读…

C++核心编程和桌面应用开发 第九天(静态多态 动态多态 纯虚函数 抽象类 虚析构 纯虚析构 向上向下类型转换 重载重写重定义)

目录 1.1静态多态 1.2动态多态 1.2.1满足条件 1.2.2动态多态的使用条件 1.3纯虚函数和抽象类 1.3.1纯虚函数 1.3.2抽象类 1.4虚析构/纯虚析构 1.5向上向下类型转换 1.5.1向下类型转换 1.5.2向上类型转换 1.5.3多态中的类型转换 1.6重载重写重定义 1.6.1重载 1.6…

qwt实现码流柱状图多色柱体显示

qwt实现码流柱状图多色柱体显示 1. 前言2. qt实现柱状图3.qwt基础说明3.1 qwt安装与使用3.1.1 下载qwt源码3.1.2 编译3.1.3 安装3.1.4 使用3.2 QwtPlotBarChart类3.2.1画图步骤3.2.2 specialSymbol3.3.3 barTitle4 BsBarChart定制4.1 每个柱体可以显示不同的颜色4.2 每个柱体可…

MFC项目如何使用hiredis库连接redis

如何在windows平台使用c连接redis 1. 下载hiredis的vs工程文件2. 使用vs2022编译hiredis3.项目中调用4. 集群连接5. 简单的封装下 最近需要在windows PC终端读取redis数据。我这里使用hiredis连接redis. 工程是vs2022开发的。 1. 下载hiredis的vs工程文件 windows平台需要自己…

【C/C++】错题记录(七)

题目一 题目二 C在调用函数时,当实参和形参的数据类型不一致时,会发生数据类型转换!将低精度转换为高精度时,由编译器隐式完成;将高精度转换为低精度时,必须用强制类型转换运算符; static_cast…

Redis:分布式 - 哨兵

Redis:分布式 - 哨兵 概念哨兵 Docker 搭建哨兵分布式选举流程 概念 Redis 的主从复制模式下,一旦主节点由于故障不能提供服务,需要人工进行主从切换,同时大量的客户端需要被通知切换到新的主节点上,对于上了一定规模…

浏览器动态移动的小球源码分享

浏览器动态移动的小球源码分享 <script>(function(a){var width100,height100,borderRadius100,circlefunction(){};circle.prototype{color:function(){let colour "#"Math.floor(Math.random()*255).toString(16)Math.floor(Math.random()*255).toString…

Linux块设备驱动实验

直接参考【正点原子】I.MX6U嵌入式Linux驱动开发指南V1.81 本文仅作为个人笔记使用&#xff0c;方便进一步记录自己的实践总结。 前面我们都是在学习字符设备驱动&#xff0c;本章我们来学习一下块设备驱动框架&#xff0c;块设备驱动是Linux 三大驱动类型之一。块设备驱动要远…

Fiddler配合wireshark解密ssl

环境&#xff1a; win11&#xff08;wireshark&#xff09;--虚拟机win7&#xff08;Fiddler&#xff09;---虚拟机win7&#xff08;HTTPS站点&#xff09; 软件安装问题&#xff1a; 需要.net环境&#xff0c;NDP461-KB3102436-x86-x64-AllOS-ENU.exe。 安装fiddler后安装下…

vite项目打包md5报‘default‘ is not exported错误的解决方法

报错如下&#xff1a; 某一个包中用es方式引入md5模块&#xff0c;导致打包报错&#xff0c;经过一番探究测试&#xff0c;发现我的项目中用了“vite-plugin-require-transform”这个插件&#xff0c;是这个插件在做转换的时候报错了&#xff0c;如果你也是这个原因可按我的方式…

代码随想录day24:贪心part2

121. 买卖股票的最佳时机 class Solution {public int maxProfit(int[] prices) {int ans 0;int minPrice prices[0];for(int p : prices){ans Math.max(ans, p - minPrice);minPrice Math.min(p, minPrice);}return ans;} } 运用前缀和思想&#xff0c; 从左到右枚举卖…

Spring Boot教学资源库:构建微服务的基石

2 相关技术简介 2.1Java技术 Java是一种非常常用的编程语言&#xff0c;在全球编程语言排行版上总是前三。在方兴未艾的计算机技术发展历程中&#xff0c;Java的身影无处不在&#xff0c;并且拥有旺盛的生命力。Java的跨平台能力十分强大&#xff0c;只需一次编译&#xff0c;任…

dart-sass和node-sass的区别,使用dart-sass后可能会出现的问题

前言&#xff1a; 2020 年 10 月 27 日&#xff0c;Sass 官方团队正式宣布 Libsass 将弃用&#xff0c;以及基于它的 Node Sass 和 SassC&#xff0c;并且建议用户使用 Dart Sass。如果在 vue 脚手架搭建的项目中需要使用 sass&#xff0c;建议初始化时勾选 sass 配置&#xff…

前端优化之路:git commit 校验拦截

但是想要做到高效落地执行&#xff0c;就需要做些别的功课&#xff0c;先展示下成果图 需要了解git hooks&#xff0c;它是git的钩子&#xff0c;就像vue拥有自己的钩子一样。 官方文档&#xff1a;https://git-scm.com/docs/githooks 项目安装 husky&#xff0c;建议稳定版本…

patch函数前两个参数位

如我们多了解的&#xff0c;patch函数前两个参数位为 oldVnode 和 Vnode &#xff0c;分别代表旧节点和新节点&#xff0c;主要做了四个判断&#xff1a; patchVnode主要做了两个判断&#xff1a;

java中Math类和Random类的api

目录 Math 类 1&#xff09;abs(x) 2&#xff09;ceil(x) 3&#xff09;floor(x) 4&#xff09;round(x) 5&#xff09;max(x, y) 6&#xff09;min(x, y) 7&#xff09;sqrt(x) 8&#xff09;pow(x, y) 9&#xff09;random() 10&#xff09;sin(x), cos(x), tan(x) 11&#x…