哈工大华为出品|大模型「幻觉」,看这一篇就够了

大模型“幻觉”,终于有系统综述了!

一口气49页,详细阐述了幻觉定义、分类、导致幻觉的原因,还有检测幻觉、减轻幻觉的方法。

这篇最新综述来自哈工大和华为,一po出就在网上火得不行:

img

具体来说,文中用一套新的范畴框架来定义模型幻觉,并将其分为事实性幻觉忠实性幻觉两大类。

此外,它还总结了模型产生幻觉的三大来源:数据源训练过程推理,并给出了对应的减轻幻觉策略。

一图预览,观感是这样婶儿的:

img

可谓清晰又明了。目前相关推文浏览15万+,转赞收藏2000+,网友纷纷评论:

找时间好好看。

img

还有一位网友的评论亮了:

有意思的是,论文太长,我得用ChatGPT帮我读。

img

幻觉作为大模型的一种“通病”,找到了病根,也好对症下药。

北大数学教授董彬也曾讲,作为研究者,自己其实是比较喜欢大模型幻觉的:

因为幻觉和创造/创新其实只有一线之隔。

那么这篇综述具体如何解剖大模型幻觉现象?一起来看看。

大模型的幻觉“病理”

大模型出现幻觉,简而言之就是“胡说八道”。

用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。

正如上文提到的,研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。

img

△左,事实性幻觉;右,忠实性幻觉

事实性幻觉,是指模型生成的内容与可验证的现实世界事实不一致。

比如问模型“第一个在月球上行走的人是谁?”,模型回复“Charles Lindbergh在1951年月球先驱任务中第一个登上月球”。实际上,第一个登上月球的人是Neil Armstrong。

事实性幻觉又可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。

忠实性幻觉,则是指模型生成的内容与用户的指令或上下文不一致。

比如让模型总结今年10月的新闻,结果模型却在说2006年10月的事。

忠实性幻觉也可以细分,分为指令不一致(输出偏离用户指令)、上下文不一致(输出与上下文信息不符)、逻辑不一致三类(推理步骤以及与最终答案之间的不一致)。

那么致使大模型产生幻觉的原因都有哪些?

首先“病从口入”,大模型的粮食数据,是致使它产生幻觉的一大原因。

这其中就包括数据缺陷、数据中捕获的事实知识的利用率较低。

具体来说,数据缺陷分为错误信息和偏见(重复偏见、社会偏见),此外大模型也有知识边界,所以存在领域知识缺陷和过时的事实知识。

即便大模型吃掉了大量数据,也会在利用时出现问题。

大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。比如说,如果训练数据中频繁共现“加拿大”和“多伦多”,那么大模型可能会错误地将多伦多识别为加拿大的首都。

此外,大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

img

除了数据,训练过程也会使大模型产生幻觉。

主要是预训练阶段(大模型学习通用表示并获取世界知识)、对齐阶段(微调大模型使其更好地与人类偏好一致)两个阶段产生问题。

预训练阶段可能会存在:

架构缺陷。基于前一个token预测下一个token,这种单向建模阻碍了模型捕获复杂的上下文关系的能力;自注意力模块存在缺陷,随着token长度增加,不同位置的注意力被稀释。曝露偏差。训练策略也有缺陷,模型推理时依赖于自己生成的token进行后续预测,模型生成的错误token会在整个后续token中产生级联错误。对齐阶段可能会存在:

能力错位。大模型内在能力与标注数据中描述的功能之间可能存在错位。当对齐数据需求超出这些预定义的能力边界时,大模型会被训练来生成超出其自身知识边界的内容,从而放大幻觉的风险。信念错位。基于RLHF等的微调,使大模型的输出更符合人类偏好,但有时模型会倾向于迎合人类偏好,从而牺牲信息真实性。大模型产生幻觉的第三个关键因素是推理,存在两个问题:

固有的抽样随机性:在生成内容时根据概率随机生成。不完美的解码表示:上下文关注不足(过度关注相邻文本而忽视了源上下文)和softmax瓶颈(输出概率分布的表达能力受限)。检测大模型病症

分析了大模型的幻觉病因,研究人员还给出了一份模型幻觉检测基准。

针对事实性幻觉,已有检索外部事实和不确定性估计两种方法。

检索外部事实是将模型生成的内容与可靠的知识来源进行比较。

img

基于不确定性估计的幻觉检测方法,可以分为两类:基于内部状态的方法和基于行为的方法。

基于内部状态的方法主要依赖于访问大模型的内部状态。例如,通过考虑关键概念的最小标记概率来确定模型的不确定性。

基于行为的方法则主要依赖于观察大模型的行为,不需要访问其内部状态。例如,通过采样多个响应并评估事实陈述的一致性来检测幻觉。

img

检测忠实性幻觉的方法,研究人员用一张图概括了五种不同的方法:

基于事实的度量,测量生成内容和源内容之间事实的重叠程度来评估忠实性。分类器度量:使用训练过的分类器来区分模型生成的忠实内容和幻觉内容。问答度量:使用问答系统来验证源内容和生成内容之间的信息一致性。不确定度估计:测量模型对其生成输出的置信度来评估忠实性。提示度量:让大模型作为评估者,通过特定的提示策略来评估生成内容的忠实性。

img

了解了如何度量幻觉后,就是减轻幻觉的方法了。

对症下药减轻幻觉

研究人员根据致幻原因,详细总结了现有减轻幻觉现象的研究。

1、数据相关的幻觉。

减少错误信息和偏见,最直观的方法是收集高质量的事实数据,并进行数据清理以消除偏见。

对于知识边界的问题,有两种流行方法。一种是知识编辑,直接编辑模型参数弥合知识差距。另一种通过检索增强生成(RAG)利用非参数知识源。

检索增强具体分为三种类型:一次性检索、迭代检索和事后检索。

img

一次性检索是将从单次检索中获得的外部知识直接预置到大模型的提示中;迭代检索允许在整个生成过程中不断收集知识;事后检索是基于检索的修订来完善大模型输出。

2、训练相关的幻觉。

根据致幻原因,可以完善有缺陷的模型架构,目前已有许多相关研究。

img

从模型预训练阶段来讲,最新进展试图通过完善预训练策略、确保更丰富的上下文理解和规避偏见来应对这一问题。

比如针对模型对文档式的非结构化事实知识理解碎片化、不关联,有研究在文档的每个句子后附加一个TOPICPREFIX,将它们转换为独立的事实,从而增强模型对事实关联的理解。

此外,还可以通过改进人类偏好判断、激活引导,减轻对齐错位问题。

3、推理相关的幻觉。

不完美的解码通常会导致模型输出偏离原始上下文。

研究人员探讨了两种高级策略,一种是事实增强解码,另一种是译后编辑解码。

此外,忠实度增强解码优先考虑与用户说明或提供的上下文保持一致,并强调增强生成内容的一致性。现有工作可以总结为两类,包括上下文一致性和逻辑一致性。

有关上下文一致性的最新研究之一是上下文感知解码(CAD),通过减少对先验知识的依赖来修改输出分布,从而促进模型对上下文信息的关注。

有关逻辑一致性的最新一项研究包括知识蒸馏框架,用来增强思维链提示中固有的自洽性。

img

论文链接:https://arxiv.org/abs/2311.05232

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/16055.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

STM32 BootLoader 刷新项目 (十) Flash擦除-命令0x56

STM32 BootLoader 刷新项目 (十) Flash擦除-命令0x56 1. STM32F407 BootLoader 中的 Flash 擦除功能详解 在嵌入式系统中,BootLoader 的设计是非常关键的部分,它负责引导主程序的启动、升级以及安全管理。而在 STM32F407 等 MCU 上实现 BootLoader&…

J.U.C - 深入解读重入锁和读写锁

文章目录 概述synchronized的缺陷1)synchronized不能控制阻塞,不能灵活控制锁的释放。2)在读多写少的场景中,效率低下。 独占锁ReentrantLock原理ReentrantLock概述AQS同步队列1. AQS实现原理2. 线程被唤醒时,AQS队列的…

异地双活容灾技术研究

摘要 随着技术快速发展,尤其是人工智能、大数据等新兴技术的应用,对数据安全提出了新的挑战,平台部署在机房云资源池,当云平台因人为错误原因出现基础设施故障,或自然灾害使得云平台的机房出现停电、断网等故障&#x…

从Facebook到Meta:公司转型背后的战略与意义

2021年,Facebook宣布更名为Meta,转型聚焦于“元宇宙”——这一虚拟世界的构建标志着公司从传统社交平台向更前沿的科技领域迈进。本文将探讨这一转型的背景、战略布局及其深远意义。 一、转型背景:应对市场和技术的挑战 自2004年成立以来&am…

前端在PC端实现支付思路流程

一.去支付 1.前端点击“去支付”按钮,请求订单详情接口,传递订单的id、订单号给后端和请求支付方式接口 2.后端返回支付信息和支付方式数据 二.弹出支付窗口 接收支付信息和支付方式数据后,前端弹出支付弹窗 三.确认支付 前端无论选择任何…

STM32 51单片机设计半导体制冷片温控设计

目录 前言 一、本设计主要实现哪些很“开门”功能? 二、电路设计原理图 1.电路图采用Altium Designer进行设计: 三、实物设计图 四、程序源代码设计 五、获取资料内容 前言 基于STM32与51单片机的半导体制冷片温控设计 前言 随着现代工业、医疗…

开源大模型技术路线及趋势

1. 三个维度 大模型研发力量 学术机构 大模型创业公司 科技大厂 旗舰开源模型的形态/模态 基础大模型 -> instruct大模型 -> 多模态(VL大模型 -> 类gpt-4o大模型) 时间线 23年上半年 23年下半年 24年 25年 2. 核心观察 学术机构及…

Vue学习笔记

Vue学习笔记 以下内容为黑马SpringbootVue3中的Vue3教程部分 Vue概述 什么是Vue? Vue 是一款用于构建用户界面的渐进式的JavaScript框架。(官方:https://cn.vuejs.org/) 快速入门 准备 准备html页面,并引入Vue模块(官…

Java 使用MyBatis-Plus数据操作关键字冲突报错You have an error in your SQL syntax问题

问题 这个报错是出现在Java Spring boot项目中,使用MyBatis-Plus通过创建的实体类对数据库的操作过程中,通过实体创建数据库表是没有问题的,而在接口调用服务类操作数据库的时候,会出现报错。报错详情如下: 服务请求异…

Chrome DevTools Protocol 进阶: Page域

前言 本章开始我们将进一步学习 Chrome DevTools Protocol(CDP),首先切入的内容是 CDP 中的域。 在 Chrome DevTools Protocol(CDP) 中,Page 域 是一个至关重要的部分,它负责控制浏览器页面的…

电动采光排烟大窗施工常见问题

电动采光排烟天窗施工常见问题可能涉及多个方面,包括施工前的准备、施工过程中的操作以及施工后的维护等。以下是对这些常见问题的归纳和分析。 一、施工前的准备问题 1、现场勘查不足,可能导致天窗尺寸、形状和材质不符合建筑设计要求; 2…

关于VUE NPM安装失败的问题

最近使用 npm install --registryhttps://registry.npmmirror.com 安装一个新项目的依赖,各种失败。 最后发现是package-lock里面有老的淘宝的域名,整体替换掉就行了

51单片机应用开发---LCD1602显示应用

实现目标 1、了解LCD1602液晶屏; 2、掌握驱动程序的编写; 3. 具体目标:在屏幕上显示字符。 一、LCD1206概述 1.1 定义 LCD1602(Liquid Crystal Display)液晶显示屏是一种字符型液晶显示模块,可以显示ASCII码的标准字符和其它的一些内置…

解决Clion相对路径失效的问题

Clion相对路径失效的可能原因 工作目录不对相对路径错误 解决方法 设置工作目录 点击 工作文件 将工作路径置空 (或设置正确的工作路径) 之后便可完美解决 设置全局路径 这样即可解决 希望能帮助到你

香港电讯连续蝉联香港01「大湾区企业同创大奖」

香港电讯非常荣幸地连续第四年荣获「香港01大湾区企业同创大奖」殊荣,以表扬我们在大湾区业务所取得的卓越成绩,以及我们积极促进区内跨境业务方面的贡献。 面对企业拓展业务的迫切需求,香港电讯提供全面的跨境数码方案,包括SD-WA…

Vue3.js - 一文看懂Vuex

1. 前言 Vuex 是 Vue.js 的官方状态管理库,用于在 Vue 应用中管理组件之间共享的状态。Vuex 适用于中大型应用,它将组件的共享状态集中管理,可以避免组件间传递 props 或事件的复杂性。 2. 核心概念 我们可以将Vuex想象为一个大型的Vue&…

PdServer:调用MidjourneyAPI完成静夜思图文生成

欢迎沟通讨论,WX: cdszsz。公号:AIGC中文站。 今天我们将使用PdServer,通过Qwen大模型完成古诗的解析与prompt的生成,然后调用MidjourneyAPI完成图片的生成。有了文案和图片,我们就可以将其生成为一个古诗讲读视频。从…

融合创新:CNN+LSTM在深度学习中的高效应用,助力科研发表高影响因子文章!

2024深度学习发论文&模型涨点之——CNNLSTM 结合CNN(卷积神经网络)和LSTM(长短期记忆网络)是一种常见的深度学习模型组合,广泛应用于各种任务,特别是时间序列预测和序列数据处理。 CNNLSTM是一种深度学…

20241114在飞凌的OK3588-C的核心板上跑Linux R4时通过iperf3测试以太网卡的实际网速

20241114在飞凌的OK3588-C的核心板上跑Linux R4时通过iperf3测试以太网卡的实际网速 2024/11/14 21:09 《OK3588-C_Linux5.10.66Qt5.15.2_用户使用手册_V1.2_20240321.pdf》 飞凌文档上的配置有点不一样,需要修正: 3.2.15 以太网配置 OK3588-C板载两个千…

鸿蒙开发,Arkts 如何调用接口

面向万物互联时代,华为提出了“一次开发多端部署、可分可合自由流转、统一生态原生智能”三大应用与服务开发理念。针对多设备、多入口、服务可分可合等特性,华为提供了多种能力协助开发者降低开发门槛。在此背景下,HarmonyOS基于JS/TS语言体…