LLM - 理解 多模态大语言模型(MLLM) 的 幻觉(Hallucination) 与相关技术 (七)

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142463789

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


多模态大语言模型(MLLM) 系列:

  1. 理解 多模态大语言模型(MLLM) 的 发展(Timeline) 与相关技术 (一)
  2. 理解 多模态大语言模型(MLLM) 的 架构(Architecture) 与相关技术 (二)
  3. 理解 多模态大语言模型(MLLM) 的 预训练(Pre-training) 与相关技术 (三)
  4. 理解 多模态大语言模型(MLLM) 的 指令微调(Instruction-Tuning) 与相关技术 (四)
  5. 理解 多模态大语言模型(MLLM) 的 对齐微调(Alignment) 与相关技术 (五)
  6. 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)
  7. 理解 多模态大语言模型(MLLM) 的 幻觉(Hallucination) 与相关技术 (七)

多模态幻觉(Hallucination) 是多模态大语言模型的生成回复与图像内容不一致的现象。多模态幻觉包括 3 种类型,即:

  1. 存在幻觉(Existence Hallucination),最基本形式,模型错误地声称图像中存在一些对象。
  2. 属性幻觉(Attribute Hallucination),以错误的方式描述对象的属性,例如未能正确识别狗的颜色。通常与存在幻觉相关联,因为属性的描述是基于图像中存在的对象。
  3. 关系幻觉(Relationship Hallucination),更复杂的类型,也基于对象的存在,对象之间关系的错误描述,例如相对位置和互动。

Hallucination: Multimodal hallucination refers to the phenomenon of responses generated by MLLMs being inconsistent with the image content.

缓解多模态幻觉的方式:

  1. 预校正(Pre-correction),对于幻觉问题,直观且直接的解决方案是收集专门的数据,例如,负样本数据,使用这些数据进行微调,从而,得到具有较少幻觉反应的模型,参考 LRV。
  2. 过程校正(In-process-correction),在架构设计或特征表示上,进行改进,探索幻觉产生的原因,设计相应的补救措施,以在生成过程中减轻幻觉,参考 VCD & HACL。
  3. 后校正(Post-correction),以补救的方式减轻幻觉,在输出生成之后,再纠正幻觉,参考 Woodpecker & LURE。

参考论文:

  • LRV-Instruction - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning, ICLR-2024, Microsoft (预先矫正)
    • GitHub: https://github.com/FuxiaoLiu/LRV-Instruction.git
  • POPE - Evaluating Object Hallucination in Large Vision-Language Models
  • VCD - Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding, CVPR-2024, DAMO Alibaba, 2023.11, 过程矫正
  • HACL - Hallucination Augmented Contrastive Learning for Multimodal Large Language Model,CVPR-2024, Alibaba & Peking, 2024.2
  • LURE - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models, ICLR-2024, UNC-Chapel Hill 北卡罗来纳大学教堂山分校 (University of North Carolina at Chapel Hill)

1. 预矫正(Pre-correction) - LRV

LRV(Large-scale Robust Visual,大规模鲁棒视觉),引入视觉指令调整数据集,除了常见的正指令外,数据集还精心设计不同语义层面的负指令,以鼓励响应忠实于图像内容。数据集包含由 GPT4 生成的 40 万个视觉指令,涵盖 16 个具有 开放式(Open-Ended) 指令和答案的视觉与语言任务。

输入图片和人类指令,引入 GPT4 辅助视觉指令评估(GPT4-Assisted Visual Instruction Evaluation, GAVIE),评估当前大型多模态模型(LMM) 的输出,例如 MiniGPT4 和 mPLUG-Owl。蓝色表示 LMM 无法准确遵循人类指令,而红色表示存在幻觉问题。使用 LRV-指令数据集 进行微调之后,当前的 LMM 可以生成更加鲁棒的答案。即:

LRV

LRV-指令数据集:正向和负向样本的示例,红色表示负向指令中的不一致元素。即:

LRV

大语言模型的训练数据集对比,如下:

  • 困难的负向指令 (Hard Negative Instructions)
  • 自生成指令数量 (Self Generated Instruction)
  • 解决幻觉 (Address Hallucination)
  • 不包含模版指令 (NOT Template Instruction)
  • 视觉语言任务数量 (VL Tasks)

即:

LRV

在 POPE 数据集评估零样本目标幻觉,图像中不存在的对象,采用三种不同的策略进行采样。

  • 随机(Random Set):随机采样
  • 流行(Popular Set):MS-COCO 中出现频率最高的前 k 个对象
  • 对抗性(Adversarial Set):首先,根据共现频率将对象进行排名,然后,采样出现频率最高的前 k 个对象

Ours-7B 是使用 LRV-指令数据集 微调过的 mPLUG-Owl-7B 模型。

LRV

其中 POPE(Polling-based Object Probing Evaluation,
基于轮询的目标探测评估)
的评估流程:

  1. 输入图像,POPE 根据人类注释中提取图像中的真实对象,或者借助于类似 SEEM 这样的自动分割工具的帮助。
  2. POPE 在 随机(Random) / 流行(Popular) / 对抗性(Adversarial) 设置下,对于图像中不存在的对象进行负采样。
  3. 最后,将 真实(Ground-Truth) 对象和不存在(Non-Existent) 对象,组成问题模板,使用 LVLM 投票选择 Yes 获 No。

即:

POPE

2. 过程校正(In-process-correction) - VCD & HACL

VCD(Visual Contrastive Decoding,视觉对比解码):大型视觉语言模型(LVLM) 在视觉识别和语言理解方面,取得显著进步,能够生成既连贯又符合上下文的内容。LVLM 仍然存在对象幻觉问题,即模型生成的输出,看起来合理,但是包含图像中不存在的对象。为了解决这个问题,引入视觉对比解码(Visual Contrastive Decoding,简称 VCD) 的方法,简单且无需训练的方法,即通过比较 原始(original)扭曲(distorted) 之间视觉输入产生的输出分布,有效减少对于 统计偏差(statistical bias)单模态先验(unimodal priors) 的过度依赖,而这两种因素是对象幻觉的主要原因。这种调整确保生成的内容与视觉输入紧密相关,从而产生上下文准确的输出。实验表明,无需额外训练或使用外部工具,就能显著减轻不同 LVLM 家族中的对象幻觉问题。VCD不仅减轻了对象幻觉,还在一般 LVLM 基准测试中表现出色,突显了其广泛的适用性。图像加噪声的过程,使用高斯噪声(Gaussian Noise)。

VCD(视觉对比解码) 示例,幻觉对象 冲浪板(Surfboards),用红色标出,在生成过程中,通过与倾向于幻觉的输出分布进行对比,将其消除,即:

VCD

其中,视觉不确定性(Visual Uncertainty) 放大 语言先验(Language Priors) 的示例。输入图片,包括一串黑色的香蕉,和其他彩色的水果,随着视觉不确定性的增加,大型视觉语言模型(LVLM) 更倾向于更常见的香蕉颜色,例如黄色和绿色。真实颜色的 黑色在概率 l o g p ( y ∣ x , v ′ ) logp(y|x,v′) logp(yx,v) 中,随着扭曲的加剧而降低,这使得 LVLM 过度依赖于 大语言模型(LLM) 预训练中的语言先验,通常将香蕉与黄色或绿色联系起来,如图:

VCD

HACL(Hallucination Augmented Contrastive Learning, 幻觉增强的对比学习) 研究视觉和语言的嵌入空间,基于观察,设计了一种对比学习方案,将 成对跨模态(Paired Cross-Modal) 表征拉近,同时,推开非幻觉和幻觉文本表征。从表征学习的视角来解决 多模态大语言模型(MLLM) 中的幻觉问题。首先分析 MLLM 中文本和视觉标记的表征分布,揭示 2 个重要发现:

  1. 文本和视觉表征之间存在显著差距,表明跨模态表征对齐的 不满意(Unsatisfactory);
  2. 包含和不包含幻觉的文本表征,纠缠(Entangled) 在一起,这使得区分变得具有挑战性。

HACL 将对比学习引入到 多模态大语言模型(MLLM) 中,使用包含幻觉的文本作为困难负例(Hard Negative Examples),自然地将非幻觉文本和视觉样本的表征拉近,同时推开非幻觉和幻觉文本的表征。

图(a) 和 图(b) 显示 大语言模型(LLM) 为视觉或文本标记序列产生的最后一个标记的表征分布。蓝色图标代表图像,绿色图标代表真实描述,红色代表由 GPT-4 生成的幻觉描述。HACL,即幻觉增强对比学习。在 图(a) 中,文本和视觉表征存在跨模态语义差距,而非幻觉和幻觉文本表征混合在一起。这一现象通过 HACL 得到缓解,如 图(b) 所示。子图© 显示幻觉评估基准 MMhal-Bench 的经验结果以及模型性能评估指标 MME。即:

HACL

图(a) 展示 HACL 框架,使用 GPT-4 来生成幻觉描述,作为图像到文本对比学习中的困难负例,图(b) 展示 HACL 的训练范式(Paradigm),即:

HACL

3. 后校正(Post-correction) - LURE

LURE(LVLM hallUcination REvisor, LVLM 幻觉修订)

  • 橙色阴影部分显示 LURE 的训练范式,其中黑色边框部分代表幻觉数据生成阶段,包括引入 共现对象(Co-Occurring Objects) 以及替换描述中不确定的对象或后面位置的对象。
  • 紫色边框部分表面 修订者(Revisor) 训练过程,其中 Masking 过程,橙色阴影部分展示 LURE 推理阶段的一个示例。

即:

LURE

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148059.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Perfetto-Android开发分析神器(性能、内存、线程调度)

一、Perfetto内存分析 1.1Prefetto内存分析优势 Prefetto相比其他的sysmem、sysinfo或者追踪堆栈的方式进行内存相关问题的追踪具有更强的可视化以及调用层级更加详细的优势,很多时候能精确到某一个结构体,更加便于在内存泄漏环境下的问题定位。 1.1.1…

数据驱动农业——农业中的大数据

橙蜂智能公司致力于提供先进的人工智能和物联网解决方案,帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。 橙蜂智农的智慧农业产品涵盖了多方面的功能&…

美信监控易的优势:长期稳定运行

美信监控易作为一款运维产品,其显著的优势在于能够长期稳定运行。在IT运维领域,系统的稳定性是至关重要的,它直接关系到企业的业务连续性和客户满意度。美信监控易通过其自研的数据库和先进的监测技术,确保了系统的高可用性&#…

Mysql高级篇(中)——事务篇

事务篇 一、数据库事务概述(1)概念(2)事务的处理原则(3)事务的特性(ACID)(4)事务的创建 二、如何使用事务三、事务隔离级别(1)分类(2)…

每日一练:二叉树的中序遍历

94. 二叉树的中序遍历 - 力扣(LeetCode) 一、题目要求 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[1,3,2]示例 2: 输入:root …

探索Allure Report:提升自动化测试效率的秘密武器

一.使用 Allure2 运行方式-Python # --alluredir 参数生成测试报告。 # 在测试执行期间收集结果 pytest [测试用例/模块/包] --alluredir./result/ (—alluredir这个选项 用于指定存储测试结果的路径) # 生成在线的测试报告 allure serve ./result 二.使用 Allure2 运行…

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-15

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-15 1. Towards the holistic design of alloys with large language models Z Pei, J Yin, J Neugebauer, A Jain - Nature Reviews Materials, 2024 利用大型语言模型实现合金的全面设计 摘要 文章讨论了大型…

基于单片机的自行车智能辅助系统设计

文章目录 前言资料获取设计介绍功能介绍设计程序具体实现截图目 录设计获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 …

构建数据分析模型,及时回传各系统监控监测数据进行分析反馈响应的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。增…

[论文精读]Towards Deeper Graph Neural Networks

论文网址:Towards Deeper Graph Neural Networks | Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining 英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和…

在云渲染中3D工程文件安全性怎么样?

在云渲染中,3D工程文件的安全性是用户最关心的问题之一。随着企业对数据保护意识的增强,云渲染平台采取了严格的安全措施和加密技术,以确保用户数据的安全性和隐私性。 云渲染平台为了保障用户数据的安全,采取了多层次的安全措施。…

ROS机器人书的一些思考

思考 写一本书不难,写一本有价值的书很难,在语言大模型如此发展的今天写一本有价值的书,难上加难。 如何能让学生或读者发自内心的渴望打开一本书,尤其是在这个数字媒体技术如此发达的时代。 这个问题从一开始从事相关工作到如…

解决shop-vite项目打包被限制问题

本人网上找了一个好看的项目 shio-vite 项目源码 ,并通过其他方式获取到源码,但是打包出现了以下问题。 问题图片一: 问题图片二: 问题图片三: 需要code和解决方式私可以留言哈

如何使用gewechat开发微信机器人

随着人工智能和自动化技术的快速发展,微信机器人已经成为越来越多人的选择。它们可以帮助我们自动回复消息、管理群组、发送定时消息等,极大地提高了我们的工作效率。而GeWe框架,作为一款开源的微信机器人框架,为开发者提供了便捷…

基于SpringBoot+Vue的垃圾分类回收管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

ChatGPT 推出“Auto”自动模式:智能匹配你的需求

OpenAI 最近为 ChatGPT 带来了一项新功能——“Auto”自动模式,这一更新让所有用户无论使用哪种设备都能享受到更加个性化的体验。简单来说,当你选择 Auto 模式后,ChatGPT 会根据你输入的提示词复杂程度,自动为你挑选最适合的AI模…

【WRF运行第三期】服务器上运行WRF模型(官网案例-Hurricane Matthew)

【WRF运行第三期】运行WRF模型(官网案例-Hurricane Matthew) 官网案例-Hurricane Matthew介绍0 创建DATA文件夹1 WPS预处理1.1 解压GRIB数据(ungrib.exe)1.1.1 解压GRIB数据---GFS(Matthew案例研究数据)1.1…

Gartner:中国企业利用GenAI提高生产力的三大策略

作者:Gartner高级首席分析师 雷丝、Gartner 研究总监 闫斌、Gartner高级研究总监 张桐 随着生成式人工智能(GenAI)风靡全球,大多数企业都希望利用人工智能(AI)技术进行创新,以收获更多的业务成果…

“AI+Security”系列第3期(二):AI赋能自动化渗透测试

近日,“AI Security” 系列第 3 期:AI 安全智能体,重塑安全团队工作范式技术沙龙活动正式举行。该活动由安全极客、Wisemodel 社区、InForSec 网络安全研究国际学术论坛和海升集团联合主办,吸引了线上与线下千余名观众参与。 在…

LLM大语言模型算法特训,带你转型AI大语言模型算法工程师

LLM(大语言模型)是指大型的语言模型,如GPT(Generative Pre-trained Transformer)系列模型。以下是《LLM大语言模型算法特训,带你转型AI大语言模型算法工程师》课程可能包含的内容: 1.深入理解大…