LLM - 理解多模态大语言模型(MLLM) 的幻觉(Hallucination) 与相关技术 (七)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/142463789

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

多模态大语言模型(MLLM) 系列：

理解多模态大语言模型(MLLM) 的发展(Timeline) 与相关技术 (一)
理解多模态大语言模型(MLLM) 的架构(Architecture) 与相关技术 (二)
理解多模态大语言模型(MLLM) 的预训练(Pre-training) 与相关技术 (三)
理解多模态大语言模型(MLLM) 的指令微调(Instruction-Tuning) 与相关技术 (四)
理解多模态大语言模型(MLLM) 的对齐微调(Alignment) 与相关技术 (五)
理解多模态大语言模型(MLLM) 的评估(Evaluation) 与相关技术 (六)
理解多模态大语言模型(MLLM) 的幻觉(Hallucination) 与相关技术 (七)

多模态幻觉(Hallucination) 是多模态大语言模型的生成回复与图像内容不一致的现象。多模态幻觉包括 3 种类型，即：

存在幻觉(Existence Hallucination)，最基本形式，模型错误地声称图像中存在一些对象。
属性幻觉(Attribute Hallucination)，以错误的方式描述对象的属性，例如未能正确识别狗的颜色。通常与存在幻觉相关联，因为属性的描述是基于图像中存在的对象。
关系幻觉(Relationship Hallucination)，更复杂的类型，也基于对象的存在，对象之间关系的错误描述，例如相对位置和互动。

Hallucination: Multimodal hallucination refers to the phenomenon of responses generated by MLLMs being inconsistent with the image content.

缓解多模态幻觉的方式：

预校正(Pre-correction)，对于幻觉问题，直观且直接的解决方案是收集专门的数据，例如，负样本数据，使用这些数据进行微调，从而，得到具有较少幻觉反应的模型，参考 LRV。
过程校正(In-process-correction)，在架构设计或特征表示上，进行改进，探索幻觉产生的原因，设计相应的补救措施，以在生成过程中减轻幻觉，参考 VCD & HACL。
后校正(Post-correction)，以补救的方式减轻幻觉，在输出生成之后，再纠正幻觉，参考 Woodpecker & LURE。

参考论文：

LRV-Instruction - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning, ICLR-2024, Microsoft (预先矫正)
- GitHub: https://github.com/FuxiaoLiu/LRV-Instruction.git
POPE - Evaluating Object Hallucination in Large Vision-Language Models
VCD - Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding, CVPR-2024, DAMO Alibaba, 2023.11, 过程矫正
HACL - Hallucination Augmented Contrastive Learning for Multimodal Large Language Model，CVPR-2024, Alibaba & Peking, 2024.2
LURE - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models, ICLR-2024, UNC-Chapel Hill 北卡罗来纳大学教堂山分校 (University of North Carolina at Chapel Hill)

1. 预矫正(Pre-correction) - LRV

LRV(Large-scale Robust Visual，大规模鲁棒视觉)，引入视觉指令调整数据集，除了常见的正指令外，数据集还精心设计不同语义层面的负指令，以鼓励响应忠实于图像内容。数据集包含由 GPT4 生成的 40 万个视觉指令，涵盖 16 个具有开放式(Open-Ended) 指令和答案的视觉与语言任务。

输入图片和人类指令，引入 GPT4 辅助视觉指令评估(GPT4-Assisted Visual Instruction Evaluation, GAVIE)，评估当前大型多模态模型(LMM) 的输出，例如 MiniGPT4 和 mPLUG-Owl。蓝色表示 LMM 无法准确遵循人类指令，而红色表示存在幻觉问题。使用 LRV-指令数据集进行微调之后，当前的 LMM 可以生成更加鲁棒的答案。即：

LRV

LRV-指令数据集：正向和负向样本的示例，红色表示负向指令中的不一致元素。即：

LRV

大语言模型的训练数据集对比，如下：

困难的负向指令 (Hard Negative Instructions)
自生成指令数量 (Self Generated Instruction)
解决幻觉 (Address Hallucination)
不包含模版指令 (NOT Template Instruction)
视觉语言任务数量 (VL Tasks)

即：

LRV

在 POPE 数据集评估零样本目标幻觉，图像中不存在的对象，采用三种不同的策略进行采样。

随机(Random Set)：随机采样
流行(Popular Set)：MS-COCO 中出现频率最高的前 k 个对象
对抗性(Adversarial Set)：首先，根据共现频率将对象进行排名，然后，采样出现频率最高的前 k 个对象

Ours-7B 是使用 LRV-指令数据集微调过的 mPLUG-Owl-7B 模型。

LRV

其中 POPE(Polling-based Object Probing Evaluation,
基于轮询的目标探测评估) 的评估流程：

输入图像，POPE 根据人类注释中提取图像中的真实对象，或者借助于类似 SEEM 这样的自动分割工具的帮助。
POPE 在随机(Random) / 流行(Popular) / 对抗性(Adversarial) 设置下，对于图像中不存在的对象进行负采样。
最后，将真实(Ground-Truth) 对象和不存在(Non-Existent) 对象，组成问题模板，使用 LVLM 投票选择 Yes 获 No。

即：

POPE

2. 过程校正(In-process-correction) - VCD & HACL

VCD(Visual Contrastive Decoding，视觉对比解码)：大型视觉语言模型(LVLM) 在视觉识别和语言理解方面，取得显著进步，能够生成既连贯又符合上下文的内容。LVLM 仍然存在对象幻觉问题，即模型生成的输出，看起来合理，但是包含图像中不存在的对象。为了解决这个问题，引入视觉对比解码(Visual Contrastive Decoding，简称 VCD) 的方法，简单且无需训练的方法，即通过比较 原始(original) 和 扭曲(distorted) 之间视觉输入产生的输出分布，有效减少对于 统计偏差(statistical bias) 和 单模态先验(unimodal priors) 的过度依赖，而这两种因素是对象幻觉的主要原因。这种调整确保生成的内容与视觉输入紧密相关，从而产生上下文准确的输出。实验表明，无需额外训练或使用外部工具，就能显著减轻不同 LVLM 家族中的对象幻觉问题。VCD不仅减轻了对象幻觉，还在一般 LVLM 基准测试中表现出色，突显了其广泛的适用性。图像加噪声的过程，使用高斯噪声(Gaussian Noise)。

VCD(视觉对比解码) 示例，幻觉对象 冲浪板(Surfboards)，用红色标出，在生成过程中，通过与倾向于幻觉的输出分布进行对比，将其消除，即：

VCD

其中，视觉不确定性(Visual Uncertainty) 放大 语言先验(Language Priors) 的示例。输入图片，包括一串黑色的香蕉，和其他彩色的水果，随着视觉不确定性的增加，大型视觉语言模型(LVLM) 更倾向于更常见的香蕉颜色，例如黄色和绿色。真实颜色的黑色在概率 $l o g p (y ∣ x, v')$ 中，随着扭曲的加剧而降低，这使得 LVLM 过度依赖于大语言模型(LLM) 预训练中的语言先验，通常将香蕉与黄色或绿色联系起来，如图：

VCD

HACL(Hallucination Augmented Contrastive Learning, 幻觉增强的对比学习) 研究视觉和语言的嵌入空间，基于观察，设计了一种对比学习方案，将 成对跨模态(Paired Cross-Modal) 表征拉近，同时，推开非幻觉和幻觉文本表征。从表征学习的视角来解决多模态大语言模型(MLLM) 中的幻觉问题。首先分析 MLLM 中文本和视觉标记的表征分布，揭示 2 个重要发现：

文本和视觉表征之间存在显著差距，表明跨模态表征对齐的不满意(Unsatisfactory)；
包含和不包含幻觉的文本表征，纠缠(Entangled) 在一起，这使得区分变得具有挑战性。

HACL 将对比学习引入到多模态大语言模型(MLLM) 中，使用包含幻觉的文本作为困难负例(Hard Negative Examples)，自然地将非幻觉文本和视觉样本的表征拉近，同时推开非幻觉和幻觉文本的表征。

图(a) 和图(b) 显示大语言模型(LLM) 为视觉或文本标记序列产生的最后一个标记的表征分布。蓝色图标代表图像，绿色图标代表真实描述，红色代表由 GPT-4 生成的幻觉描述。HACL，即幻觉增强对比学习。在图(a) 中，文本和视觉表征存在跨模态语义差距，而非幻觉和幻觉文本表征混合在一起。这一现象通过 HACL 得到缓解，如图(b) 所示。子图© 显示幻觉评估基准 MMhal-Bench 的经验结果以及模型性能评估指标 MME。即：

HACL

图(a) 展示 HACL 框架，使用 GPT-4 来生成幻觉描述，作为图像到文本对比学习中的困难负例，图(b) 展示 HACL 的训练范式(Paradigm)，即：

HACL

3. 后校正(Post-correction) - LURE

LURE(LVLM hallUcination REvisor, LVLM 幻觉修订)：

橙色阴影部分显示 LURE 的训练范式，其中黑色边框部分代表幻觉数据生成阶段，包括引入共现对象(Co-Occurring Objects) 以及替换描述中不确定的对象或后面位置的对象。
紫色边框部分表面修订者(Revisor) 训练过程，其中 Masking 过程，橙色阴影部分展示 LURE 推理阶段的一个示例。

即：

LURE