RAG如何提升视觉问答？剑桥大学博士论文《使用检索方法增强多模态问答系统》

开发能够处理复杂任务的人工智能系统的需求推动了深度学习的快速发展，尤其是自 2016 年以来，神经网络模型已成为主流方法。这些模型的应用范围广泛，从推荐系统到语音识别，彻底变革了多个领域。然而，仍然存在一些挑战，特别是在融合大量特定领域知识和减少大语言模型固有的生成幻觉方面。

本论文探索了将检索增强生成（RAG）集成到多模态问答（QA）系统中的方法，以应对这些挑战。通过利用外部知识源，RAG 提高了模型的准确性并增强了对特定领域信息的访问能力。研究按以下顺序展开：

首先，为了高效利用外部知识回答知识密集型的视觉问题，我们提出了 RA-VQA（检索增强视觉问答）框架，该框架专为知识驱动的视觉问答（KB-VQA）设计。我们展示了检索器和生成器模型联合训练在最大化性能方面的效果。

其次，FVQA（基于事实的视觉问答）2.0 引入了半自动标注的对抗样本，以解决数据分布不均衡问题并增强系统的鲁棒性，展示了在处理复杂场景方面的显著改进。

第三，开发了 FLMR（细粒度后交互多模态检索器）及其扩展版本 PreFLMR（预训练 FLMR），突显了后交互模型在实现卓越多模态检索性能方面的重要性。我们证明了所提出的模型能够捕捉查询与上下文之间的细粒度交互，在广泛的多模态检索任务中实现了高效和准确的检索。

随后，研究重点转向 TableQA 中的检索方法，引入了 ITR（内表检索器）用于封闭域场景，并提出了 LI-RAGE（带显式信号的后交互检索增强生成）用于开放域 TableQA 任务。两种框架在现有方法上表现出显著的性能提升。我们展示了在 TableQA 中整合检索方法显著推动了研究边界，提供了最先进的问答性能。

通过细致的实验和创新，本论文不仅在多模态检索增强系统的理论理解上取得了进展，还提供了实用的框架和数据集，以应对不同领域问答中的关键挑战。在迈向有效 AI 系统的过程中，这些贡献为信息检索和多模态问答的未来发展奠定了坚实基础。

创造能够处理复杂任务的人工智能（AI）一直是人工智能研究领域的目标。自 2016 年以来，深度学习已成为人工智能中的一种重要方法，其中通过构建和训练神经网络模型，使其逐渐成为开发人工智能的主流方法 [139]。近年来，这些神经网络模型也在各种实际场景中得到了广泛应用，包括推荐系统、对话代理、语音识别、情感分析和人机交互。人工智能模型因其在自动分析、逻辑推理和内容生成等复杂任务中的潜力而备受重视。

2021 年，GPT-3（Generative Pre-trained Transformer 3）[23] 的发布以及一系列开源大型语言模型，证实了在数据驱动方法下扩展模型参数和训练数据的有效性，正式开启了以大模型为核心的研究浪潮。大型语言模型的出现标志着人工智能领域的新里程碑，并引起了人们对数据驱动方法的关注。这些在海量数据上训练的模型在各种语言任务中表现出色，从简单的语言理解到复杂的文本生成，展现出前所未有的能力。

多模态是指整合来自不同来源的异构数据，通常包括语言、视觉和音频信息，广义上还延伸到图数据和表格（结构化）数据。自 2021 年以来，多模态任务的研究日益突出，特别是自然语言处理和计算机视觉领域的逐步融合。因此，学术界和工业界正在投入更多资源研究多模态大型模型。以 GPT-4 [232] 为代表的一系列多模态大型模型（如 LLaVA [198] 和 MiniGPT-4 [388]）的出现，意味着大型模型正逐渐获得强大的视觉-语言理解和推理能力，有望应用于处理更复杂的多模态任务。例如，强大的视觉-语言理解能力在医疗保健 [220, 329, 371]、教育 [18, 154] 和推荐系统 [203, 351] 等应用中至关重要，在这些领域中，对视觉和文本信息的准确解释和整合可以显著提升性能和结果。

然而，各种研究 [219, 44] 表明，尽管大型模型可以基于自身知识处理各种复杂任务，但其能够存储和熟练应用的知识是有限的，特别是在复杂和特定领域的知识方面。当前的大型模型存在生成幻觉 [118, 196] 的问题，在回答问题时经常生成错误或模棱两可的内容，并且在需要专业知识或世界知识的场景中表现不佳。本章开头引用的苏格拉底名言：“真正的智慧在于知道自己一无所知”，完美地适用于我们对优秀 AI 系统的期望。只有当 AI 系统认识到自身的局限性，并且在缺乏相关信息时能够利用外部资源获取知识时，它才真正具备“真正的智慧”。

在此背景下，在深度学习系统早期提出的检索增强生成（Retrieval-Augmented Generation，RAG）再次受到关注。RAG 是一种将信息检索系统整合到大型模型生成过程中的流程。它利用检索系统从知识库中提取必要的知识，并将这些信息提供给模型，从而使其能够基于外部检索的数据进行推理或回答问题。RAG 可以通过以下方式为大型模型的生成带来显著优势：

通过明确呈现模型所需的知识，减少大型模型的幻觉，提供更准确的答案（例如，股票代码和产品信息）。
使模型能够访问更广泛的行业特定和世界知识。为模型配备特定领域的知识库，使其能够处理专业任务。
增强模型的时效性。虽然模型的训练和参数更新通常需要较长时间（甚至数月或数年），但信息更新的速度要快得多。模型从持续更新的数据库中提取最新信息进行问答，可以显著提高其相关性。

然而，在本文研究的初始阶段（2021 年 10 月），多模态大型模型和多模态 RAG 系统的研究仍存在一些不足。知识密集型任务的多模态系统通常存在以下问题：

模型结构复杂，参数规模庞大，但在需要知识的多模态任务上表现不佳。
所使用的多模态信息检索系统性能较弱，召回率（评估检索性能的指标）较低。
信息检索组件与检索增强生成模型之间的整合不佳，即使检索性能良好，回答性能也不理想。

在下一节中，我们将提出本研究旨在解决的关键研究问题，以克服现有多模态 RAG 系统的局限性。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望