RAG如何提升视觉问答?剑桥大学博士论文《使用检索方法增强多模态问答系统》

开发能够处理复杂任务的人工智能系统的需求推动了深度学习的快速发展,尤其是自 2016 年以来,神经网络模型已成为主流方法。这些模型的应用范围广泛,从推荐系统到语音识别,彻底变革了多个领域。然而,仍然存在一些挑战,特别是在融合大量特定领域知识和减少大语言模型固有的生成幻觉方面。

本论文探索了将检索增强生成(RAG)集成到多模态问答(QA)系统中的方法,以应对这些挑战。通过利用外部知识源,RAG 提高了模型的准确性并增强了对特定领域信息的访问能力。研究按以下顺序展开:

首先,为了高效利用外部知识回答知识密集型的视觉问题,我们提出了 RA-VQA(检索增强视觉问答)框架,该框架专为知识驱动的视觉问答(KB-VQA)设计。我们展示了检索器和生成器模型联合训练在最大化性能方面的效果。

其次,FVQA(基于事实的视觉问答)2.0 引入了半自动标注的对抗样本,以解决数据分布不均衡问题并增强系统的鲁棒性,展示了在处理复杂场景方面的显著改进。

第三,开发了 FLMR(细粒度后交互多模态检索器)及其扩展版本 PreFLMR(预训练 FLMR),突显了后交互模型在实现卓越多模态检索性能方面的重要性。我们证明了所提出的模型能够捕捉查询与上下文之间的细粒度交互,在广泛的多模态检索任务中实现了高效和准确的检索。

随后,研究重点转向 TableQA 中的检索方法,引入了 ITR(内表检索器)用于封闭域场景,并提出了 LI-RAGE(带显式信号的后交互检索增强生成)用于开放域 TableQA 任务。两种框架在现有方法上表现出显著的性能提升。我们展示了在 TableQA 中整合检索方法显著推动了研究边界,提供了最先进的问答性能。

通过细致的实验和创新,本论文不仅在多模态检索增强系统的理论理解上取得了进展,还提供了实用的框架和数据集,以应对不同领域问答中的关键挑战。在迈向有效 AI 系统的过程中,这些贡献为信息检索和多模态问答的未来发展奠定了坚实基础。

创造能够处理复杂任务的人工智能(AI)一直是人工智能研究领域的目标。自 2016 年以来,深度学习已成为人工智能中的一种重要方法,其中通过构建和训练神经网络模型,使其逐渐成为开发人工智能的主流方法 [139]。近年来,这些神经网络模型也在各种实际场景中得到了广泛应用,包括推荐系统、对话代理、语音识别、情感分析和人机交互。人工智能模型因其在自动分析、逻辑推理和内容生成等复杂任务中的潜力而备受重视。

2021 年,GPT-3(Generative Pre-trained Transformer 3)[23] 的发布以及一系列开源大型语言模型,证实了在数据驱动方法下扩展模型参数和训练数据的有效性,正式开启了以大模型为核心的研究浪潮。大型语言模型的出现标志着人工智能领域的新里程碑,并引起了人们对数据驱动方法的关注。这些在海量数据上训练的模型在各种语言任务中表现出色,从简单的语言理解到复杂的文本生成,展现出前所未有的能力。

多模态是指整合来自不同来源的异构数据,通常包括语言、视觉和音频信息,广义上还延伸到图数据和表格(结构化)数据。自 2021 年以来,多模态任务的研究日益突出,特别是自然语言处理和计算机视觉领域的逐步融合。因此,学术界和工业界正在投入更多资源研究多模态大型模型。以 GPT-4 [232] 为代表的一系列多模态大型模型(如 LLaVA [198] 和 MiniGPT-4 [388])的出现,意味着大型模型正逐渐获得强大的视觉-语言理解和推理能力,有望应用于处理更复杂的多模态任务。例如,强大的视觉-语言理解能力在医疗保健 [220, 329, 371]、教育 [18, 154] 和推荐系统 [203, 351] 等应用中至关重要,在这些领域中,对视觉和文本信息的准确解释和整合可以显著提升性能和结果。

然而,各种研究 [219, 44] 表明,尽管大型模型可以基于自身知识处理各种复杂任务,但其能够存储和熟练应用的知识是有限的,特别是在复杂和特定领域的知识方面。当前的大型模型存在生成幻觉 [118, 196] 的问题,在回答问题时经常生成错误或模棱两可的内容,并且在需要专业知识或世界知识的场景中表现不佳。本章开头引用的苏格拉底名言:“真正的智慧在于知道自己一无所知”,完美地适用于我们对优秀 AI 系统的期望。只有当 AI 系统认识到自身的局限性,并且在缺乏相关信息时能够利用外部资源获取知识时,它才真正具备“真正的智慧”。

在此背景下,在深度学习系统早期提出的检索增强生成(Retrieval-Augmented Generation,RAG)再次受到关注。RAG 是一种将信息检索系统整合到大型模型生成过程中的流程。它利用检索系统从知识库中提取必要的知识,并将这些信息提供给模型,从而使其能够基于外部检索的数据进行推理或回答问题。RAG 可以通过以下方式为大型模型的生成带来显著优势:

  • 通过明确呈现模型所需的知识,减少大型模型的幻觉,提供更准确的答案(例如,股票代码和产品信息)。

  • 使模型能够访问更广泛的行业特定和世界知识。为模型配备特定领域的知识库,使其能够处理专业任务。

  • 增强模型的时效性。虽然模型的训练和参数更新通常需要较长时间(甚至数月或数年),但信息更新的速度要快得多。模型从持续更新的数据库中提取最新信息进行问答,可以显著提高其相关性。

然而,在本文研究的初始阶段(2021 年 10 月),多模态大型模型和多模态 RAG 系统的研究仍存在一些不足。知识密集型任务的多模态系统通常存在以下问题:

  • 模型结构复杂,参数规模庞大,但在需要知识的多模态任务上表现不佳。

  • 所使用的多模态信息检索系统性能较弱,召回率(评估检索性能的指标)较低。

  • 信息检索组件与检索增强生成模型之间的整合不佳,即使检索性能良好,回答性能也不理想。

在下一节中,我们将提出本研究旨在解决的关键研究问题,以克服现有多模态 RAG 系统的局限性。

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/10551.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

C++初阶学习第九弹-----vector的模拟实现

C初阶学习第六弹------标准库中的string类_c# string[]-CSDN博客 C初阶学习第七弹——string的模拟实现-CSDN博客 C初阶学习第八弹--深入解析vector的使用-CSDN博客 一.vector的成员变量 目录 一.vector的成员变量 二.vector的模拟实现 2.1vector的构造与析构 2.2迭代器…

提升网站流量的搜索引擎优化实用指南

内容概要 搜索引擎优化(SEO)是提升网站可见性与流量的重要过程。在当今数字时代,理解这一领域的基本概念至关重要。SEO不仅仅是关于提高关键词排名,更是关于如何创造更好的用户体验和吸引目标受众。以下是一些关键要素&#xff0…

求教0基础入门大模型的学习路线?java出身,数学良好,希望入局大模型算法,有无必要从cnn学起?

目录 前言: Prompt工程: 2.AI编程 3.API调用 4.大模型应用开发 1)RAG 2)Agent 5.深水区:模型训练和微调 1)Fine-tuning 2)多模态 6.产品和交付 前言 本人本科学历java开发出身,数学基础良好,希望入局大模…

ubuntu 安装 mongodb 笔记记录

https://www.mongodb.com/try/download/community 以上是下载地址 查看系统 (base) duyichengduyicheng-computer:~$ cat /proc/version Linux version 6.8.0-48-generic (builddlcy02-amd64-010) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.2.0-23ubuntu4) 13.2.0, GNU ld (GNU …

隐藏式水印了解一下?你以为加水印很麻烦?

隐藏式水印了解一下?你以为加水印很麻烦? 想在网页上添加水印?想要隐形又清晰的水印效果?watermark-js-plus或许就是你正在找的工具!本文将详细介绍这款前端水印库的特点和使用方法,帮你轻松搞定网页水印问…

大模型人工智能课程全栈完整学习路径

嘿,朋友们,今天我们聊点高级的——大模型人工智能课程的全栈学习路径。不过别慌,虽然听起来高大上,但咱们慢慢来。从零开始,一步步带你走进这个神奇的世界。喝杯咖啡,穿上最舒适的拖鞋,准备好踏…

学SQL,要安装什么软件?

先上结论,推荐MySQLDbeaver的组合。 学SQL需要安装软件吗? 记得几年前我学习SQL的时候,以为像Java、Python一样需要安装SQL软件包,后来知道并没有所谓SQL软件,因为SQL是一种查询语言,它用来对数据库进行操…

六、鸿蒙开发-导航组件、定时器组件、动画

提示:本文根据b站尚硅谷2024最新鸿蒙开发HarmonyOS4.0鸿蒙NEXT星河版零基础教程课整理 链接指引 > 尚硅谷2024最新鸿蒙开发HarmonyOS4.0鸿蒙NEXT星河版零基础教程 文章目录 一、定时器1.1 参数1.2 事件 二、导航组件2.1 概述2.2 导航栏样式2.2.1 导航栏位置2.2.2…

【含文档】基于ssm+jsp的流浪动物收养系统(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: apache tomcat 主要技术: Java,Spring,SpringMvc,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定义了两个…

TTL器件和CMOS器件的逻辑电平

一、逻辑电平的一些概念 要了解逻辑电平的内容,首先要知道以下几个概念的含义: 1:输入高电平(VIH): 保证逻辑门的输入为高电平时所允许的最小输入高电平,当输入电平高于VIH时,则认…

10. java基础知识(下)

文章目录 一、一带而过二、字符串类型String1. 简单了解2. 关于结束符\03. 自动类型转换与强制类型转换 三、API文档与import导包1. API文档2. import导包 四、java中的数组1. 创建2. 遍历3. 补充4. Arrays类① 简单介绍② 练习 五、方法的重载六、规范约束七、内容出处 一、一…

Ubuntu下的截图工具Flameshot

安装Flameshot截图工具 sudo apt install flameshot配置快捷键Alt A 进入系统设置settings,找到Keyboard下的Keyboard Shortcuts 快捷键设置面板,如下图 添加一个快捷Alt A Add Custom Shortcut设置如上内容 Name设置为: Flameshot Sc…

(60)使用LMS算法和NLMS(归一化LMS)算法进行降噪

文章目录 前言一、关于自适应降噪仿真的几点说明1.降噪2. 参考信号与噪声信号3. LMS算法的步长4.自适应降噪原理5.维纳滤波器系数 二、LMS与NLMS自适应降噪的仿真三、仿真结果 前言 本文介绍了LMS自适应滤波器和NLMS自适应滤波器在降噪方面的应用,阐明期望信号、参…

如何从Python函数中返回列表

在 Python 中,可以轻松地从函数中返回一个列表。可以将列表直接作为返回值,通过 return 语句将其返回。 1、问题背景 在编写一个游戏时,需要创建一个函数来返回一个列表变量,以便将其传递给另一个变量。但是,在运行程…

深 度 学 习

神经网络基础 一、逻辑回归( Logic Regression ) 1 问题的模型 模型: 其中xx为输入量,y^y^​预测量,σ()σ()激活函数。   逻辑回归主要用于二分类问题的拟合:0≤y^P(y1∣x)≤10≤y^​P(y1∣x)≤1,σ(z)σ(z)如图…

GEE 数据集——美国gNATSGO(网格化国家土壤调查地理数据库)完整覆盖了美国所有地区和岛屿领土的最佳可用土壤信息

目录 简介 代码 引用 网址推荐 知识星球 机器学习 gNATSGO(网格化国家土壤调查地理数据库) 简介 gNATSGO(网格化国家土壤调查地理数据库)数据库是一个综合数据库,完整覆盖了美国所有地区和岛屿领土的最佳可用土…

(金蝶云星空)客户端追踪SQL

快捷键 ShitfCtryAltM 点击开始、最后操作功能、然后查看报告 SQL报告

小菜家教平台(三):基于SpringBoot+Vue打造一站式学习管理系统

目录 前言 今日进度 详细过程 相关知识点 前言 昨天重构了数据库并实现了登录功能,今天继续进行开发,创作不易,请多多支持~ 今日进度 添加过滤器、实现登出功能、实现用户授权功能校验 详细过程 一、添加过滤器 自定义过滤器作用&…

【数据处理】数据预处理·数据变换(熵与决策树)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前…

【电子通识】TINA-TI 如何产生动态电流波形?

在仿真过程中我们有些时候需要动态电流负载。比如说从5A跳到1A。那这种情况下我们怎么仿真呢? 首先打开TINA-TI软件,找到Sources源,放置一个可控电流源。 放置好后双击器件打开属性,点到Signal信号框中的三个小点。 找到piecewise…