【多模态读论文系列】MINIGPT-4论文笔记

【多模态读论文系列】LLaMA-Adapter V2论文笔记

【多模态读论文系列】LLaVA论文笔记

分享第三篇多模态论文阅读笔记

MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS

论文地址:https://arxiv.org/pdf/2304.10592

代码:https://minigpt-4.github.io/

MiniGPT-4的研究发现有以下几点:

  1. 视觉-语言能力的对齐:研究发现,通过将视觉特征与大模型(如Vicuna)对齐,MiniGPT-4能够实现先进的视觉-语言理解能力,这种能力接近于GPT-4展示出的视觉处理效果。
  2. 投影层的有效性:研究表明,只需训练一个投影层(projection layer),就可以有效地将预训练好的视觉编码器和大型语言模型对齐。
  3. 训练效率:MiniGPT-4的训练只需要使用4张A100训练10个小时左右
  4. 图像-文本对齐的局限性:研究还发现,单纯通过短的图像-文本对对齐视觉特征和大模型是不够的。这种简单的对齐方法往往会导致生成的语言不够自然。为了解决这个问题,研究建议进一步微调模型,采用更详细的图像描述对进行训练。

方法

在这里插入图片描述

语言模型:MiniGPT-4使用Vicuna作为语言解码器。Vicuna是基于LLaMA构建的语言模型。

视觉模型:在视觉感知方面,MiniGPT-4使用BLIP-2中的视觉编码器,这是一个基于ViT(视觉Transformer)的结构,配合预训练的Q-Former模块。这些组件可以有效处理和提取图像中的特征。

采用两阶段训练方法,在第一阶段,模型通过一个大规模的图像-文本对数据集进行预训练,是模型具备基本的基本的视觉和语言对应关系。

在第二阶段,模型在一个更小但高质量的图像-文本数据集上进行微调。这个数据集使用专门设计的对话模板,这种模板使生成的内容更符合实际应用的需求,在对话和描述场景中也表现得更自然和准确。

参考:https://zhuanlan.zhihu.com/p/628375255

稍微解释一下BLIP-2,BLIP-2 是一种多模态 Transformer 模型,主要针对以往的视觉-语言预训练 (Vision-Language Pre-training, VLP) 模型端到端训练导致计算代价过高的问题。

这个工作提出了一种借助现成的冻结参数的预训练视觉模型和大型语言模型的,高效的视觉语言预训练方法。 但是,简单的冻结预训练好的视觉模型的参数或者语言模型的参数会带来一个问题:就是视觉特征的空间和文本特征的空间,它不容易对齐。

那么为了解决这个问题,BLIP-2 提出了一个轻量级的 Querying Transformer,该 Transformer 分两个阶段进行预训练。第一阶段从冻结的视觉编码器中引导多模态学习,第二阶段从冻结的文本编码器中引导多模态学习。

预训练阶段

在预训练阶段,该模型旨在从大量对齐的图像-文本对中获取视觉-语言知识。投影层的输出视为 LLM 的软提示,提示其生成相应的真实文本。在整个预训练过程中,预训练的视觉编码器和LLM都保持冻结状态,只有线性投影层被用来预训练。

数据集包括 Conceptual Caption、SBU和 LAION。

训练了 20,000 步,批量大小为 256,覆盖大约 500 万个图像文本对。整个过程大约需要 10 个小时才能完成,使用 4 张 A100 (80GB) GPU。

微调数据集的构建
图像-文本对生成

初始对齐的图像文本生成,使用从第一个预训练阶段得到的模型来生成输入图像的全面描述。提示模板如下所示:

表示通过线性投影层得到的特征.

在这里插入图片描述

为了避免模型生成不完整的句子,作者通过检查生成的句子是否超过80个标记(tokens)。

如果未超过,加入一个附加提示

“###Human: Continue ###Assistant:”

提示MiniGPT-4继续生成内容。

通过该方法能够生成带有详细信息的图像-文本对。文中从Conceptual Caption数据集随机选择了5,000张图像,并使用预训练模型为每张图像生成相应的文字描述。

数据后处理

这里使用 ChatGPT 来重写描述,并使用以下提示:

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

完成后处理阶段后,作者手动验证每个图像描述的正确性,发现有几个经常出现的错误(“很抱歉我犯了一个错误……”或“我为此道歉……”),这些可以用硬编码规则来自动过滤掉。

手动消除 ChatGPT 无法检测到的冗余单词或句子。

最后筛选得到3500 个满足要求的图片-文本对,用于后续的微调过程。

微调阶段

微调模板如下所示:

在这里插入图片描述

在此提示中,表示从我们的预定义指令集包含不同形式的指令,例如“Describe this image in detail”或“Could you describe the contents of this image for me”。

微调过程仅需要 400 个训练步骤,批量大小为 12,使用单个 A100 GPU 大约需要 7 分钟。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/6018.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

安信金控:古法金与普通金的区别

古法金和普通金在制作工艺、外观特点、硬度和耐磨性以及价格等方面存在明显差异。本文详细比较了古法金与普通金的区别,供大家参考。 一、制作工艺 1. 古法金 古法金采用传统的铸金工艺,过程复杂且耗时。主要工艺包括: 搂胎:使…

2023下半年上午(22~38)

二十二、 选A 现在定义一个函数,里面有非静态的局部变量f1 在栈区stack里面,先是主函数main入栈,然后调用main里面的方法,即function()入栈,在入栈的一瞬间,局部变量f1就被定义了&a…

使用 GPT-4V 全面评估泛化情绪识别 (GER)

概述 由于情绪在人机交互中扮演着重要角色,因此情绪识别备受研究人员关注。目前的情感识别研究主要集中在两个方面:一是识别刺激物引起的情感,并预测观众观看这些刺激物后的感受。另一个方面是分析图像和视频中的人类情绪。在本文中&#xf…

[代码随想录打卡]Day2:209.长度最小的子数组 59.螺旋矩阵II 区间和 开发商购买土地 总结

双指针:快慢指针、对撞指针、滑动窗口。相关博客:双指针算法详解(快慢指针、对撞指针、滑动窗口) 209.长度最小的子数组 题目:给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于…

list与iterator的之间的区别,如何用斐波那契数列探索yield

问题 list与iterator的之间的区别是什么?如何用斐波那契数列探索yield? 2 方法 将数据转换成list,通过对list索引和切片操作,以及可以进行添加、删除和修改元素。 iterator是一种对象,用于遍历可迭代对象(如列表、元组…

就是这个样的粗爆,手搓一个计算器:JSON格式化计算器

作为程序员&#xff0c;没有合适的工具&#xff0c;就得手搓一个&#xff0c;PC端&#xff0c;移动端均可适用。废话不多说&#xff0c;直接上代码。 HTML: <div class"calculator"><label for"jsonInput">输入 JSON 字符串:</label> …

PaddleNLP的FAQ问答机器人

项目源码获取方式见文章末尾&#xff01; 600多个深度学习项目资料&#xff0c;快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【DDRNet模型创新实现人像分割】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实…

MySQL——索引

目录 一、磁盘 1.1 在系统软件上&#xff0c;并不直接按照扇区进行IO交互&#xff1a; 1.2 磁盘随机访问与连续访问 1.3 建立共识 二、Page 三、InnoDB 四、MyISAM 五、普通索引 一、磁盘 我们在使用Linux&#xff0c;所看到的大部分目录或者文件&#xff0c;其实就是保…

逆向CTF入门(如何找main)

Hello, world of reverse! start函数它在执行一些初始化操作,如获取命令行参数、获取环境变量值、初始化全局变量等&#xff0c;一切准备工作完成之后&#xff0c;再调用main函数 快速定位关键函数&#xff1a; 长驱直入法&#xff1a;当程序功能非常明确时&#xff0c;从程序…

【react框架之dvajs】官网不维护了,还有旧项目在用需要文档的看过来

文档链接: http://gaofeng222.host3v.club/dva-doc/ github:https://gaofeng222.github.io/dva-doc/ 应该是团队没精力搞了&#xff0c;放弃了这块&#xff01;https://github.com/umijs/umi/discussions/12387

探索魁北克:IT精英的理想移民地

在当今这个数字化时代&#xff0c;IT行业无疑是全球最具活力和发展潜力的领域之一。加拿大&#xff0c;尤其是魁北克省&#xff0c;以其开放的移民政策、优越的工作环境和高质量的生活&#xff0c;成为IT专业人士的理想移民目的地。 一、加拿大IT行业的吸引力 职业发展与稳定性…

Linux(CentOS)安装 Nginx

CentOS版本&#xff1a;CentOS 7 Nginx版本&#xff1a;1.24.0 1、下载 Nginx 打开Nginx官网&#xff1a;https://nginx.org/ 2、上传 Nginx 文件到 CentOS 使用FinalShell远程登录工具&#xff0c;并且使用 root 用户连接登录&#xff08;注意这里说的root用户连接登录是指…

Django安装

在终端创建django项目 1.查看自己的python版本 输入对应自己本机python的版本&#xff0c;列如我的是3.11.8 先再全局安装django依赖包 2.在控制窗口输入安装命令&#xff1a; pip3.11 install django 看到Successflully 说明我们就安装成功了 python的Scripts文件用于存…

Qt字符编码

目前字符编码有以下几种&#xff1a; 1、UTF-8 UTF-8编码是Unicode字符集的一种编码方式(CEF)&#xff0c;其特点是使用变长字节数(即变长码元序列、变宽码元序列)来编码。一般是1到4个字节&#xff0c;当然&#xff0c;也可以更长。 2、UTF-16 UTF-16是Unicode字符编码五层次…

微服务设计模式 - 网关路由模式(Gateway Routing Pattern)

微服务设计模式 - 网关路由模式&#xff08;Gateway Routing Pattern&#xff09; 定义 网关路由模式&#xff08;Gateway Routing Pattern&#xff09;是微服务架构中一种非常重要的设计模式&#xff0c;主要用于在客户端和微服务之间提供一个中间层。这一模式通过中央网关路…

【Axure高保真原型】PDF阅读器

今天和大家分享PDF阅读器的原型模板&#xff0c;我们点击左侧的PDF&#xff0c;点击后右侧能看到这个PDF的内容&#xff0c;每个PDF都可以点击查看&#xff0c;如果PDF内容太多&#xff0c;我们也可以通过鼠标滚动来查看。这个模板是用中继器制作的&#xff0c;所以使用也很方便…

uniapp学习(010-2 实现抖音小程序上线)

零基础入门uniapp Vue3组合式API版本到咸虾米壁纸项目实战&#xff0c;开发打包微信小程序、抖音小程序、H5、安卓APP客户端等 总时长 23:40:00 共116P 此文章包含第113p的内容 文章目录 抖音小程序下载抖音开发者工具先去开发者工具里进行测试 抖音开放平台配置开始打包上传…

漏洞挖掘某电子商城类漏洞挖掘案例教程,手把手教你复现一个完整的漏洞挖掘全流程

前言 电子商城购物系统我们每天都能接触到&#xff0c;现在的商城系统&#xff0c;大多数已经在小程序、APP方向去开发了&#xff0c;因为灵活&#xff0c;方便管理且开发难度不高&#xff0c;当然&#xff0c;现在WEB系统还很多&#xff0c;我们本次会选几个SRC去浅挖一下那些…

C#入门013 表达式,语句详解 2

语句的定义 在计算机编程中&#xff0c;一条语句&#xff08;statement&#xff09;是命令式编程语言中表达某个要执行的动作的最小独立组成部分。用这种语言编写的程序是由一个或多个语句组成的序列构成的。语句可以包含内部组件&#xff0c;比如表达式&#xff08;expressio…

【运动的&足球】足球场景目标检测系统源码&数据集全套:改进yolo11-ASF-P2

改进yolo11-RetBlock等200全套创新点大全&#xff1a;足球场景目标检测系统源码&#xff06;数据集全套 1.图片效果展示 项目来源 人工智能促进会 2024.11.03 注意&#xff1a;由于项目一直在更新迭代&#xff0c;上面“1.图片效果展示”和“2.视频效果展示”展示的系统图片或…