多模态生成发文量大涨!最新成果统一Transformer和Diffusion,含金量超高

最近多模态生成领域也在“神仙打架”,比如Meta的全新训练方法Transfusion,用单个模型就能同时生成文本和图像!

还有之前华为、清华提出的个性化多模态内容生成技术PMG,生成的内容可“量身定制”,更能满足偏好。

这些效果炸裂的新成果证明了多模态生成一直是研究热门,更实际点的证明还有:

  • 从学术角度来看,今年CVPR等顶会的收录论文中,多模态生成是最热门的研究主题之一。

  • 从就业角度来看,多模态生成的人才需求也比较大,很多公司都有相应的岗位,比较好拿offer。

因此多模态生成依旧是我们非常好的选择,想抓紧投中顶会给自己加码的同学可以考虑。这里为了帮助各位快速了解这个方向目前的最新动态,我整理好了10篇多模态生成今年最新的论文给各位作参考,代码基本都有。

论文原文+开源代码需要的同学看文末

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

方法:论文一个多模态模型训练的配方Transfusion,可以处理离散数据(如文本或代码)和连续数据(例如图像、音频和视频数据)。Transfusion结合了语言建模损失函数(下一个词预测)和扩散模型,通过单一的transformer来训练混合模态序列,使其能够无缝地生成离散和连续的模态,例如同时生成文本和图像。

创新点:

  • Transfusion是一个统一的多模态模型,可以同时生成文本和图像,不需要信息的丢失。

  • 在文本到图像生成和图像到文本生成任务中,Transfusion模型在FID和CLIP得分方面表现优于Chameleon模型,且在相同的计算复杂度下,Transfusion模型的FID得分约为Chameleon模型的一半。

  • Transfusion模型在学习文本到文本预测任务上的效率也更高,达到了Chameleon模型计算复杂度的50%到60%的困惑度。

PMG: Personalized Multimodal Generation with Large Language Models

方法:论文提出了一种基于大语言模型(LLMs)的个性化多模态生成方法(PMG),首先将用户行为转化为自然语言,以便LLM能够理解并提取用户的偏好。然后,将用户偏好输入生成器(如多模态LLM或扩散模型)以生成个性化内容。

创新点:

  • 提出了一种个性化多模态生成方法(PMG),首次将LLMs应用于个性化多模态生成任务,实现了一系列应用场景的个性化生成。

  • 引入了基于用户行为的用户偏好表示方法,结合显式关键词和隐式嵌入,有效地捕捉用户的偏好信息,用于生成过程的条件。

  • 使用加权求和的方式平衡准确性得分和个性化得分,实现了生成内容在准确性和个性化之间的良好平衡。

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

方法:ANOLE是一个开源的多模态模型,专注于交错图像-文本生成。它基于Meta AI的Chameleon模型,通过高效微调少量参数来增强图像和多模态生成能力,而无需依赖扩散模型。

创新点:

  • ANOLE采用自回归方法进行图像和文本的生成,这使得它能够产生连贯且高质量的交错图像-文本序列。

  • ANOLE通过微调不到40M的参数,使用大约6000个样本,有效地实现了视觉和多模态生成能力,体现了它在大型多模态模型中引入复杂功能时的高数据和参数效率。

  • 提供了一个用于自回归多模态模型的训练和推理的统一框架,降低了开发和实验的门槛。

Generative Multimodal Models are In-Context Learners

方法:论文介绍了一个名为 Emu2 的大型多模态生成模型,它通过大规模多模态序列的训练,具备了强大的多模态上下文学习能力。Emu2 能够处理包括文本、图像-文本对和交错的图像-文本-视频等在内的多种数据类型,并且在少量样本或简单指令的情况下解决多模态任务。

创新点:

  • Emu2通过大规模多模态序列的统一自回归目标进行预训练,能够预测下一个多模态元素(无论是视觉嵌入还是文本标记)。

  • 在少量样本或简单指令的情况下,Emu2展现出解决多模态任务的能力,包括需要即时推理的视觉提示和基于对象的生成任务。

  • 通过对Emu2进行指令微调,模型能够在遵循特定指令的情况下,在大型多模态模型的问答基准测试和开放式主题驱动生成等具有挑战性的任务上实现新的最佳状态。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态生成”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1522509.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

深入解析Linux轻量级进程:线程的概念、原理、优缺点及其与进程的关系与区别

🍑个人主页:Jupiter. 🚀 所属专栏:Linux从入门到进阶 欢迎大家点赞收藏评论😊 目录 📚Linux线程📕什么是线程*可以使用多进程去并发的执行一个进程的代码,那为什么要由线程呢&#x…

搭子小程序开发,让社交更加有趣

如今,搭子成为了年轻人社交的新兴方式,它作为一种连接年轻人的社交纽带,深受大众的欢迎!各式各样的旅游搭子、健身搭子、游戏搭子等,让年轻人享受到社交的魅力。 随着互联网的发展,寻找搭子也发展到了线上…

一个好用的Maven依赖冲突解决插件:Maven Helper

在项目开发,或项目Maven需要新增依赖、项目依赖组件升级时,经常会出现添加后,因为各个模块中有相同的依赖、不同的版本而导致依赖冲突,从而导致项目启动不起来,这种冲突非常恶心,因为是传递依赖所以会看不出…

Hackme靶场渗透攻略

步骤一,注册登录进去 步骤二,点击search 我们发现有很多书 步骤三,搜索一本书抓包发放到重放器 步骤四,数据改为1*,复制数据包到1.txt,然后打开sqlmap 步骤五,sqlmap查看当前数据库 python s…

多模态AI:原理、应用与未来展望

随着人工智能技术的飞速发展,多模态AI逐渐成为构建智能系统的重要方向。传统的AI系统通常依赖于单一模态的数据,如文本、图像或音频。而多模态AI通过结合多种数据类型,能够在更复杂的场景下提供更智能的解决方案。本文将深入探讨多模态AI的原…

Android 11 (R)AMS Activity内部机制

一、AMS是如何被管理的 如我们在Android 11(R)启动流程中介绍的一样,AMS和ATMS是在SystemServer中被启动的 ActivityTaskManagerService atm mSystemServiceManager.startService(ActivityTaskManagerService.Lifecycle.class).getService(); mActivityManagerSe…

使用vscode debug cpp/python混合编程的程序(从python调用的C++编译的dll)

使用vscode debug cpp/python混合编程的程序(从python调用的C编译的dll) 1. 安装插件 Python C Debugger https://marketplace.visualstudio.com/items?itemNamebenjamin-simmonds.pythoncpp-debug 2. 在.vscode/launch.json中增加配置 拷贝自 https:…

默默的学python——两个重要的函数dir()、help()

一、dir()函数 dir()函数在Python中用于返回一个对象的所有属性和方法的列表,当你对一个函数使用dir()时,它会返回函数对象的所有可访问的属性和方法的名字列表。 具体的说,dir()函数获取的内容包括: 1.特殊方法和魔法方法 如…

Kettle 锁表原因及解决办法【源码级分析】

文章目录 背景源码分析锁表场景1:资源库锁表锁表场景2:写日志锁表在哪里配置的kettle_log_table?官方解释自增 SQL 获取 BatchI 原理解决自增 SQL 获取 BatchID背景 Kettle 7.1.0 经常出现锁表的情况,体现为在数据库里有一条锁表 SQL,然后整个 Kettle 都无法运行。😂�…

App推广新姿势:Xinstall一键下载唤起,轻松提升用户体验!

在App推广和运营的道路上,你是否遇到过这样的困扰:用户点击下载链接后,却无法直接唤起App,导致用户体验不佳,甚至造成用户流失?别担心,今天我们就来科普一个神器——Xinstall,它能帮…

【GIT】idea中实用的git操作,撤回commit,撤回push、暂存区使用

IDEA中最常见的UI操作:【GIT】Idea中的git命令使用-全网最新详细(包括现象含义) 文章目录 问题一: idea撤回仅commit错误的代码(仅本地仓库,因为还没推送到远程)问题二: idea撤回Com…

8个优质视频素材库,商用无忧

如果你正在寻找一些优质的视频素材库,不妨看看以下这些网站。它们提供了各种各样的视频素材,无论是用于家庭视频制作、Vlog、还是社交媒体内容,都能找到合适的素材。从生活日常到创意动画,这些网站都能帮你找到想要的视频素材。一…

学习react day01

(1)nodejs.cn 中文网 版本须较新 (2)全局安装 npm install create-react-app -g ( 版本查询 create-react-app -V) (3)创建app create-react-app test-app (4&…

5 - ZYNQ GPIO

文章目录 1 GPIO基本概念1.1 MIO-EMIO简介1.2 MIO-EMIO连接1.3 MIO-EMIO路由1.4 MIO-EMIO配置 2 GPIO控制寄存器2.1 输入/输出控制寄存器2.2 中断控制寄存器2.3 中断触发设置 3 GPIO在Vivado SDK中的使用 1 GPIO基本概念 在ZYNQ中,GPIO(General Purpose…

读取obj文件中的vt并转成需要的uv数据

先展示效果图 适用场景:加载的obj模型需要发生形变,同时还要展示模型的纹理效果,可以使用到面料模拟或者弹性物体的模拟当中 具体实现方案: 1、读取obj文件中的vt的值,存起来 2、读取f值,存v索引和vt索引 3…

宿舍|基于SprinBoot+vue的宿舍管理系统(源码+数据库+文档)

宿舍管理系统 基于SprinBootvue的私人诊所管理系统 一、前言 二、系统设计 三、系统功能设计 系统功能实现 后台模块实现 管理员功能实现 学生功能实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍&…

文件包含PHP伪协议利用方法

1.file://协议 使⽤: file:// ⽂件的绝对路径和⽂件名 2.php?cmdfile://D:\phpstudy_pro\WWW\123.txt 2.php://filter协议 ⽤途:常⽤于读取⽂件 / 源码 2.php?cmdphp://filter/readconvert.base64-encode/resource1.php 3.php://input协议 步骤一&…

软考报名临近尾声,接下来干什么?附最新软考报名进度表

软考2023年下半年的报名虽然仅仅过半,但是除了北京之外,其他地区均已经可以报名,而且为数不少的地区已经结束了报名,我相信绝大多数地区的考生应该已经完成了报名,所以从这个意义上讲,软考的报名的确是临近…

sql-labs41-45关通关攻略

第41关 一.查询数据库 http://127.0.0.1/Less-41/?id-1%20union%20select%201,2,database()--http://127.0.0.1/Less-41/?id-1%20union%20select%201,2,database()-- 二.查表 http://127.0.0.1/Less-41/?id-1%20union%20select%201,2,(select%20group_concat(table_name)…

HTB-sequal(mysql)

前言 各位师傅大家好,我是qmx_07,今天给大家讲解sequal这台靶机 渗透过程 信息搜集 服务器开放了3306mysql端口思路:mysql爆破-sC参数会执行 相关的默认脚本 连接mysql数据库 通过空密码连接道mysql数据库flag:7b4bec00d1a39…