论文解读系列文章目录
文章目录
- 论文解读系列文章目录
- 一、图中公式什么意思?
- 二、“早期的基于匹配和密集嵌入相似性的方法,逐步发展到可学习的检索技术和预训练语言模型(PLM)生成技术”什么意思?
- 三、在从问题(Q)和图像(I)中提取初始概念后,建立两个关键映射:第一个映射将Q中解析出的对象与I中的视觉对应物关联,第二个映射将这些概念与知识库(KBs)中的相关条目关联。 什么意思?
- 四、随后,通过这些识别出的概念节点获取一阶子知识图谱(sub-KG)中的三元组(在某些情境下如角色知识图谱为三跳路径【93】),或通过识别I和Q中的实体之间的简短知识路径来收集事实三元组。这句话什么意思,举例解释一下
- 五、密集检索【141】方法通常用于为给定的Q-I对检索最相关的前k条事实。此技术利用嵌入相似性将问题和视觉概念与预先简化的简洁事实句匹配,简化了检索过程,避免了复杂规则。这句话什么意思,举例解释一下?
- 六、检索结构通常为对称或孪生结构,以支持共享嵌入空间,而跨模态检索场景(如基于CLIP的检索)则采用非对称设计。 什么意思,举例说明一下。
一、图中公式什么意思?
图中的公式描述了一个基于知识图谱的视觉问答(VQA)任务的概率模型:
p ( A ∣ Q , I , G , Θ ) = p ( G r e t ∣ Q , I , G ; Φ ) ⋅ p ( A ∣ Q , I , G r e t ; Θ ) p(A|Q, I, G, \Theta) = p(G_{ret}|Q, I, G; \Phi) \cdot p(A|Q, I, G_{ret}; \Theta) p(A∣Q,I,G,Θ)=p(Gret∣Q,I,G;Φ)⋅p(A∣Q,I,Gret;Θ)
其中:
- A A A 表示答案。
- Q Q Q 表示问题(通常是文本问题)。
- I I I 表示图像。
- G G G 表示整体的背景知识图谱。
- G r e t G_{ret} Gret 表示从背景知识图谱中检索到的相关子知识图谱。
- Φ \Phi Φ 是用于知识检索的模型参数。
- Θ \Theta Θ 表示隐式知识参数,通常在大规模数据集上通过自监督学习预训练得到。
公式分为两个部分:
-
Retriever(知识检索): p ( G r e t ∣ Q , I , G ; Φ ) p(G_{ret}|Q, I, G; \Phi) p(Gret∣Q,I,G;Φ) 表示在给定问题 Q Q Q、图像 I I I、背景知识图谱 G G G 以及模型参数 Φ \Phi Φ 的条件下,检索到相关子图 G r e t G_{ret} Gret 的概率。这一步是可选的(“if have”),但有助于在知识图谱中找到与问题和图像更相关的信息。
-
Reader(答案生成): p ( A ∣ Q , I , G r e t ; Θ ) p(A|Q, I, G_{ret}; \Theta) p(A∣Q,I,Gret;Θ) 表示在给定问题 Q Q Q、图像 I I I、检索到的子图 G r e t G_{ret} Gret 和隐式知识参数 Θ \Theta Θ 的条件下,生成答案 A A A 的概率。
整体公式说明了通过结合知识检索(如果需要)和答案生成来实现基于知识图谱的答案推理。这种分阶段的设计使得模型能够在有外部知识的支持下更准确地回答问题。
二、“早期的基于匹配和密集嵌入相似性的方法,逐步发展到可学习的检索技术和预训练语言模型(PLM)生成技术”什么意思?
这段话中的“早期的基于匹配和密集嵌入相似性的方法,逐步发展到可学习的检索技术和预训练语言模型(PLM)生成技术”描述的是知识检索技术的演变过程,具体含义如下:
-
早期的基于匹配和密集嵌入相似性的方法:
这指的是早期的知识检索技术,通常基于某种相似性度量(如余弦相似性、欧几里得距离等)来匹配查询与知识库中的条目。这种方法依赖于“密集嵌入”技术,即将词或文档表示为密集的向量(通常是高维的实数向量),并通过计算这些向量之间的相似性来检索相关知识。早期的方法主要通过这种方式来查找与查询相关的信息。 -
逐步发展到可学习的检索技术:
随着技术的进步,知识检索逐渐转向更复杂的“可学习的检索技术”。这些技术利用机器学习方法,特别是深度学习来训练模型,使得检索过程可以自动优化。例如,使用神经网络对查询和知识库条目进行编码,从而更智能地检索相关信息,而不仅仅依赖于静态的相似性度量。 -
预训练语言模型(PLM)生成技术:
进一步的进展是使用“预训练语言模型”(PLM),如BERT、GPT等,通过大量的文本数据进行预训练,使得这些模型能够更好地理解语言和语境。这些预训练模型不仅能进行知识检索,还能生成与查询相关的文本或答案,从而大大提高了知识整合的效率和准确性。
总结:这段话描述了知识检索技术的演变:从早期简单的基于相似性的匹配方法,发展到使用深度学习模型进行更复杂的、可学习的检索,再到采用先进的预训练语言模型,进一步提高了知识整合的范围和效率。
三、在从问题(Q)和图像(I)中提取初始概念后,建立两个关键映射:第一个映射将Q中解析出的对象与I中的视觉对应物关联,第二个映射将这些概念与知识库(KBs)中的相关条目关联。 什么意思?
这句话的意思是在多模态推理任务中,首先从问题(Q)和图像(I)中提取出初始的概念(例如,问题中提到的对象和图像中的相关元素)。然后,建立两个重要的映射关系来处理这些信息:
-
第一个映射:
这个映射的作用是将问题(Q)中解析出的对象与图像(I)中的视觉对应物进行关联。简而言之,就是将问题中的描述性词汇(如“狗”或“汽车”)与图像中的实际视觉对象(即图像中的“狗”或“汽车”)对应起来。这一步的目标是通过视觉信息理解问题所涉及的具体对象。 -
第二个映射:
这个映射则是将上一步中提取出的概念(这些概念可能是问题中的对象或者图像中的视觉元素)与知识库(KBs)中的相关条目进行关联。知识库(如Wikipedia、ConceptNet等)包含了大量的结构化知识,可以为图像和问题提供更深的语义背景。例如,如果问题涉及到“猫”这一对象,第二个映射会将“猫”这个概念与知识库中的关于“猫”的定义、属性和关系等信息进行关联,从而提供额外的语义支持。
总结:
这句话描述的是一个多阶段的推理过程:首先从问题和图像中提取基本概念,然后通过两个映射来分别将问题中的对象与图像中的对应物进行匹配,同时将这些概念与外部知识库中的相关条目进行关联。这种方法有助于增强模型对问题和图像的理解,并利用外部知识库提供的语义信息来提高推理的准确性和深度。
四、随后,通过这些识别出的概念节点获取一阶子知识图谱(sub-KG)中的三元组(在某些情境下如角色知识图谱为三跳路径【93】),或通过识别I和Q中的实体之间的简短知识路径来收集事实三元组。这句话什么意思,举例解释一下
这句话的意思是在提取出问题(Q)和图像(I)中的概念节点后,系统会进一步通过这些节点来获取与它们相关的三元组(triple)。这些三元组属于一阶子知识图谱(sub-KG),或者是通过识别问题和图像中的实体之间的知识路径来收集相关的事实信息。这里提到的三元组通常是由主体(subject)、**谓词(predicate)和客体(object)**组成的知识结构。
解释:
-
一阶子知识图谱(sub-KG):
一阶子知识图谱是指从知识库中提取的一个子集,包含与当前任务相关的知识。该知识图谱可以通过识别概念节点来获取,节点之间的关系通过三元组形式表示。三元组通常包含:- 主体(subject):实体或概念。
- 谓词(predicate):描述实体之间关系的动词或动作。
- 客体(object):与主体相关的其他实体或概念。
-
三元组的获取:
通过识别出的问题和图像中的概念节点(如“狗”,“跑”,“草地”),可以从知识图谱中提取出相关的三元组。例如,如果识别到“狗”是问题中的主体,可以通过图谱查找相关的关系(如“狗”与“跑”之间的关系),然后形成三元组(“狗”,“跑”,“草地”)。 -
三跳路径(如角色知识图谱中的三跳路径):
在某些情境下,尤其是像角色知识图谱这样的复杂图谱中,关系不止是直接的三元组,而是通过多个中间节点(例如三跳路径)来关联。例如,角色知识图谱中可能有三条跳跃路径来表示一个复杂的关系,如:- “角色” → “动作” → “地点” → “时间”。
这意味着,角色执行动作,动作发生在特定地点,并且与特定时间相关。这是一个通过多个步骤(跳跃)来获取的知识路径。
- “角色” → “动作” → “地点” → “时间”。
-
简短的知识路径:
通过识别**图像(I)和问题(Q)**中的实体之间的简短知识路径,系统可以获取一些简单的事实三元组。这些路径通常很短,只涉及两个或三个实体之间的关系。例如,识别到图像中的“猫”与“椅子”之间的关系(如“猫”坐在“椅子”上),则可以生成三元组(“猫”,“坐在”,“椅子”)。
举例:
假设给定一个图像和问题:
- 问题(Q):“狗在什么地方跑?”
- 图像(I):显示一只狗在草地上奔跑。
-
提取概念节点:
从问题中提取出“狗”和“跑”作为概念节点,从图像中提取出“草地”作为概念节点。 -
通过知识图谱获取三元组:
假设系统通过知识图谱查询到,“狗”与“跑”之间的关系,草地是一个与“狗”跑步动作相关的地点。那么,可以得到三元组:- (“狗”,“跑”,“草地”)。
-
角色知识图谱中的三跳路径(如果适用):
假设在角色知识图谱中,关于“狗”的信息需要通过多个节点来查找,例如:- “狗” → “动物” → “哺乳动物” → “陆地动物”。
这是一个三跳路径,表示“狗”属于“动物”类别,进一步属于“哺乳动物”类别,最后属于“陆地动物”类别。
- “狗” → “动物” → “哺乳动物” → “陆地动物”。
-
简短的知识路径:
假如图像中有一个场景显示“狗”坐在“椅子”上,系统可以从图像和问题中提取出简单的关系并形成三元组(“狗”,“坐在”,“椅子”)。
总结:
这句话描述的是在多模态推理任务中,如何通过识别问题和图像中的概念(如对象或实体),并使用知识图谱中的三元组或知识路径来收集相关的事实信息,从而增强对问题的理解和回答。
五、密集检索【141】方法通常用于为给定的Q-I对检索最相关的前k条事实。此技术利用嵌入相似性将问题和视觉概念与预先简化的简洁事实句匹配,简化了检索过程,避免了复杂规则。这句话什么意思,举例解释一下?
这句话的意思是在多模态检索中,密集检索方法被用来从知识库中为给定的问题(Q)和图像(I)对检索出最相关的前k条事实。这一方法通过使用嵌入相似性(通常是通过将问题和图像转换为向量表示),将问题和视觉概念与简洁的事实句进行匹配,从而简化了检索过程,并避免了使用复杂的规则。
关键概念解释:
-
密集检索:
传统的检索方法通常依赖于基于关键词匹配的搜索,而密集检索则使用嵌入技术(如深度学习模型中的向量表示)将问题、图像和事实转换为密集的向量。这些向量表示能够捕捉到更多的语义信息,进而帮助计算两个向量之间的相似性,找出最相关的信息。 -
嵌入相似性:
嵌入相似性是指通过将问题和视觉概念转化为向量(嵌入表示),然后计算这些向量之间的相似度(如余弦相似度、欧氏距离等)来度量它们的相似性。例如,通过计算“狗”这个词和图像中的狗的向量表示之间的相似度,系统可以判断它们之间的关系。 -
简化的简洁事实句:
这些“简洁事实句”指的是一些简短且结构化的陈述,通常描述的是基本的事实或知识。例如,“狗在公园里跑”就是一个简洁的事实句。通过将这些句子简化并与问题和图像中的概念匹配,可以加速检索过程,而不需要复杂的规则或推理。 -
避免复杂规则:
传统的知识检索方法可能依赖复杂的规则或手工编写的逻辑来匹配问题和知识库中的数据。密集检索方法通过使用嵌入技术,自动计算相似度,避免了手动设计规则的复杂性。
举例:
假设我们有以下问题(Q)和图像(I)对:
- 问题(Q):“狗在公园里做什么?”
- 图像(I):显示一只狗在公园里跑。
步骤 1:问题和图像的嵌入表示
首先,将问题(“狗在公园里做什么?”)和图像中的内容(狗在公园里奔跑)转换为向量表示。这样,问题和图像都被转化为一个密集的、可以比较的数字向量。
步骤 2:通过嵌入相似性进行检索
然后,利用这些向量表示与知识库中预先准备好的简洁事实句(如“狗在公园里跑”,“狗在公园里玩”)进行匹配。通过计算相似度(如余弦相似性),系统可以找到最相关的事实句,例如,“狗在公园里跑”是最相关的事实。
步骤 3:返回最相关的k条事实
最后,系统返回与问题和图像最相关的前k条事实。例如,返回前两条事实句:
- “狗在公园里跑”
- “狗在公园里玩”
总结:
这句话说明了密集检索如何利用嵌入相似性来简化检索过程,通过将问题和视觉概念转换为向量,与简洁的事实句匹配,快速找到最相关的知识,而不需要复杂的规则或推理。这种方法提高了效率并简化了多模态推理的过程。
六、检索结构通常为对称或孪生结构,以支持共享嵌入空间,而跨模态检索场景(如基于CLIP的检索)则采用非对称设计。 什么意思,举例说明一下。
这句话的意思是,检索结构可以设计为对称或孪生结构,以便共享相同的嵌入空间,而在跨模态检索场景中(例如,使用CLIP进行的检索),通常采用的是非对称设计。
关键概念解释:
-
对称结构和孪生结构:
- 对称结构指的是问题和检索项(例如文本和图像)都使用相同的处理方式和嵌入空间。这意味着,问题和检索项在相同的嵌入空间中共享相同的表示方式。
- 孪生结构通常指的是使用两个相同的网络架构来处理两个不同的输入(例如,图像和文本),然后通过某种方式比较它们的嵌入表示。孪生网络在这两个输入之间共享权重,使得它们的嵌入空间是一致的。
-
共享嵌入空间:
共享嵌入空间意味着,无论是文本还是图像,它们都被映射到同一个嵌入空间中。通过这种方式,文本和图像之间的相似性可以直接通过它们在这个空间中的相对距离来衡量。 -
跨模态检索:
跨模态检索是指从一个模态(例如文本)中检索与另一个模态(例如图像)相关的信息。例如,用户输入一个文本描述(如“狗在公园里跑”),然后检索与之相关的图像(例如,公园中奔跑的狗)。 -
非对称设计:
在跨模态检索的非对称设计中,问题(如文本查询)和检索对象(如图像)使用不同的网络结构或不同的嵌入空间。例如,使用CLIP(Contrastive Language-Image Pretraining)模型时,文本和图像分别被映射到各自的嵌入空间,然后计算它们之间的相似性。这种设计并不要求图像和文本共享相同的嵌入空间,而是使用两个独立的网络将文本和图像映射到各自的空间。
举例说明:
假设我们有一个跨模态检索任务,目标是从文本查询中检索相关的图像。
- 对称/孪生结构:
假设我们使用一个孪生网络结构,其中文本和图像分别通过两个相同的神经网络进行处理,生成它们各自的嵌入表示。然后,通过比较文本和图像的嵌入向量之间的相似性,来确定它们之间的关系。
- 输入:一个文本描述,“狗在公园里跑”。
- 嵌入空间:文本和图像都通过相同的神经网络映射到相同的嵌入空间。例如,图像和文本都被映射到同一个向量空间,在这个空间中,表示“狗在公园里跑”的文本和展示狗奔跑的图像将靠得很近。
- 输出:检索到的图像将与文本描述的内容匹配,系统会返回展示狗在公园里跑的相关图像。
- 非对称设计(如CLIP模型):
在CLIP模型中,文本和图像分别通过不同的网络进行处理,分别映射到不同的嵌入空间。
- 文本模态:文本通过一个预训练的文本编码器(如Transformer)进行处理,输出一个文本嵌入向量。
- 图像模态:图像通过一个预训练的视觉编码器(如卷积神经网络或Transformer)进行处理,输出一个图像嵌入向量。
- 计算相似性:这两个向量存在于不同的嵌入空间,但CLIP通过设计了一个共同的对比损失(contrastive loss),使得在两种模态下的相似内容(例如,“狗在公园里跑”的文本和相应的图像)被拉近它们的嵌入表示,而不相关的内容则被推开。因此,尽管它们的嵌入空间是非对称的,系统仍能有效地进行跨模态检索。
加粗样式例子:
假设你有一个文本查询:“狗在公园里跑”,并且你希望检索到相关的图像。
- 在对称结构下,文本和图像被映射到相同的嵌入空间,通过比较它们的嵌入向量相似性来检索相关的图像。
- 在非对称设计(如CLIP)下,文本和图像被映射到各自的独立嵌入空间,然后通过计算它们之间的相似性来找出最相关的图像。尽管文本和图像使用不同的网络和空间,它们的嵌入通过对比学习机制被对齐,确保相似的文本和图像在各自的空间中相对接近。
总结:
这句话的意思是,对称结构和孪生结构用于将不同模态的数据(如文本和图像)映射到同一个嵌入空间以便共享,而非对称设计(如CLIP)则将文本和图像映射到各自独立的嵌入空间,采用不同的网络进行处理,最终通过计算它们之间的相似性来进行检索。
MMReasoner【115】借助大型语言模型(LLMs)从多维视觉描述中生成推理依据,整合常识知识、外部信息和支持性事实。这些推理依据连同I和Q一起,由专门微调的视觉语言模型(VLM)处理,以适应此类丰富输入。
RVL【135】和KVQAmeta【168】通过将知识图谱嵌入与PLM嵌入层输出的相应文本短语表示对齐,将知识注入VLM。
Pang等人【188】通过在跨模态融合和解码模块之间集成冻结的LLM(LLaMA【189】)的Transformer层,增强了VLM的参数化知识注入能力。
视觉数据的文本转换:这一类别将所有视觉信息转换为文本格式,如图像标题,从而能在统一的文本数据集上应用PLM推理,数据集包含背景知识、问题和图像【32】【108】【114】【121】【124】【125】【140】【142】【160】【169】【170】。