摘要
知识图用实体和关系组成的三元组来表示人类的知识。虽然现有的知识图嵌入方法大多只考虑知识图的结构,但最近提出的一些多模态方法利用知识图中实体的图像或文本描述。在本文中,我们提出了视觉文本知识图(VTKGs),其中不仅可以使用图像解释实体,还可以使用三元组,并且实体和关系都可以伴随文本描述。通过编译视觉上可表达的常识知识,我们构建了新的基准数据集,其中三元组本身由图像解释,实体和关系的含义使用文本描述。我们提出了一种面向VTKGs的知识图表示学习方法VISTA,该方法使用实体编码、关系编码和三重解码转换器将实体和关系的可视化和文本表示结合起来。实验表明,VISTA在实际VTKGs中优于最先进的知识图完成方法。
1.介绍
知识图谱以结构化的形式提供了各种各样的人类知识,将每个事实表示为由实体和关系组成的三元组。知识图表示学习方法(Ji等人,2022)旨在将实体和关系转换为一组表示向量,可用于预测缺失三元组或其他应用,如常识推理(Lin等人,2019)和问答模型(Liu等人,2020)。而大多数现有的知识图嵌入方法只关注知识图的结构来学习表示(Lacroix等,2018;Sun等人,2019),使用额外的图像或文本描述可以产生更好的表示。最近提出的几种多模态知识图补全方法(Zhao et al ., 2022;Li等人,2023)考虑实体可以拥有其图像和文本描述的情况;图1 (a)是现有多模态知识图补全方法考虑的一种知识图形式。
图1:虽然现有的方法假设只有实体有它们的图像和文本描述,但我们的VTKG还考虑了三元组本身由图像表示,关系有文本描述的情况。
我们关注的事实是,一些三胞胎可以更直观地通过他们的形象来表达。例如,在图1 (b)中,〈person, ride, horse〉和〈person, pull, cart〉具有图像,其中三元组本身由图像表示,提供视觉洞察力。另一方面,现有的知识图没有为三元组提供图像,并且可能缺乏视觉上可表达的三元组,因为它们主要通过从文本中提取信息来构建。因此,我们提出通过从图像中提取信息,并利用这些图像来表示视觉常识,从而形成知识图谱。
为此,我们从不同的计算机视觉任务中编译三联体视觉短语及其图像,包括视觉关系检测(Lu et al ., 2016)、人-物交互检测(Chao et al ., 2018)和视觉知识提取(Sadeghi et al ., 2015)。我们提出了视觉文本知识图(VTKGs),其中实体和三元组可以用图像表示,实体和关系有它们的文本描述,如图1 (b)所示。我们构建了新的VTKG基准数据集,其中包含视觉可表达的常识知识、实体和三元组的图像以及实体和关系的详细描述。
为了学习VTKGs中实体和关系的表示,我们提出了视觉文本(VISTA)知识图表示学习方法,该方法不仅利用了视觉文本知识图的结构,还利用了从图像和文本描述中提取的视觉和文本特征。特别是,当一个三元组提供一个图像时,VISTA学习给定三元组中关系的视觉表示。当关系在其他三元组中出现时,也可以利用所得到的关系的视觉表示,从而增强整个表示学习过程。据我们所知,VISTA是第一个学习视觉可表达关系的视觉表示的知识图表示学习方法。我们通过提出三种转换器来设计VISTA:实体编码、关系编码和三元组解码转换器。实体和关系编码转换器使用它们的视觉和文本特征向量表示实体和关系,而三元组解码转换器使用屏蔽方案预测三元组中缺失的实体。在四个真实数据集上的实验结果表明,VISTA优于10种不同的最先进的知识图谱完成方法。我们的数据集和代码可在https://github.com/bdi-lab/VISTA上获得。
2 Related Work
Visual Commonsense Reasoning
已经有一些尝试通过使用视觉可验证的关系从图像中提取视觉知识(Sadeghi等人,2015;Chen et al ., 2013)。然而,它们并没有在多模态知识图表示学习的背景下进行研究,而且一些数据集目前还无法访问。最近,Visual Genome数据集(Krishna等人,2017)已经发布,其中合并了各种计算机视觉数据集。然而,该数据集包含异构信息,这些信息不是三元组的形式,或者很难被认为是常识性知识。另一方面,我们的VTKG数据集以图像三元组的形式提供视觉常识,可以无缝地扩展现有的知识库。我们相信我们的工作可以用于视觉常识推理(Zellers等人,2019)和视觉问答(VQA) (Antol等人,2015)。
Knowledge Integration
Ilievski等人试图通过手动对知识类型进行分类来检查来自不同来源的信息的特征(Ilievski等人,2021)。从多模态学习的角度来看,已经考虑了向现有知识库添加不同的模态(Zhu et al ., 2022),例如,向知识图中的实体添加图像或文本。与这些方法不同的是,我们的vtkg被用来表示视觉上可表达的知识,我们的基准数据集是通过使用WordNet同义词集对来自不同来源的实体和关系进行精细对齐而创建的(Miller, 1995)。详情见第3.2节
Multimodal Knowledge Graph Completion
而一些知识图嵌入方法利用实体图像(Xie et al ., 2017;Wang等,2021;Oñoro-Rubio等人,2019;Liu等人,2019),最近提出的一些多模态方法同时考虑了实体的图像和文本描述(Pezeshkpour等人,2018;Wang et al, 2019)。例如,MoSE (Zhao et al ., 2022)和IMF (Li et al ., 2023)学习特定于模态的表征,并使用来自不同模态的表征进行预测。此外,OTKGE (Cao et al ., 2022)提出了一种最优传输来对齐多模态嵌入,而MKGformer (Chen et al ., 2022)使用混合变压器进行多级融合。与VISTA不同的是,所有这些现有的方法都假设只有实体可以有图像或描述,而不考虑图像代表三元组本身或关系具有描述的情况。
图3:VISTA的概述。我们使用ViT-Base和BERTBASE提取视觉和文本特征。实体和关系编码转换器分别计算实体和关系表示。生成的表示被馈送到三元组解码转换器,该转换器预测三元组中缺失的实体。
6 Conclusion & Future Work
我们提出了VTKGs,其中视觉上可表达的三元组被图像增强,实体和关系都有文本描述。通过适当地利用所有这些丰富的信息,VISTA在现实世界的VTKG数据集中大大优于10种不同的最新知识图完成方法。我们的VTKG数据集和VISTA模型可用于各种应用和场景(Sekuboyina等人,2019;Kwak等,2022;Lee等人,2023),包括那些需要视觉常识的知识,如VQA (Marino等人,2021)或场景图生成(Chang等人,2023;Zareian et al, 2020)和常识推理(Lin et al, 2019)。
我们将把我们的工作扩展到超关系知识图(Galkin et al, 2020;Chung et al ., 2023)或双层知识图(Chung and Whang, 2023),其中使用限定词向每个三元组添加更多信息,或者考虑更高级别的关系来丰富三元组之间的信息。通过将图像或描述结构化为辅助信息或限定符,VISTA可以很容易地扩展为具有图像和文本的超关系知识图。