有代码VISTA: Visual-Textual Knowledge Graph Representation Learning

摘要

知识图用实体和关系组成的三元组来表示人类的知识。虽然现有的知识图嵌入方法大多只考虑知识图的结构,但最近提出的一些多模态方法利用知识图中实体的图像或文本描述。在本文中,我们提出了视觉文本知识图(VTKGs),其中不仅可以使用图像解释实体,还可以使用三元组,并且实体和关系都可以伴随文本描述。通过编译视觉上可表达的常识知识,我们构建了新的基准数据集,其中三元组本身由图像解释,实体和关系的含义使用文本描述。我们提出了一种面向VTKGs的知识图表示学习方法VISTA,该方法使用实体编码、关系编码和三重解码转换器将实体和关系的可视化和文本表示结合起来。实验表明,VISTA在实际VTKGs中优于最先进的知识图完成方法。

1.介绍

知识图谱以结构化的形式提供了各种各样的人类知识,将每个事实表示为由实体和关系组成的三元组。知识图表示学习方法(Ji等人,2022)旨在将实体和关系转换为一组表示向量,可用于预测缺失三元组或其他应用,如常识推理(Lin等人,2019)和问答模型(Liu等人,2020)。而大多数现有的知识图嵌入方法只关注知识图的结构来学习表示(Lacroix等,2018;Sun等人,2019),使用额外的图像或文本描述可以产生更好的表示。最近提出的几种多模态知识图补全方法(Zhao et al ., 2022;Li等人,2023)考虑实体可以拥有其图像和文本描述的情况;图1 (a)是现有多模态知识图补全方法考虑的一种知识图形式。

图1:虽然现有的方法假设只有实体有它们的图像和文本描述,但我们的VTKG还考虑了三元组本身由图像表示,关系有文本描述的情况。

我们关注的事实是,一些三胞胎可以更直观地通过他们的形象来表达。例如,在图1 (b)中,〈person, ride, horse〉和〈person, pull, cart〉具有图像,其中三元组本身由图像表示,提供视觉洞察力。另一方面,现有的知识图没有为三元组提供图像,并且可能缺乏视觉上可表达的三元组,因为它们主要通过从文本中提取信息来构建。因此,我们提出通过从图像中提取信息,并利用这些图像来表示视觉常识,从而形成知识图谱。

为此,我们从不同的计算机视觉任务中编译三联体视觉短语及其图像,包括视觉关系检测(Lu et al ., 2016)、人-物交互检测(Chao et al ., 2018)和视觉知识提取(Sadeghi et al ., 2015)。我们提出了视觉文本知识图(VTKGs),其中实体和三元组可以用图像表示,实体和关系有它们的文本描述,如图1 (b)所示。我们构建了新的VTKG基准数据集,其中包含视觉可表达的常识知识、实体和三元组的图像以及实体和关系的详细描述。

为了学习VTKGs中实体和关系的表示,我们提出了视觉文本(VISTA)知识图表示学习方法,该方法不仅利用了视觉文本知识图的结构,还利用了从图像和文本描述中提取的视觉和文本特征。特别是,当一个三元组提供一个图像时,VISTA学习给定三元组中关系的视觉表示。当关系在其他三元组中出现时,也可以利用所得到的关系的视觉表示,从而增强整个表示学习过程。据我们所知,VISTA是第一个学习视觉可表达关系的视觉表示的知识图表示学习方法。我们通过提出三种转换器来设计VISTA:实体编码、关系编码和三元组解码转换器。实体和关系编码转换器使用它们的视觉和文本特征向量表示实体和关系,而三元组解码转换器使用屏蔽方案预测三元组中缺失的实体。在四个真实数据集上的实验结果表明,VISTA优于10种不同的最先进的知识图谱完成方法。我们的数据集和代码可在https://github.com/bdi-lab/VISTA上获得。

2 Related Work

Visual Commonsense Reasoning

已经有一些尝试通过使用视觉可验证的关系从图像中提取视觉知识(Sadeghi等人,2015;Chen et al ., 2013)。然而,它们并没有在多模态知识图表示学习的背景下进行研究,而且一些数据集目前还无法访问。最近,Visual Genome数据集(Krishna等人,2017)已经发布,其中合并了各种计算机视觉数据集。然而,该数据集包含异构信息,这些信息不是三元组的形式,或者很难被认为是常识性知识。另一方面,我们的VTKG数据集以图像三元组的形式提供视觉常识,可以无缝地扩展现有的知识库。我们相信我们的工作可以用于视觉常识推理(Zellers等人,2019)和视觉问答(VQA) (Antol等人,2015)。

Knowledge Integration

Ilievski等人试图通过手动对知识类型进行分类来检查来自不同来源的信息的特征(Ilievski等人,2021)。从多模态学习的角度来看,已经考虑了向现有知识库添加不同的模态(Zhu et al ., 2022),例如,向知识图中的实体添加图像或文本。与这些方法不同的是,我们的vtkg被用来表示视觉上可表达的知识,我们的基准数据集是通过使用WordNet同义词集对来自不同来源的实体和关系进行精细对齐而创建的(Miller, 1995)。详情见第3.2节

Multimodal Knowledge Graph Completion

而一些知识图嵌入方法利用实体图像(Xie et al ., 2017;Wang等,2021;Oñoro-Rubio等人,2019;Liu等人,2019),最近提出的一些多模态方法同时考虑了实体的图像和文本描述(Pezeshkpour等人,2018;Wang et al, 2019)。例如,MoSE (Zhao et al ., 2022)和IMF (Li et al ., 2023)学习特定于模态的表征,并使用来自不同模态的表征进行预测。此外,OTKGE (Cao et al ., 2022)提出了一种最优传输来对齐多模态嵌入,而MKGformer (Chen et al ., 2022)使用混合变压器进行多级融合。与VISTA不同的是,所有这些现有的方法都假设只有实体可以有图像或描述,而不考虑图像代表三元组本身或关系具有描述的情况。

图3:VISTA的概述。我们使用ViT-Base和BERTBASE提取视觉和文本特征。实体和关系编码转换器分别计算实体和关系表示。生成的表示被馈送到三元组解码转换器,该转换器预测三元组中缺失的实体。

6 Conclusion & Future Work

我们提出了VTKGs,其中视觉上可表达的三元组被图像增强,实体和关系都有文本描述。通过适当地利用所有这些丰富的信息,VISTA在现实世界的VTKG数据集中大大优于10种不同的最新知识图完成方法。我们的VTKG数据集和VISTA模型可用于各种应用和场景(Sekuboyina等人,2019;Kwak等,2022;Lee等人,2023),包括那些需要视觉常识的知识,如VQA (Marino等人,2021)或场景图生成(Chang等人,2023;Zareian et al, 2020)和常识推理(Lin et al, 2019)。

我们将把我们的工作扩展到超关系知识图(Galkin et al, 2020;Chung et al ., 2023)或双层知识图(Chung and Whang, 2023),其中使用限定词向每个三元组添加更多信息,或者考虑更高级别的关系来丰富三元组之间的信息。通过将图像或描述结构化为辅助信息或限定符,VISTA可以很容易地扩展为具有图像和文本的超关系知识图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/4820.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

C语言 | Leetcode C语言题解之第523题连续的子数组和

题目&#xff1a; 题解&#xff1a; struct HashTable {int key, val;UT_hash_handle hh; };bool checkSubarraySum(int* nums, int numsSize, int k) {int m numsSize;if (m < 2) {return false;}struct HashTable* hashTable NULL;struct HashTable* tmp malloc(sizeo…

Kimi的论文语言润色技巧:38个提示词让你的写作更专业

学境思源&#xff0c;一键生成论文初稿&#xff1a; AcademicIdeas - 学境思源AI论文写作 在学术写作中&#xff0c;语言的精准与流畅性是衡量论文质量的重要标准。Kimi作为一款先进的AI助手&#xff0c;为论文润色提供了全新的解决方案。本文将分享38个实用的Kimi提示词&…

如何利用大规模外链爆发提升SEO效果?

如果你的网站需要在短时间内实现大幅度流量增长&#xff0c;那么GMB外链无疑是最具爆发力的外链策略之一。这种外链策略通过大规模的外链发布&#xff0c;能够在短期内迅速推动网站的数据收录&#xff0c;并带来显著的SEO效果。 GMB外链的最大特点在于其数量的爆发性。一次群发…

去除人声的利器:消音伴奏软件合集

消音伴奏软件可以指专业的音频编辑软件&#xff0c;也可以指近几年出现的很多消音提伴奏的AI工具。这类软件的主要作用就是帮我们去除歌曲或者视频中的人声&#xff0c;从而提取出纯净的伴奏或者背景音乐。目前市面上有哪些知名且好用的消音伴奏软件&#xff1f;我们应该怎样选…

【前端】JavaScript 方法速查大全-对象(二)

&#x1f525; 前言 在现代Web开发中&#xff0c;JavaScript已经成为不可或缺的编程语言。无论是前端开发还是后端服务&#xff0c;JavaScript都扮演着重要角色。为了帮助开发者更高效地使用JavaScript&#xff0c;本文将为您提供一个全面、系统的JavaScript方法参考&#xff…

复习数据库(外键约束)下篇

目录 前言 认识外键 外键的特点 外键的设计方式 多对多 组合主键 一对多/多对一 一对一 外键和外键约束的关系 外键的使用 添加约束 在建表时添加外键约束 如果已经创建表了,那我们可以修改表的方式给表添加外键约束: 应用实例 删除约束 删除/更新行为 含义 …

深入理解 Kafka:分布式消息队列的强大力量

一、引言 在现代分布式系统中&#xff0c;消息队列扮演着至关重要的角色&#xff0c;而 Kafka 作为其中的佼佼者&#xff0c;以其高吞吐量、可扩展性和持久性等特点被广泛应用。无论是处理海量的日志数据、实时的用户交互信息&#xff0c;还是复杂的微服务间通信&#xff0c;Ka…

Jekins篇(搭建/安装/配置)

目录 一、环境准备 1. Jenkins安装和持续集成环境配置 2. 服务器列表 3. 安装环境 Jekins 环境 4. JDK 环境 5. Maven环境 6. Git环境 方法一&#xff1a;yum安装 二、JenKins 安装 1. JenKins 访问 2. jenkins 初始化配置 三、Jenkins 配置 1. 镜像配置 四、Mave…

mmpose框架进行人体姿态识别模型HRNet训练

进行训练之前要先进行标注及数据增强&#xff0c;标注工具写在另一篇&#xff0c;首先讲数据增强。 数据增强 进行简单的色彩变换和位置变换&#xff0c;代码如下&#xff1a; from PIL import Image, ImageEnhance import numpy as np import os import glob import json im…

Dinky中配置Flink集群

需要启动yarn-session 进程&#xff0c;在集群服务器 cd /pwd//flink/bin yarn-session -d 启动成功后可以在yarn的资源管理队列进行查看 启动成功后会给出&#xff1a;JobManager Web Interface 在dinky中进行配置&#xff1a; 集群配置 Hadoop 配置&#xff1a; H…

Android13 系统/用户证书安装相关分析总结(三) 增加安装系统证书的接口遇到的问题和坑

一、前言 接上回说到&#xff0c;修改了程序&#xff0c;增加了接口&#xff0c;却不知道有没有什么问题&#xff0c;于是心怀忐忑等了几天。果然过了几天&#xff0c;应用那边的小伙伴报过来了问题。用户证书安装没有问题&#xff0c;系统证书(新增的接口)还是出现了问题。调…

hashcat爆破rar密码

背景&#xff1a; 在一道CTF题目的时候遇到了一个rar加密压缩包&#xff0c;记录一下爆破过程。 过程&#xff1a; 1、在前一个压缩包里面发现密码提示 2、file查看文件类型&#xff0c;发现是RAR v5&#xff0c;无法使用ARCHPR爆破&#xff0c;排除&#xff1b; 3、使用Pa…

构建多维分类知识库:Spring Boot实战

1 绪论 1.1 研究背景 在这个推荐个性化的时代&#xff0c;采用新技术开发一个多维分类的知识管理系统来分享和展示内容是一个永恒不变的需求。本次设计的多维分类的知识管理系统有管理员和用户两个角色。 管理员可以管理用户信息&#xff0c;知识分类&#xff0c;知识信息等&am…

深度学习实战100-大模型LLM之混合专家模型MoE的原理,以及代码实现过程

大家好,我是微学AI,今天给大家介绍一下深度学习实战100-大模型LLM之混合专家模型MoE的原理,以及代码实现过程。 混合专家模型(Mixture of Experts, MoE)是一种创新性的神经网络架构,巧妙地结合了 问题分类 和 领域专家 的概念。在这种架构中,输入数据首先经过一个门控网络…

AI + 绘画 | 100个可变现的渠道、方式

商机&#xff1a;AI绘画技术在美发⾏业的应⽤&#xff0c;旨在降低视频和图⽂制作成本&#xff0c;提升服务展⽰效果。通过AI技术&#xff0c;可以轻松展⽰发型设计前后对⽐&#xff0c;解决顾客与发型师之间的沟通难题。 变现&#xff1a; 1.⽣产图⽂内容或教程&#xff0c;…

[vulnhub]Empire: Breakout

https://www.vulnhub.com/entry/empire-breakout,751/ 端口扫描主机发现 探测存活主机&#xff0c;183是靶机 nmap -sP 192.168.75.0/24 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-11-05 23:37 CST Nmap scan report for 192.168.75.1 Host is up (0.00045s latency…

精益生产管理培训对哪些岗位的人更有帮助?

精益生产管理培训作为一种提升企业运营效率和管理水平的有效手段&#xff0c;在现代企业中扮演着至关重要的角色。它不仅能够帮助企业减少浪费、优化流程&#xff0c;还能增强员工的责任感和团队协作能力。那么&#xff0c;精益生产管理培训对哪些岗位的人更有帮助呢&#xff1…

OpenCV的操作

1.图像的基本操作 1.1读取图像 image_handler cv2.imread(image_path, cv2.IMREAD_COLOR) 第一个参数图片的存储路径&#xff0c;第二个参数是图像的读取方式 第二个参数有三个选项: cv2.IMREAD_UNCHANGED&#xff1a;保持原格式不变&#xff0c;-1&#xff1b;cv2.IMREA…

数据结构之单链表

前言&#xff1a;上一篇文章我们了解到顺序表&#xff0c;这一次来看另一种线性表-------单链表。 1. 单链表的概念 单链表&#xff0c;想必很多人会感到陌生吧。那么&#xff0c;到底什么是单链表呢&#xff1f;先了解清楚单链表的概念及特性&#xff0c;才能够更好的实现单…

RabbitMQ死信队列

RabbitMQ死信队列 1、RabbitMQ死信队列2、代码示例2.1、队列过期2.1.1、配置类RabbitConfig&#xff08;关键代码&#xff09;2.1.2、业务类MessageService2.1.3、配置文件application.yml2.1.4、启动类2.1.5、配置文件2.1.6、测试 2.2、消息过期2.2.1、配置类RabbitConfig2.2.…