【GMNER】Grounded Multimodal Named Entity Recognition on Social Media

Grounded Multimodal Named Entity Recognition on Social Media

  • 动机
  • 解决方法
    • 特征抽取
    • 多模态索引设计
    • 索引生成框架
      • Encoder
      • Decoder
    • 实体定位、
    • 实体-类型-区域三元组重建

出处:ACL2023
论文链接:https://aclanthology.org/2023.acl-long.508.pdf
code链接:https://github.com/NUSTM/GMNER
在这里插入图片描述

动机

目前的MNER任务主要把视觉特征作为额外的线索来帮助提升纯文本任务的性能,但是这有三点问题:一是MNER任务只提取实体-类型对,忽略了他们对应的目标框;二是提取的内容仅仅对构建纯文本的知识图谱有用,但是去无法建立多模态知识图谱;三是只识别实体类型对难以有效的进行试题消歧

解决方法

在这里插入图片描述

特征抽取

文本特征直接通过BART得到

对于图像特征,首先利用VinVL识别出所有候选物体,通过对这些候选物体排序后,选择top-k个物体并且将这些区域的平均池化特征作为嵌入特征,最后用线性层将特征维度映射到隐层维度

多模态索引设计

本任务的词表经过特殊设计,前两位1,2代表是否包含定位目标(yes1no2),3-6代表person、location、organization、MISC,从7往后则是跟文本相关的token

预测过程中,模型预测一个三元组,包含<entity,if_groundable, type>,其中entity可能包含不止一个索引,所以在预测的过程中三元组的长度是大于等于3的,例如原文中提到的

The first triple [7,8,1,3]refers to {Michael Jordan, groundable, PER}, the second triple [12,2,4] denotes {Toronto, ungroundable, LOC}, and the third triple [19,20,21,1,5]refers to {the Fields Institute, groundable, ORG}.

索引生成框架

Encoder

将经过特征抽取后得到的文本特征和视觉特征拼接起来,得到编码器的输入,文本特征的维度为nxd,视觉特征的维度为Kxd,拼接后的输入维度为(n+K)xd

Decoder

在第i个时间步的解码过程中,解码器利用输入特征以及前i个输出作为输入,来预测第i个输出

在这里插入图片描述

其中

C= TokenEmbed (c) refers to the embeddings of two indicator indexes, four entity type indexes, and special tokens such as the “end of sentence” token

三个公式说明了两个问题:

1.解码器是自回归生成的过程,虽然要预测三元组,但是也要逐个预测,而不是三个一股脑输出

2.解码器在预测过程中将特殊的token C直接与文本输入进行拼接与隐层状态点乘,[C;H_T^e]所对应的token其实就代表了这里最终分类完要预测的目标,也就是只预测特殊token(定位、类型)和文本(实体),而视觉特征虽然被拼接到输入中,但是输出的时候不做任何预测,而要通过groundable token进行后续的实体定位

在这里插入图片描述

N=n+c,n表示文本分词后的token数量,c表示特殊token的数量

实体定位、

首先看原文这里的公式:

在这里插入图片描述

也是融合原始特征和经过编码器后的特征,而后预测当前肾蕨特征在所有预先提取的区域上的概率分布,通过h_k来控制当前实体是否要进行实体定位操作

对于预测有实体的输出,要接着级联一个MLP来进行进一步的定位判定,注意这个定位不是visual grounding中的坐标预测,而是利用视觉特征预先提取好的特征来匹配的操作,这个下面会详细说明:

正如图三中所展示的,视觉区域特征是提前用大模型抽取好的,那么这些抽取到的区域跟实体对应的真实区域可能不会完全重合,所以要结合二者重新设定预测目标。具体而言,计算预先抽取的区域与真值区域之间的交并比,大于0.5的情况下保留,小于0.5时设为0,这样能得到每个视觉区域与真值区域之间的IoU得分,将IoU得分的序列进行归一化则得到了每个视觉区域的目标分布g(z_k),最后利用KL散度对这个目标分布进行预测(其实就是一个相似度最大化的匹配过程)
在这里插入图片描述

其中E是定位实体的数量。

训练阶段,将Decoder的目标损失LT和实体定位得到目标损失LV相加得到分层索引模型的最终损失。

实体-类型-区域三元组重建

在推理阶段,给定多模态输入,利用模型集合得到自回归的索引预测结果集合,这个集合肯定是比原始输入序列长的,长度范围大概是[原始输入序列长度+2,原始序列长度*3](考虑整个序列为一个实体,以及序列中每个token各成实体的两种极端)

利用输出索引序列,我们首先将每个索引转换为其原始含义,然后根据每个元素的索引跨度重建三元组(实体、可接地/不可接地、类型)。完整的算法如算法 1 所示

在这里插入图片描述

首先注意:E是定位实体的数量,忽略这一点看这个伪代码就很难看明白了

首先,对于输出序列Y,每次取一个索引y_i,每个三元组肯定先取到实体,所以索引长度肯定大于c,也就是执行else的操作,将y_i加入到e中;如果这个实体包含多个token,那么会一直执行这一步,直到都被加入到e中

当遇到特殊token时,y_i<c,也就是当前索引的值小于特殊token的长度,那么会首先判断是否存在于当前区域或类型有关的实体,如果有实体再判断e中的实体索引是否递增。因为默认先预测是否包含实体区域y_i,再预测实体类型y_{i+1},所以只要当前的索引是1 or 2,那么下一个一定是3-6(这个设定不一定合理,但是伪代码就是这样的),所以不用判断,直接将实体e、区域y_i、类型y_{i+1}组成三元组加入到E中。执行完上述操作后,实体序列清空,i跳步

重复上述步骤,直到迭代结束

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/146194.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

[Linux] Linux操作系统 进程的状态

标题&#xff1a;[Linux] Linux操作系统 进程的状态 个人主页&#xff1a;水墨不写bug &#xff08;图片来源于网络&#xff09; 目录 一、前置概念的理解 1.并行和并发 2.时间片 3.进程间具有独立性 4.等待的本质 正文开始&#xff1a; 在校的时候&#xff0c;你一定学过《…

10 张手绘图详解Java 优先级队列PriorityQueue

PriorityQueue 是 Java 中的一个基于优先级堆的优先队列实现&#xff0c;它能够在 O(log n) 的时间复杂度内实现元素的插入和删除操作&#xff0c;并且能够自动维护队列中元素的优先级顺序。 通俗来说&#xff0c;PriorityQueue 就是一个队列&#xff0c;但是它不是先进先出的…

【速成Redis】04 Redis 概念扫盲:事务、持久化、主从复制、哨兵模式

前言&#xff1a; 前三篇如下&#xff1a; 【速成Redis】01 Redis简介及windows上如何安装redis-CSDN博客 【速成Redis】02 Redis 五大基本数据类型常用命令-CSDN博客 【速成Redis】03 Redis 五大高级数据结构介绍及其常用命令 | 消息队列、地理空间、HyperLogLog、BitMap、…

带你0到1之QT编程:十五、探索QSplitter和QDockWidget的简单应用技巧

此为QT编程的第十五谈&#xff01;关注我&#xff0c;带你快速学习QT编程的学习路线&#xff01; 每一篇的技术点都是很很重要&#xff01;很重要&#xff01;很重要&#xff01;但不冗余&#xff01; 我们通常采取总-分-总和生活化的讲解方式来阐述一个知识点&#xff01; …

系统架构设计师 - 案例特训专题 - 软件工程篇

案例特训专题 - 软件工程篇 软件工程篇需求分析 ★★★★结构化需求分析 SA数据流图答题技巧 面向对象设计 ★★UML 图概况用例图类图与对象图顺序图通信图状态图活动图定时图构件图包图部署图 大家好呀&#xff01;我是小笙&#xff0c;本章我主要分享系统架构设计师 - 案例特…

【刷题—双指针】复写0、三数之和、四数之和

目录 一、复写0二、三数之和三、四数之和 一、复写0 题目&#xff1a; 注意&#xff1a;题目要求是原数组上复写 思路&#xff1a; 一、确定最后一个复写的位置。定义两个变量cur等于0&#xff0c;dest等于-1&#xff0c;让cur去遍历数组。如果cur指向的元素是0&#xff0c;…

【玉米田】

题目 代码 #include <bits/stdc.h> using namespace std; typedef long long LL;const int mod 1e8; const int M 1 << 12; LL f[13][M]; int g[13]; vector<int> state; vector<int> p[M]; int n, m; bool check(int x) {return !(x & x <&…

【Linux课程学习】make/Makefile:Linux项目自动化构建工具

&#x1f381;个人主页&#xff1a;我们的五年 &#x1f50d;系列专栏&#xff1a;Linux课程学习 &#x1f337;追光的人&#xff0c;终会万丈光芒 &#x1f389;欢迎大家点赞&#x1f44d;评论&#x1f4dd;收藏⭐文章 &#x1f349;一.make/Makefile的理解&#xff1a; …

基于SpringBoot+Vue+MySQL的国产动漫网站

系统展示 用户前台界面 管理员后台界面 系统背景 随着国内动漫产业的蓬勃发展和互联网技术的快速进步&#xff0c;动漫爱好者们对高质量、个性化的国产动漫内容需求日益增长。然而&#xff0c;市场上现有的动漫平台大多以国外动漫为主&#xff0c;对国产动漫的推广和展示存在不…

【Java集合】深入了解ArrayList实现原理

概述 1.数据存储是基于动态数组实现的&#xff0c;默认初始容量为10。 2.添加数据时&#xff0c;首先需要检查元素个数是否超过数组容量&#xff0c;如果超过了则需要对数组进行扩容&#xff08;1.5倍&#xff09;&#xff1b;插入数据时&#xff0c;需要将从插入点 k 开始到数…

BMC 虚拟i2c访问PCA9545(switch芯片)后面的设备,为什么找不到PCA9545?

1.说明 1.1 背景 无意中看到PCA9545(switch芯片)后面有设备&#xff0c;但是PCA9545设备本身是连接到物理设备i2c上的&#xff0c;然而扫描该物理i2c bus&#xff0c;却找不到该设备。此篇文章主要找一下该原因的。 1.2 参考代码 当前使用的是ast2600芯片&#xff0c;可参考…

java使用ByteBuffer进行多文件合并和拆分

1.背景 因为验证证书的需要&#xff0c;需要把证书文件和公钥给到客户&#xff0c;考虑到多个文件交互的不便性&#xff0c;所以决定将2个文件合并成一个文件交互给客户。刚开始采用字符串拼接2个文件内容&#xff0c;但是由于是加密文件&#xff0c;采用字符串形式合并后&…

threejs性能优化之gltf文件压缩threejs性能优化之glb文件压缩

在使用Three.js进行3D图形开发时&#xff0c;GLTF&#xff08;GL Transmission Format&#xff09;文件因其高效性和灵活性而广受欢迎。然而&#xff0c;随着模型复杂度的增加&#xff0c;GLTF文件的大小也会显著增加&#xff0c;这可能会对加载时间和渲染性能产生负面影响。为…

Redis数据结构之哈希表

这里的哈希表说的是value的类型是哈希表 一.相关命令 1.hset key field value 一次可以设置多个 返回值是设置成功的个数 注意&#xff0c;哈希表中的键值对&#xff0c;键是唯一的而值可以重复 所以有下面的结果&#xff1a; key中原来已经有了f1&#xff0c;所以再使用hse…

linux 操作系统下dhcrelay命令介绍和案例应用

linux 操作系统下dhcrelay命令介绍和案例应用 dhcrelay是一个用于DHCP&#xff08;动态主机配置协议&#xff09;中继的命令&#xff0c;主要功能是在没有本地DHCP服务器的子网中转发DHCP请求。这使得不同子网的DHCP客户端能够与位于其他子网中的DHCP服务器进行通信。 dhcrela…

基于微信小程序的购物系统+php(lw+演示+源码+运行)

基于微信小程序的购物系统 摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了基于微信小程序的购物系统的开发全过程。通过分析基于微信小程序的购物系统管理的不足&#xff0c;创建了一个计算机管理基于微信小…

如何使用 Python 连接 MySQL 数据库?什么是 ORM(对象关系映射),如何使用

数据库是现代软件开发中的核心部分&#xff0c;而 Python 作为一种流行的编程语言&#xff0c;广泛应用于数据处理和分析工作。通常我们需要通过 Python 连接数据库并执行一些常见的操作&#xff0c;如插入、查询、更新和删除数据。在实际开发中&#xff0c;MySQL 是非常常用的…

LeetCode[中等] 155. 最小栈

设计一个支持 push &#xff0c;pop &#xff0c;top 操作&#xff0c;并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。void push(int val) 将元素val推入堆栈。void pop() 删除堆栈顶部的元素。int top() 获取堆栈顶部的元素。int get…

线程知识点补充

我们之前&#xff1a; 主线程下来&#xff0c;调用了一个方法run方法&#xff0c;方法执行完后再继续往下走主线程。 咱们期望&#xff1a; 两个同时执行&#xff0c;交替执行。 一些核心概念说明&#xff1a; 一个程序写好是静态的&#xff0c;给他运行起来就是一个进程了…

java计算机毕设课设—土地档案管理系统(附源码、文章、相关截图、部署视频)

这是什么系统&#xff1f; 资源获取方式在最下方 java计算机毕设课设—土地档案管理系统(附源码、文章、相关截图、部署视频) 土地档案管理系统是一种将传统纸质档案进行数字化管理的软件。通过该系统&#xff0c;用户能够高效地进行土地档案的存储、查阅、修改和删除等操作…