[论文阅读] DVQA: Understanding Data Visualizations via Question Answering

原文链接:http://arxiv.org/abs/1801.08163

启发:没太读懂这篇论文,暂时能理解的就是本文提出了一个专门针对条形图问答的数据集DVQA以及一个端到端模型SANDY,模型有两个版本,Oracle和OCR。主要解决的问题是固定词表无法回答包含图表特有词汇问题。所以在SANDY(Oracle)中使用DVQA数据集的所有注释来构建词表,在SANDY(OCR)中使用开源的Tesseract OCR的输出,这样都保证了词表中能包含所有出现在图表以及问题中的词汇。至于文本提到的其他贡献,暂时无法理解。

Abstract

研究对象:条形图

研究问题:条形图的开放式问题问答

研究方法:介绍了 DVQA,这是一个数据集,用于测试问答框架中条形图理解的许多方面。与视觉问答 (VQA) 不同,DVQA 需要处理特定条形图独有的单词和答案。最先进的 VQA 算法在DVQA 上表现不佳,我们提出了两个性能要好得多的强基线。我们的工作将使算法能够从科学出版物、互联网文章、商业报告和许多其他领域的大量条形图中自动提取数字和语义信息。

1 Introduction

        本文我们研究了能够回答有关条形图的开放式问题的系统,我们将其称为数据可视化问答 (DVQA)。DVQA 将允许自动查询科学文档、网页和业务报告中的大量图表存储库。如图1所示,DVQA的问题可分为图表结构理解、数据检索、推理。

        DVQA 还可以作为广义模式匹配、注意力和多步推理系统的具有挑战性的代理任务。回答有关图表的问题需要多步骤的关注、记忆、测量和推理。VQA 通常被视为分类问题,其中答案是使用图像-问题对中的特征推断的类别,DVQA 与视觉问答 (VQA)相关,但是DVQA尝试解决三个问题:

(1)可变词典。VQA系统采用两个固定的词典:一个用于对问题中的单词进行编码,另一个用于生成答案。到那时DVQA的词典不能是固定的,因为许多答案中包含条形图特有的单词,如果是固定词典就无法解答这些问题。所以我们的模型演示了两种解决out-of-vocabulary(OOV) words问题的方法。

(2)语言的固定性与变动性。在VQA中,语言与图像中的语义概念有固定关联。例如,“大而闪亮的红色立方体”一旦定义,便在所有相关图像中一致。而在DVQA中,词语常常用来描述图表中的元素,如条形图的颜色、大小和位置,这些可以在不同图表中变化。(读不懂。。。

(3)图表图像的不规则性:VQA使用的自然图像通常具有某种规律,使得系统可以从图像的特征中推断信息,比如天气图通过颜色与亮度来判断晴天。相较之下,DVQA中的视觉元素如图例和颜色的稍微变动(如调换顺序)就能导致整张图表的信息发生完全变化,这种不规则性带来了额外的解析难度。

本文做出了三个主要贡献:

1. 我们介绍了 DVQA 数据集,其中包含超过 300 万个关于条形图的图像问题对。它测试三种形式的图表理解:a) 结构理解;b) 数据检索;c) 推理。DVQA 数据集将公开发布。

2. 我们发现最先进的 VQA 算法无法回答 DVQA 中的许多问题。此外,基于静态和预定义词汇表的现有基于分类的系统无法回答具有训练期间未遇到的独特答案的问题。

3. 我们描述了两个 DVQA 系统,它们能够处理特定图像独有的单词。一个是端到端神经网络,可以从条形图中读取答案。第二个模型是使用动态本地词典对条形图文本进行编码的模型。 

2. Related Work

3. DVQA: The Dataset 

 DVQA 数据集包含大量典型可用的条形图样式。数据集中的问题需要能够对条形图中的信息进行推理(见图 1)。DVQA 包含 300,000 张图像的 3,487,194 个问答对,分为三种主要问题类型。

 3.1. Appearance, Data, and Question Types

视觉样式:我们使用 python 流行的绘图工具 Matplotlib 来生成我们的图表。如图 3 所示,DVQA 的条形图在外观和样式方面都包含很大的可变性,可以捕捉到科学文献和 Internet 中的常见样式。其中一些变化包括柱线和组数的差异;是否存在网格线;条形的颜色、宽度、间距、方向和纹理的差异;以及标签和图例的方向和位置的差异。为了标记单个条形和图例条目,我们使用 NLTK 的词性标记为我们的训练集和“简单”测试集 Test-Familiar 选择了 Brown 语料库中最常见的 1000 个名词。为了衡量系统扩展到未知答案的能力,我们还创建了一个难度更高的测试集 Test-Novel,其中我们使用了 500 个在训练过程中看不到的新单词。

基础数据:DVQA 有三种条形图数据类型:线性、百分比和指数。对于这些数据值类型中的每一种,条形可以采用 1 – 10 范围内的线性数据、10 – 100 (百分比)和 1 - 1010 (指数数据类型)中随机选择的 10 个值中的任何一个。允许一小部分条形的值为零,该值在图表中显示为缺失的条形。

问题类型:DVQA 包含三种类型的问题:1) 结构理解,2) 数据检索,以及 3) 推理。为了生成这些问题,我们使用固定模板。

3.2. Post-processing to Minimize Bias

        VQA 中的几项研究表明,数据集中的偏差会损害性能评估,并为仅利用统计模式的系统提供夸大的分数。在 DVQA 中,我们采取了多项措施来打击此类偏见。为了确保样式、颜色和标签之间没有关联,我们随机化了图表的生成。有些问题可能具有很强的先验性,例如,问题 'Does the chart contain stacked bar?' 正确答案为“否”的可能性很高,因为这些堆积图并不常见。为了补偿这一点,我们会随机删除这些问题,直到每种问题类型(其中是/否)的答案都是平衡的。类似的方案用于平衡其他结构理解问题以及前两个数据检索问题。

4. DVQA Algorithms & Models 

4.1. 基线模型

我们评估了 DVQA 的五个基线模型:

1. YES:该模型对所有问题的回答都是“是”,这是 DVQA 中最常见的答案,比“否”略高。

2. IMG:无视问题模型。图像会使用 Resnet 对池化后的最终卷积层的输出进行编码,然后由具有一个具有 1,024 个单元的隐藏层和一个 softmax 输出层的 MLP 从中预测答案。

3. QUES:无视图像模型。它使用 LSTM 编码器嵌入问题,然后由具有一个隐藏层(具有 1,024 个单元和一个 softmax 输出层)的 MLP 预测答案。

4. IMG+QUES:这是 QUES 和 IMG 模型的组合。它连接 LSTM 和 CNN 嵌入,然后将它们馈送到具有一个 1024 个单元的隐藏层和一个 softmax 输出层的 MLP。

5. SAN-VQA:VQA 的堆叠注意力网络(SAN)。我们按照论文重新实现 SAN ,升级原始 SAN 的图像功能和一些小的更改可以在 VQA 1.0 和 2.0 上产生最先进的结果。SAN 对最后的 CNN 卷积特征图进行操作,在那里它使用基于 LSTM 的方案中的问题嵌入仔细处理该映射。

4.2. 多输出模型 (MOM)

        DVQA 多输出模型 (MOM) 使用双网络架构,其中其中一个子网络能够生成特定于图表的答案。MOM 的分类子网络负责通用答案。MOM 的光学字符识别 (OCR) 子网络负责必须从条形图中读取的特定于图表的答案。

MOM 的 OCR 子网络尝试预测包含正确标签的边界框,然后将字符级解码器应用于该区域。边界框预测器使用均方误差 (MSE) 损失作为回归任务进行训练。从该区域提取图像块,将其大小调整为 128 × 128,然后对其应用一个小的 3 层 CNN。由于框中文本的方向会有所不同,因此我们采用 N 步空间注意力机制来编码图像块中 N 个可能字符中每个字符的相关特征,其中 N 是最大可能的字符序列(在我们的实验中为 N = 8)。这 N 个特征使用双向门控递归单元 (GRU) 进行编码,以捕获自然出现的单词中发现的字符级相关性。GRU 编码之后是一个预测字符序列的分类层,该分类层使用连接主义时间分类 (CTC) 损失进行训练。

MOM 必须决定是使用分类子网络(即 SAN-VQA)或者OCR 子网络来回答问题,所以训练了一个单独的二元分类器,用于确定要信任哪些输出。此分类器将 LSTM 问题特征作为输入,以预测答案是通用的还是特定于图表的。对于我们的 DVQA 数据集,此分类器能够对测试数据以完美的准确性预测正确的分支。

4.3. SANDY: SAN with DYnamic Encoding Model

SANDY是作者对SAN-VQA模型的改进,引入了动态编码模型(DEM),可以处理图表中特定词汇的编码和解码。SANDY的关键特点包括:

  1. 动态本地字典:为图表中出现的每个新词创建一个动态字典。
  2. 编码和解码:使用动态字典来编码问题中的词和生成答案。
  3. OCR系统:假设有一个完美的OCR系统来识别图表中的所有文本区域。

SANDY有两种版本:

  • Oracle版本:使用DVQA数据集的注释来构建DEM。
  • OCR版本:使用开源的Tesseract OCR的输出来构建DEM。

MOM 通过具有能够生成唯一字符串的子网络来处理特定于图表的答案;但是,它没有直观地读取条形图文本的明确功能,并且其 LSTM 问题编码无法处理特定于图表的单词。为了探索克服这些限制,我们修改了 SAN 以创建 SANDY,SAN with DYnamic 编码模型。SANDY 使用动态编码模型 (DEM),该模型对问题中特定于图表的单词进行显式编码,并可以直接生成特定于图表的答案。DEM 是图表特定单词的动态本地词典。此词典用于对单词和答案进行编码。要创建本地单词词典,DEM 假定它有权访问 OCR 系统,该系统为其提供条形图中所有文本区域的位置和字符串。给定此框集合,DEM 会为每个框分配一个唯一的数字索引。它将索引 0 分配给图像左下角的框。然后,它会分配位置最接近索引为 1 的第一个框的框。然后,为最接近 1 但尚未分配索引的框分配索引 2,依此类推,直到图像中的所有框都分配了索引。在我们的实施中,我们假设我们有一个完美的 (oracle) OCR 系统用于输入,并且我们使用数据集的注释来实现此目的。训练数据中没有图表的文本标签超过 30 个,因此我们将本地字典设置为最多具有 M = 30 个元素。局部词典扩充了 N 元素全局词典。这使 DEM 能够创建 (M + N ) 单词词典,用于对问题中的每个单词进行编码。局部词典还用于扩充 L 元素全局答案词典。这是通过向表示动态单词的分类器添加 M 个额外类来完成的。如果预测了这些类,则使用本地词典的相应索引分配输出字符串。我们测试了两个版本的 SANDY。Oracle 版本直接使用 DVQA 数据集中的注释来构建 DEM。OCR 版本使用开源 Tesseract OCR 的输出。Tesseract 的输出以三种方式进行预处理:1) 我们只使用包含字母字符的单词,2) 我们以低于 50% 的置信度过滤单词检测,以及 3) 我们过滤单个字符的单词检测。

4.4. Training the Models

5. Experiments

6. Discussion

7. Conclusion

我们描述了 DVQA,一个用于理解条形图的数据集。我们证明了 VQA 算法无法回答简单的 DVQA 问题。我们提出了两种 DVQA 算法,它们可以处理问答中特定于图表的单词。解决 DVQA 问题将使系统能够用于智能查询大量人工生成数据,这将对科学家和企业产生巨大帮助。我们希望即将公开提供的 DVQA 数据集将促进对自然图像 VQA 通常忽略的问题的研究,例如词汇外单词和动态问题编码。我们还希望 DVQA 将成为研究视觉注意力、记忆和推理能力的重要代理任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1559171.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

IPguard vs Ping32:防泄密软件的巅峰对决,哪款是你的理想选择

在当今这个数字化时代,数据安全已成为企业不可忽视的重要议题。为了有效防范数据泄露风险,众多企业开始寻求专业的防泄密软件。IPguard与Ping32作为两款备受关注的防泄密软件,各自以其卓越的性能和独特的功能,赢得了广大用户的青睐…

线程(五)线程的同步和互斥——线程信号量

文章目录 线程线程的同步和互斥线程的同步和互斥--线程信号量示例--使用线程信号量来控制线程执行的先后顺序示例--使用信号量实现线程之间的互斥示例--使用信号量实现线程之间的同步 死锁线程状态转换 线程 线程的同步和互斥 线程的同步和互斥–线程信号量 上边讲了互斥的方…

力扣HOT100合集

力扣HOT100 - 1. 两数之和 解题思路&#xff1a; 解法一&#xff1a;暴力 class Solution {public int[] twoSum(int[] nums, int target) {int n nums.length;for (int i 0; i < n; i)for (int j i 1; j < n; j) {if (target nums[i] nums[j])return new int[] …

操作系统-系统调用

应用程序调用printf(),会触发系统调用write() 1、概念 操作系统服务的编程接口&#xff0c;通常由高级语言编写&#xff08;C/C&#xff09;&#xff0c;程序访问通常是通过高层次的API接口而不是直接进行系统调用。 2、三种最常用的应用程序编程接口&#xff08;API&#xf…

Vue深入了解

Vue深入了解 MVVMv-model (双向数据绑定原理)异步更新keep-alive原理$nextTick原理computed 和 watch 的区别css-scoped虚拟DOMVuex && PiniaVue-router原理proxy 与 Object.defineProperty组件通信方式 MVVM <!DOCTYPE html> <html lang"en">&…

AD原理图编译出现Net XX has no driving source

提示无驱动电压源&#xff0c;这是因为你的芯片管脚设置了电气属性造成的。 两种解决AD中出现Net has no driving source警告的方法。 方法一&#xff1a;取消电气属性检测&#xff0c;但不推荐&#xff1b; 打开原理图编译项&#xff0c;将NET no driving source 修改为no …

PostgreSQL的学习心得和知识总结(一百五十三)|[performance]将 OR 子句转换为 ANY 表达式

目录结构 注&#xff1a;提前言明 本文借鉴了以下博主、书籍或网站的内容&#xff0c;其列表如下&#xff1a; 1、参考书籍&#xff1a;《PostgreSQL数据库内核分析》 2、参考书籍&#xff1a;《数据库事务处理的艺术&#xff1a;事务管理与并发控制》 3、PostgreSQL数据库仓库…

树控件QTreeWidget

树控件跟表格控件类似&#xff0c;也可以有多列&#xff0c;也可以只有1列&#xff0c;可以有多行&#xff0c;只不过每一行都是一个QTreeWidgetItem&#xff0c;每一行都是一个可以展开的树 常用属性和方法 显示和隐藏标题栏 树控件只有水平标题栏 //获取和设置标题栏的显…

PPT在线画SWOT分析图!这2个在线软件堪称办公必备!

swot分析ppt怎么做&#xff1f; swot分析是一个非常常用的战略分析框架&#xff0c;经常会在ppt中使用。想在ppt中绘制swot分析图&#xff0c;使用自带的形状工具可以制作出来&#xff0c;但绘制效率不够高&#xff0c;在需要大批量制作的场景下&#xff0c;会让人非常心累………

DepthB2R靶机打靶记录

一、靶机介绍 下载地址&#xff1a;https://download.vulnhub.com/depth/DepthB2R.ova 二、信息收集 根据靶机主页显示&#xff0c;确认靶机ip为192.168.242.132 端口扫描 nmap -p- -A 192.168.242.132 发现只开放了8080端口 用dirsearch扫个目录 apt-get update apt-get …

基于LORA的一主多从监测系统_0.96OLED

关联&#xff1a;0.96OLED hal硬件I2C LORA 在本项目中每个节点都使用oled来显示采集到的数据以及节点状态&#xff0c;OLED使用I2C接口与STM32连接&#xff0c;这个屏幕内部驱动IC为SSD1306&#xff0c;SSD1306作为从机地址为0x78 发送数据&#xff1a;起始…

【Linux】基本认知全套入门

目录 Linux简介 Linux发行版本 发行版选择建议 Centos-社区企业操作系统 Centos版本选择 Linux系统目录 Linux常用命令 SSH客户端 Linux文件操作命令 vim重要快捷键 应用下载与安装 netstat&#xff0c;ps与kill命令使用 Linux应用服务化 Linux用户与权限 Linu…

Telephony CarrierConfig配置

1、CarrierConfig配置介绍 CarrierConfig&#xff08;运营商配置&#xff09;&#xff0c;是Android为了针对不同运营商配置不同功能的配置文件&#xff0c;类似Modem的MBN配置&#xff0c;可以实现插入不同运营商卡&#xff0c;不同的功能实现或菜单显示等。 2、CarrierConfig…

力扣之1355.活动参与者

题目&#xff1a; Sql 测试用例&#xff1a; Create table If Not Exists Friends (id int, name varchar(30), activity varchar(30)); Create table If Not Exists Activities (id int, name varchar(30)); Truncate table Friends; insert into Friends (id, name, acti…

【数据结构与算法-高阶】并查集

【数据结构与算法-高阶】并查集 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;数据结构与算法&#x1f345; &#x1f33c;文章目录&#x1f33c; 1. 并查集原理 2. 并查集实现 3. 并查集应用 1. 并查集原理 在一些应用问题中&…

charAt,chartCodeAt,codePointAt,fromCodePoint,fromCharCode

生僻字的length算2,有些空格是特殊空格,比如\u3000 u3000不是全角空格&#xff0c;u3000是表意字空格&#xff08;Ideographic Space&#xff09;&#xff0c;宽度和一个表意字&#xff08;汉字&#xff09;相同。它应当被当做汉字来处理。比如&#xff0c;在一些排版中&#x…

OpenSource - License 开源项目 TrueLicense

文章目录 官网集成Demo 官网 https://truelicense.namespace.global/ https://github.com/christian-schlichtherle/truelicense 集成Demo https://github.com/christian-schlichtherle/truelicense-maven-archetype https://github.com/zifangsky/LicenseDemo https://git…

map和set(c++)

前言 在前面我们在介绍二叉搜索树时我们分别实现了一个key结构和key-val结构&#xff0c;如果我们再进一步完善这棵树&#xff0c;将二叉搜索树升级为红黑树去存储key和key-val那么我们就可以得到我们今天要介绍的主角map和set。当然了标准库的实现还是有很多需要注意的地方&a…

植物大战僵尸修改器-MFC

创建项目 创建mfc应用 基于对话框 打开资源视图下的 IDD_MFCAPPLICTION2_DIALOG 限制对话框大小 将属性中Border的值改为对话框外框 删除对话框中原有的控件 属性-外观-Caption 设置对话框标题 工具箱中拖放一个按钮 修改按钮名称 将按钮ID改为IDC_COURSE 在MFCApplication2…

k8s微服务

一 、什么是微服务 用控制器来完成集群的工作负载&#xff0c;那么应用如何暴漏出去&#xff1f;需要通过微服务暴漏出去后才能被访问 Service是一组提供相同服务的Pod对外开放的接口。 借助Service&#xff0c;应用可以实现服务发现和负载均衡。 service默认只支持4层负载均…