《CIDEr: Consensus-based Image Description Evaluation》简要

文章汉化系列目录


文章目录

  • 文章汉化系列目录
  • 摘要
  • 引言
  • 三、
    • 1、
    • 2、
    • 3、
  • 四、
    • 1、
    • 2、
    • 3、
  • 五、
    • 1、
    • 2、
    • 3、
  • 六、
    • 1、
    • 2、
    • 3、
  • 七、
    • 1、
    • 2、
    • 3、
  • 八、
    • 1、
    • 2、
    • 3、


摘要

自动生成描述图像的句子一直是计算机视觉和自然语言处理领域的长期挑战。随着物体检测、属性分类、动作识别等方面的进展,学术界对该领域的兴趣重新高涨。然而,评估生成描述的质量仍然是一个难题。我们提出了一种新的基于人类共识的图像描述评估范式。该范式包括三个主要部分:一种基于三元组的新方法,用于收集人类标注来衡量共识;一种新的自动化评价指标CIDEr,用于捕捉共识;以及两个新数据集PASCAL-50S和ABSTRACT-50S,每个图像包含50条描述句子。我们的简单指标在捕捉人类共识判断方面,比现有的评价指标在各种来源生成的句子上表现更好。我们还使用该新评估协议对五种最先进的图像描述方法进行了评估,并提供了一个基准,以便未来对比。此外,CIDEr的一个版本CIDErD已在MS COCO评估服务器上发布,以支持系统性的评估和基准测试。

引言

 近年来,物体识别 [15]、属性分类 [23]、动作分类 [26, 9] 和众包 [40] 等领域的进展提升了对解决更高层次场景理解问题的兴趣。一个这样的问题是生成人类风格的图像描述。尽管这一领域的兴趣日益增长,但自动方法生成的新句子的评价仍然具有挑战性。评估对于衡量进展并推动该领域的改进至关重要。类似的情况已在计算机视觉的各类问题中得到验证,如检测 [13, 7]、分割 [13, 28] 和立体视觉 [39]。
 现有的图像描述评估指标试图衡量几个理想的特性,包括语法性、显著性(覆盖主要方面)、正确性/真实性等。这些特性可以通过人工研究来衡量,例如,使用一到五的单独评分 [29, 37, 43, 11] 或成对比较的方式 [44]。然而,将这些不同的结果合并为一个句子质量的总体衡量标准是困难的。另一种方法是让受试者直接判断句子的整体质量 [22, 18]。
 在人工评判图像描述时,存在一个重要但不明显的特性:人类喜欢的描述往往不等同于类人化的描述。我们引入了一种新颖的基于共识的评估协议,它衡量句子与大多数人描述该图像的方式(共识)的相似性(见图1)。该评估协议的一种实现方式是让人类受试者评估候选句子与人工提供的真实句子之间的相似性。受试者需要回答“哪一个句子与另一个句子更相似?” 该质量分数基于一个句子被标记为更接近人类生成句子的频率。这种相对问题的方式有助于使任务更加客观。我们鼓励读者参考 [41] 中的类似协议,了解其如何捕捉人类对图像相似性的感知。这些相似性标注协议可以被理解为2AFC(两项选择强迫选择)[3]的实例,这是一种在心理物理学中广泛使用的模式。
 由于人工研究成本高、难以复现且评估速度较慢,因此通常需要自动化评估方法。为了在实践中有用,自动化指标应与人工评判有良好的一致性。一些常用于图像描述评估的热门指标包括来自机器翻译领域的 BLEU [33](基于精确度)和来自摘要领域的 ROUGE [45](基于召回率)。然而,这些指标已被证明与人工评判的相关性较弱 [22, 11, 4, 18]。在判断描述整体质量的任务中,METEOR [11] 指标与人工评判的相关性更好。其他指标依赖于描述的排序 [18],因此无法评估新生成的图像描述。
 我们提出了一种新的图像描述质量的自动共识度量方法——CIDEr(基于共识的图像描述评估)。该指标衡量生成句子与一组人工编写的真实句子之间的相似性,并显示出与人工评估的共识高度一致。通过句子相似性,该指标自然地包含了语法性、显著性、重要性和准确性(精确度和召回率)等概念。目前常用于图像描述评估的数据集每张图像最多只有五个描述 [35, 18, 32]。然而,我们发现五个句子不足以准确衡量大多数人对图像的描述方式。为此,为了准确衡量共识,我们收集了两个新的评估数据集,每张图像包含 50 个描述——PASCAL-50S 和 ABSTRACT-50S。PASCAL-50S 数据集基于流行的 UIUC Pascal 句子数据集,该数据集每张图像有 5 个描述,并已在众多研究中用于训练和测试 [29, 22, 14, 37]。ABSTRACT-50S 数据集基于 Zitnick 和 Parikh 的数据集 [46]。尽管以往方法仅使用 5 个句子进行评估,我们研究了使用 1 到约 50 个参考句子。令人感兴趣的是,我们发现大多数指标在更多句子的情况下性能有所提高。受此发现的启发,MS COCO 测试数据集现在包含 5K 张图像,每张图像有 40 个参考句子,以提高自动度量的准确性 [5]。
贡献:在本研究中,我们提出了一个基于共识的图像描述评估协议。我们引入了一种用于人工评判的新标注方式、一种新的自动化评估指标,以及两个新的数据集。我们对五种最先进的机器生成方法进行了性能比较 [29, 22, 14, 37]。我们的代码和数据集可在作者的网页上获取。最后,为了促进该协议的采用,我们已将 CIDEr 作为一个评估指标集成到新发布的 MS COCO 描述评估服务器上 [5]。

三、

1、

2、

3、

四、

1、

2、

3、

五、

1、

2、

3、

六、

1、

2、

3、

七、

1、

2、

3、

八、

1、

2、

3、

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/7884.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构:顺序表

顺序表 顺序表的概念与结构静态顺序表动态顺序表 动态顺序表的实现SeqList.h的创建初始化动态顺序表(LS_Init)动态顺序表的销毁(LS_Destry)检查动态内存空间是否已满(SL_CheckCapacity)动态顺序表打印有效数…

MySQL_数据类型建表

复习: 我们昨天学习的知识都忘了嘛?如果忘了也不要担心,我来带大家来复习一遍吧!!! 1.查看所有数据库 show databases;2.创建属于自己的数据库 create database 数据库名; 检查自己创建的数据库是…

PHP不良事件上报系统源码,医院安全不良事件管理系统,基于 vue2+element+ laravel框架开发

不良事件上报系统通过 “事前的人员知识培训管理和制度落地促进”、“事中的事件上报和跟进处理”、 以及 “事后的原因分析和工作持续优化”,结合预存上百套已正在使用的模板,帮助医院从对护理事件、药品事件、医疗器械事件、医院感染事件、输血事件、意…

在 Android 手机上从SD 卡恢复数据的 6 个有效应用程序

如果您有 Android 设备,您可能会将个人和专业的重要文件保存在设备的 SD 卡上。这些文件包括照片、视频、文档和各种其他类型的文件。您绝对不想丢失这些文件,但当您的 SD 卡损坏时,数据丢失是不可避免的。 幸运的是,您不需要这样…

实战:看懂并分析执行计划——Nested Loops (Inner Join)

这是执行计划中 Nested Loops 的详情信息,下面将逐行解释每个字段的含义,并提供优化思路。 Nested Loops 分析 Physical Operation: Nested Loops (Inner Join) 物理操作,表示这是一个嵌套循环连接(Nested Loops),用于执行 INNER JOIN。嵌套循环通常用于小数据集的连接…

Meta Llama3用于药物发现的微调、RAG 和提示工程-LLM保姆级资料

Meta Llama3用于药物发现的微调、RAG 和提示工程的使用指南:LLM微调的基本概念,每种微调方式的深入解读,2种生物医药领域的Llama3的微调应用。 LLM 如何微调LLMs?3种微调方式,什么时候?什么情况下该使用何…

如何通过 PXE 使用 UEFI 启动 Tiny Core Linux

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

根据关键字搜索商品API返回值解析:深入解析与代码实践

在电子商务和数据集成领域,API(应用程序编程接口)扮演着至关重要的角色。通过API,开发者可以访问和利用平台的数据资源,实现自动化和智能化的数据交互。本文将探讨如何根据关键字搜索商品API的返回值进行解析&#xff…

Python http打印(http打印body)flask demo(http调试demo、http demo、http printer)

文章目录 代码解释 代码 # flask_http_printer.pyfrom flask import Flask, request, jsonify import jsonapp Flask(__name__)app.route(/printinfo, methods[POST]) def print_info():# 分隔符separator "-" * 60# 获取请求头headers request.headers# 获取 JS…

「C/C++」C/C++ STL 之 迭代器

✨博客主页何曾参静谧的博客📌文章专栏「C/C++」C/C++程序设计📚全部专栏「VS」Visual Studio「C/C++」C/C++程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasolid函数说明「…

大模型微调,使用QLoRA和自定义数据集微调大模型(下)

4.8 数据预处理 在微调模型之前,我们不能直接使用原始数据集,需要将数据集中的提示转换成模型能够理解的格式。 为了使数据集适配微调流程,这里编写辅助函数来格式化输入数据集。具体来说,就是将对话摘要(即提示-响应…

【NOIP普及组】质因数分解

【NOIP普及组】质因数分解 C语言代码C代码Java代码Python代码 💐The Begin💐点点关注,收藏不迷路💐 已知正整数 n 是两个不同的质数的乘积,试求出较大的那个质数。 输入 输入只有一行,包含一个正整数…

js--高阶函数之参数归一化

一、前言 参数归一化:是我们软件开发里一个非常重要且实用的技巧,用的好极大简化代码同时提升代码的可阅读性和可维护性。以下我用日期格式化为例,演示一下参数归一化的技巧。 二、日期格式化实例 /*** 辅助格式化函数* param {string|functi…

均值、期望、方差、标准差与协方差:基础概念解析

均值、期望、方差、标准差与协方差:基础概念解析 在统计学和数据分析中,均值、期望、方差、标准差和协方差是描述数据分布和关系的基本工具。理解这些概念有助于我们更好地分析和处理数据。本文将详细讲解这些概念的定义、计算方法及其在实际应用中的意…

shell基础

一、理解bash基础 默认的Linux shell——Bash(Bourne Again SHell)可以通过命令控制系统,执行文件操作,或者启动应用程序。它可以在命令行上交互式使用,或者你可以创建一个包含多个shell命令的文件,并像启…

js树状结构,自叶到根统计各级数量

$($(".tree-item").get().reverse()).each(function () {let self $(this).find("span").text()let prev $(this).parent(".two").prevAll(".tree-item").find("span").text()self self ? self : 0prev prev ? prev :…

学习threejs,使用JSON格式保存和加载整个场景

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE toJSON()方法 二、&a…

论文1—《基于卷积神经网络的手术机器人控制系统设计》文献阅读分析报告

论文报告:基于卷积神经网络的手术机器人控制系统设计 摘要 本研究针对传统手术机器人控制系统精准度不足的问题,提出了一种基于卷积神经网络的手术机器人控制系统设计。研究设计了控制系统的总体结构,并选用PCI插槽上直接内插CAN适配卡作为上…

SLF4J: Failed to load class “org.slf4j.impl.StaticLoggerBinder“

SLF4J常见问题 导入依赖&#xff1a; <dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version> </dependency> <dependency><groupId>org.slf4j</groupId><arti…

资产管理系统:SpringBoot技术驱动

4系统概要设计 4.1概述 系统设计原则 以技术先进、系统实用、结构合理、产品主流、低成本、低维护量作为基本建设原则&#xff0c;规划系统的整体构架. 先进性&#xff1a; 在产品设计上&#xff0c;整个系统软硬件设备的设计符合高新技术的潮流&#xff0c;媒体数字化、压缩、…