【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用

【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用


目录

文章目录

  • 【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
    • 目录
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
        • 1. 知识总结模块(Knowledge Summarization Module)
        • 2. 下游多模态融合结构(Downstream Multi-modal Fusion Structure)
        • 3. 模态特定编码(Modality-Specific Encoding)
        • 4. 模态融合(Modality Fusion)
        • 5. 分类器(Classifier)
      • 算法模型的关键特点
      • 实验效果
      • 推荐阅读指数
    • 后记


在这里插入图片描述
探索思维链(Chain-of-Thought)在多模态隐喻检测中的应用

摘要

本文探讨了在广告和互联网迷因(meme)中常见的隐喻检测问题。由于互联网迷因的自由形式,导致缺乏高质量的文本数据。隐喻检测需要对文本和视觉元素进行深入解读,并需要大量的常识知识,这对语言模型构成了挑战。为了应对这些挑战,作者提出了一个紧凑的框架C4MMD,该框架利用思维链(Chain-of-Thought, CoT)方法进行多模态隐喻检测。具体来说,该方法设计了一个三步过程,灵感来自CoT,从多模态大型语言模型(MLLMs)中提取并整合知识到较小的模型中。此外,作者还开发了一个模态融合架构,将大模型中的知识转化为隐喻特征,并辅以辅助任务以提高模型性能。在MET-MEME数据集上的实验结果表明,该方法不仅有效增强了小型模型的隐喻检测能力,而且超越了现有模型。据作者所知,这是首次系统性地利用MLLMs进行隐喻检测任务的研究。该方法的代码已在GitHub上公开。

“Metaphors” 在中文中通常被翻译为“隐喻”或“暗喻”。在文学和语言学中,隐喻是一种比喻,通过将一件事物说成另一件事物来暗示它们之间的相似性,而不是直接比较。例如,在句子“时间是金钱”中,“时间”被隐喻性地描述为“金钱”,强调了时间的宝贵和有限性。

“Memes” 在中文中通常被翻译为“迷因”或“模因”。这个词汇最初由生物学家理查德·道金斯(Richard Dawkins)在其1976年的著作《自私的基因》中提出,用于描述文化信息或行为模式的传播单位,类似于生物基因在生物进化中的角色。在互联网文化中,“迷因”通常指那些迅速在网络用户之间传播的图片、视频、文字等内容,它们往往带有幽默或讽刺的元素,能够引发共鸣并被广泛复制和分享。

研究背景

隐喻在日常生活中的表达和写作中非常普遍,对自然语言处理(NLP)中的下游任务,如语义理解、情感分析等有着广泛的影响。随着社交媒体的兴起,多模态隐喻引起了人们的兴趣。多模态隐喻检测的主要挑战在于多模态隐喻的复杂性和多样性。与单一模态检测相比,多模态隐喻检测不仅要在句子中发现隐喻,还要将其归类为图像主导、文本主导或互补型。第二个主要挑战来自于文本内容的质量差,这些文本主要来源于社交媒体上的广告和迷因。最近的努力使用OCR技术提取图像中的文本,但仅依赖OCR将它们转换为平行文本会导致文本位置信息的丢失。
在这里插入图片描述

问题与挑战

多模态隐喻检测面临的主要问题和挑战包括:

  1. 多模态隐喻的复杂性和多样性:需要识别和分类图像和文本中的隐喻,以及它们之间的相互作用。
  2. 文本内容质量差:社交媒体上的广告和迷因中的文本内容质量参差不齐,导致隐喻检测困难。
  3. 位置信息丢失:使用OCR技术提取文本时,可能会丢失文本的位置信息,这对于理解隐喻至关重要。

如何解决

为了解决上述挑战,作者提出了以下解决方案:

  1. 利用MLLMs的丰富世界知识和上下文理解能力:通过LLMs生成补充信息,而不是对它们进行微调。
  2. 设计三步CoT方法:逐步获取MLLM的信息,描述图像、分析文本以及整合两种模态的信息。
  3. 模态融合架构:将大模型中的知识转化为隐喻特征,并辅以辅助任务以提高模型性能。

创新点

本文的创新点包括:

  1. 首次系统性地利用MLLMs进行隐喻检测任务:这是首次将MLLMs应用于隐喻检测,开辟了新的研究方向。
  2. 三步CoT方法:通过设计三步CoT方法,逐步提取和整合多模态信息,提高了模型对隐喻的理解能力。
  3. 模态融合架构:开发了一种新的模态融合架构,将大模型的知识转化为隐喻特征,提高了检测的准确性。

算法模型

C4MMD框架由以下主要组件构成:

  1. 知识总结模块:通过三步CoT提示,从MLLM中提取额外的文本信息。
  2. 下游多模态融合结构:将补充信息与原始文本合并,通过特定编码器处理这些输入,以获得特征向量。
  3. 模态特定编码:使用图像编码器和文本编码器获得图像和文本的向量化编码。
  4. 模态融合:将不同模态的向量尺寸调整一致,然后进行融合,以获得最终的融合向量表示。
  5. 分类器:使用跨模态向量进行隐喻分类,并使用两个单独的分类器对图像和文本中的隐喻特征进行分类。
    在这里插入图片描述

C4MMD框架的核心在于利用多模态大型语言模型(MLLMs)来增强小型模型的隐喻检测能力,C4MMD框架中关键组件包括:

1. 知识总结模块(Knowledge Summarization Module)

该模块通过三步CoT提示从MLLM中提取额外的文本信息。这个过程包括以下三个步骤:

  • 第一步(STEP1):忽略图像中的文本,仅描述图像内容。这一步的目的是让模型集中于理解图像中的视觉元素。
  • 第二步(STEP2):分析文本的含义,注意同音异义词和双关语,并解释它们。这一步的目的是让模型集中于理解文本的深层含义。
  • 第三步(STEP3):结合前两步的结果,整合图像和文本特征,以获得更深层次的跨模态交互信息。
2. 下游多模态融合结构(Downstream Multi-modal Fusion Structure)

在获取MLLM生成的额外模态信息后,设计的下游结构旨在促进模态间的整合,并有效利用这些额外信息来增强隐喻检测能力。

3. 模态特定编码(Modality-Specific Encoding)
  • 图像编码器(Image Encoder):使用ViT-Encoder对输入图像进行编码,得到图像的特征向量。
  • 文本编码器(Text Encoder):使用XLMR-Encoder对输入文本和MLLM生成的额外文本信息进行编码。为了区分不同模态的文本,采用了类似于BERT的段编码方法,为每个模态的文本添加额外的可学习参数向量。
4. 模态融合(Modality Fusion)

在融合之前,需要确保两个编码器的向量尺寸一致。对于文本模态,计算所有词向量的平均值作为整个句子的向量表示。对于视觉模态,使用CLS标记的向量作为整个图像的表示。然后,使用线性层和GeLU激活函数将视觉模态的向量映射到与文本模态相同的特征空间。

最终,将两个模态的向量进行拼接,形成最终的融合向量表示,用于后续的分类任务。

5. 分类器(Classifier)
  • 隐喻分类:使用一个线性层和softmax分类器对融合后的跨模态向量进行隐喻分类。
  • 图像主导和文本主导分类:使用两个单独的分类器来识别图像主导和文本主导的隐喻特征,以减少最终分类器的分类复杂性。

算法模型的关键特点

  • 跨模态交互:通过三步CoT方法,模型能够理解图像和文本之间的深层次交互,这对于隐喻检测至关重要。
  • 模态融合:通过特定的编码器和融合策略,模型能够有效地整合来自不同模态的信息,提高隐喻检测的准确性。
  • 辅助任务:通过设计辅助任务,模型能够在检测图像和文本中的隐喻特征之前,先进行细粒度的分类,这有助于提高最终分类器的性能。

C4MMD框架通过这些精心设计的组件和策略,实现了对多模态隐喻的有效检测,展现了在处理复杂语言和视觉挑战方面的潜力。

实验效果

在MET-MEME数据集上的实验结果表明,C4MMD方法在多模态隐喻检测任务上取得了优异的性能。以下是一些重要的数据和结论:

  • 主要分类结果:C4MMD在多模态隐喻检测任务上取得了87.70%的准确率,83.33%的精确率,81.58%的召回率,以及82.44%的F1分数。
  • 消融研究:消融研究表明,模型的融合结构和CoT生成方法对于提高性能至关重要。
  • 不同语言和视觉模型组合的影响:ViT和XLM-R的组合在模态融合中表现最佳。
  • 模型大小的影响:随着模型大小的增加,特别是当模型最初较小时,性能提升越来越明显。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数

4.5


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1242.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

HTML CSS

目录 1. 什么是HTML 2. 什么是CSS ? 3. 基础标签 & 样式 3.1 新浪新闻-标题实现 3.1.1 标题排版 3.1.1.1 分析 3.1.1.2 标签 3.1.1.3 实现 3.1.2 标题样式 3.1.2.1 CSS引入方式 3.1.2.2 颜色表示 3.1.2.3 标题字体颜色 3.1.2.4 CSS选择器 3.1.2.5 发布时间字…

应用在汽车控制系统安全气囊的爱普生可编程晶振SG-8018CG

在汽车安全领域,安全气囊是保护驾乘人员生命安全的关键防线。而作为安全气囊控制系统的关键元件 —— 爱普生可编程晶振 SG - 8018CG,以其卓越的性能成为汽车安全的坚实守护者。 一、高精度频率输出:安全气囊触发的精准之选 在汽车安全气囊控…

第112届全国糖酒会(3月成都)正式官宣!

作为食品饮料行业内备受瞩目的年度盛事,全国糖酒商品交易会(简称“糖酒会”)一直是各大厂商与经销商展现企业风采、寻觅合作伙伴及签署订单的关键舞台。2024年10月31日,第111届全国糖酒商品交易会(秋糖)在深…

【Javaee】网络原理-http协议(二)

前言 上一篇博客初步介绍了抓包工具的安装及使用,介绍了http请求报文与响应报文的格式。​​​​​​【Javaee】网络原理—http协议(一)-CSDN博客 本篇将详细介绍http的方法和http报文中请求头内部键值对的含义与作用,以及常见状…

Python实现摇号系统:详细指南与案例解析

目录 一、摇号系统的基本概念与原理 二、摇号系统的准备工作 三、摇号系统的详细实现步骤 1. 数据读取 2. 随机摇号 3. 结果存储 4. 结果查询 5. 主函数 四、案例解析 五、常见问题与解答 如何确保摇号过程的公平性? 如何处理大量用户数据? …

python将数据集中所有文件名升序制作txt文件(医学影像)

import os import re # 设定图像文件所在的路径 img_path ./2d/images/ #需修改路径 # 获取该路径下的所有文件名 img_list os.listdir(img_path) # 过滤出以.nii结尾的文件名 nii_list [f for f in img_list if f.endswith(.nii)] # 使用正则表达式从文件名中提…

Stable diffusion 3.5本地运行环境配置记录

1.环境配置 创建虚环境 conda create -n sd3.5 python3.10Pytorch(>2.0) conda install pytorch2.2.2 torchvision0.17.2 torchaudio2.2.2 pytorch-cuda12.1 -c pytorch -c nvidiaJupyter能使用Anaconda虚环境 conda install ipykernel python -m ipykernel install --user …

2001-2023年A股上市公司数字化转型数据(MDA报告词频统计)(三种方法)

2001-2023年A股上市公司数字化转型数据(MD&A报告词频统计)(三种方法) 1、时间:2001-2023年 2、来源:上市公司MD&A报告 3、指标:年份、股票代码、股票简称、行业名称、行业代码、MD&a…

【力扣专题栏】字母异词分组,如何利用强大的容器(unordered_map)解决该问题?

题解目录 1、题目描述解释2、算法原理解析3、代码编写 1、题目描述解释 2、算法原理解析 3、代码编写 class Solution { public:vector<vector<string>> groupAnagrams(vector<string>& strs) {//创建哈希表unordered_map<string,vector<string&g…

基于python的语音识别与蓝牙通信的温控系统毕设项目

基于python的语音识别与蓝牙通信的温控系统毕设项目 大家好&#xff0c;我是俊星学长&#xff0c;一名在 Java 圈辛勤劳作的码农。今日&#xff0c;要和大家分享的是一款基于python的语音识别与蓝牙通信的温控系统毕设项目。项目源码以及部署相关事宜&#xff0c;请联系小村学…

MySQL第四次作业

一、题目要求 二、创建相关的数据库和表以及表的处理 1. 修改student 表中年龄(sage)字段属性&#xff0c;数据类型由int 改变为smallint 2.为Course表中Cno 课程号字段设置索引,并查看索引 3.为SC表建立按学号(sno)和课程号(cno)组合的升序的主键索引&#xff0c;索引名为SC_I…

Docker-安装

操作系统&#xff1a;Ubuntu 20.04.6 LTS 更新apt sudo apt update 删除旧版本docker sudo apt-get remove docker docker-engine docker.io 安装docker sudo apt install docker.io 查看docker版本 docker --version 启动docker 启动docker sudo systemctl start docker 启用…

Elasticsearch 安装教程:驾驭数据海洋的星际导航仪

目录 一、准备工作1. ES的下载 二、安装步骤三、注意事项四、启动报错1. org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root2. max virtual memory areas vm.max_map_count [65530] is too low, increase to at l…

SparkSQL整合Hive后,如何启动hiveserver2服务

当spark sql与hive整合后&#xff0c;我们就无法启动hiveserver2的服务了&#xff0c;每次都要先启动hive的元数据服务&#xff08;nohup hive --service metastore&#xff09;才能启动hive,之前的beeline命令也用不了&#xff0c;hiveserver2的无法启动&#xff0c;这也导致我…

【网络安全】揭示 Web 缓存污染与欺骗漏洞

未经许可,不得转载。 文章目录 前言污染与欺骗Web 缓存污染 DoS1、HTTP 头部超大 (HHO)2、HTTP 元字符 (HMC)3、HTTP 方法覆盖攻击 (HMO)4、未键入端口5、重定向 DoS6、未键入头部7、Host 头部大小写规范化8、路径规范化9、无效头部 CP-DoS10、HTTP 请求拆分Web 缓存污染与有害…

网络自动化01:netmiko基础、netmiko简单demo

本系列应该是记录我在网络自动化中的学习、使用。具体更新多少期、什么频率都不太清楚。 同时本文的记录方式不会是那么的符合学习的思路&#xff0c;需要更加详细的内容建议阅读官方文档等。 本人学习的路径是基于九净老师的NetDevOps加油站&#xff0c;但本文有所简化&#x…

一篇文章理解CSS垂直布局方法

方法1&#xff1a;align-content: center 在 2024 年的 CSS 原生属性中允许使用 1 个 CSS 属性 align-content: center进行垂直居中。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewpo…

上海亚商投顾:沪指缩量调整 华为概念股午后爆发

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。 一.市场情绪 市场全天震荡调整&#xff0c;沪指、深成指午后跌超1%&#xff0c;创业板指一度跌逾2%&#xff0c;尾盘跌幅有…

近百万奖金!2024 Web3.0 创新大赛重磅来袭!

10月30日&#xff0c;中国互联网协会与香港Web3.0协会共同组织举办的2024 Web3.0 创新大赛在上海举行启动会&#xff0c;宣布大赛正式在DataFountain竞赛平台&#xff08;简称DF平台&#xff0c;http://www.datafountain.cn&#xff09;启动上线。 大赛面向社会各界征集参赛团队…

Github 2024-11-01 开源项目月报 Top19

根据Github Trendings的统计,本月(2024-11-01统计)共有19个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目9TypeScript项目3JavaScript项目3Svelte项目1Jupyter Notebook项目1Ruby项目1HTML项目1Rust项目1Java项目1C++项目1Go项目1Python中的…