论文笔记:微表情欺骗检测

整理了AAAI2018 Deception Detection in Videos 论文的阅读笔记

  • 背景
  • 模型
  • 实验
  • 可视化

背景

  欺骗在我们的日常生活中很常见。一些谎言是无害的,而另一些谎言可能会产生严重的后果。例如,在法庭上撒谎可能会影响司法公正,让有罪的被告逍遥法外。因此,在高风险的情况下准确发现欺骗行为对个人和公共安全至关重要。
  人类辨别欺骗的能力是非常有限的。据研究,在没有特殊辅助的情况下,检测谎言的平均准确率为54%,仅略高于随机。相比于静态图像,人类通常更容易从视频中发现微妙的面部表情。图1显示了一个例子:眉毛上升。如果只给出左边的静态图像,人们很难发现眉毛在上升。相比之下,我们可以从右边的图像序列中清楚地看到眉毛在上升,尽管图像流的最后一张图像正好是左边的静态图像。
在这里插入图片描述
  此外,欺骗是一种复杂的人类行为,受试者试图抑制他们的欺骗证据,从面部表情到手势,从他们说话的方式到他们说的话。因此,一个可靠的欺骗检测方法应该集成来自多个模态的信息。
  本文建议使用运动动力学来识别面部微表情。通过一个用于捕获动态运行的两级特征表示器,对于低级特征表示,使用密集轨迹来表示运动和运动变化。对于高级表征,我们使用低级特征训练面部微表情检测器,并使用它们的置信度得分作为高级特征。

模型

  本文提出的自动欺骗检测框架如图2所示,包括3个步骤:多模态特征提取、特征编码和分类。
在这里插入图片描述
  作者通过IDT(改进密集轨迹)来捕获视频特征,这一方法在动作识别方面表现出色。此外,通过Glove和MFCC来提取语言和音频特征。由于每个视频的特征数量不同,作者采用Fisher矢量编码将可变数量的特征聚合到固定长度的矢量上。有关这一部分,这篇文章使用的方法和模型都比较老了,不再赘述。
  经过上述步骤,我们就得到了多模态的低级特征。之前的研究表明,面部微表情在预测欺骗行为中起着重要作用,而最能预测面部表情的五种微表情是:皱眉、扬眉、翘唇、撅唇和侧头,如图三所示。基于此,本文使用2015年的一个手工标注微表情检测数据集来训练微表情检测器,然后使用微表情检测器的预测分数作为高级特征来预测欺骗。
在这里插入图片描述
  在得到上述的微表情检测器后,本文将每个视频分成固定时长的短视频片段,并用微表情标签对这些片段进行标注。形式上,给定一个训练视频集 V = { v 1 ; v 2 , . . . , v N } V = \{v_1;v_2,...,v_N\} V={v1;v2,...,vN},将每个视频分成多个片段,得到训练集 C = { v i j } C=\{v_i^j\} C={vij},标注集 L = { l i j } i ∈ [ 1 , N ] L = \{l_i^j\}\ \ \ \ i\in [1,N] L={lij}    i[1,N]表示视频id,上标 j ∈ [ 1 , N i ] j\in [1,N_i] j[1,Ni]表示剪辑id, N i N_i Ni是视频 I I I的剪辑数, v I j v^j_I vIj的持续时间是一个常数(在我们的实现中是4秒)。 l i j l^j_i lij的维数是微表情的个数。利用视频片段 C C C训练一组微表情分类器,并将分类器应用到测试视频片段 C ^ \hat C C^上,得到预测分数 L ^ = { l ^ i j } \hat L=\{\hat l_i^j\} L^={l^ij}
  然后,分别用我们之前得到的低阶特征和视频级分数向量来训练4个二值欺骗分类器。分别是基于三个模态和混合得分向量。将这四个预测分数定义为 S m i , i ∈ [ 1 , 3 ] S_{m_i},i\in [1,3] Smi,i[1,3] S h i g h S_{high} Shigh,并得到最终的预测分数 S S S S = ∑ i α i S m i + α h i g h S h i g h S=\sum_i\alpha_iS_{m_i}+\alpha_{high}S_{high} S=iαiSmi+αhighShigh  其中, α i \alpha_i αi α h i g h \alpha_{high} αhigh是超参数,总和为1,并通过交叉验证得到。

实验

  本文在欺骗检测数据库上评估了该方法。该数据库包括121个法庭审判录像片段。这个试用数据库中的视频是来自网络的不受约束的视频。因此,我们需要处理人物视角的差异、视频质量的变化以及背景噪声,如图4所示。本文使用了来自121个视频数据库的104个视频的子集,其中包括50个真实视频和54个欺骗视频。修剪后的视频要么有明显的场景变化,要么有人工编辑。
在这里插入图片描述
  首先提供了微表情预测模块的性能。使用15帧/秒的帧率对每个视频剪辑进行采样。微表情检测器使用LibSVM的线性核支持向量机进行训练。结果如表1所示,报告了AUC (precision-recall curve下的面积)。尽管性能并不高,但代表微表情概率的高级特征在最终的欺骗检测任务中仍然提供了良好的性能。由于数据量的问题,使用深度学习的方法来训练检测器不太可行。
在这里插入图片描述
  对于欺骗检测,作者给出了不同的模态数据的组合结果,这实际上实在进行消融,我们可以观察到,组合所有预测的框架具有最好的效果。
在这里插入图片描述
  然后,作者又提出了一个有趣的问题,由于高级特征是经过训练的微表情检测器的预测分数,如果使用Ground Truth微表情特征,性能将如何受到影响。在接下来的实验中,我们使用GT微表情特征作为基线,并测试性能随其他特征模态的变化情况。表3显示了用AUC测量的结果:
在这里插入图片描述
  从表3的结果中,我们可以观察到最高的性能为0.9221 AUC,优于所提出的全自动化系统。这表明,开发更准确的微表情检测方法是未来提高欺骗检测的潜在方向。

可视化

  作者还研究了每个微表情的有效性。对于每个微表情,我们通过使用高级微表情评分特征、低级运动特征和其他模式来测试性能,如图5所示。
在这里插入图片描述
  我们可以观察到,无论是预测微表情还是真实微表情,“扬眉”都比其他微表情更有效。当使用预测的微表情时,“头侧转”也很有帮助,见图5a。这与从真实微表情中得到的结果不同。另一方面,“皱眉”使用地面真值特征比使用预测特征效果更好,可能是因为“皱眉”检测器不够准确,如表1所示。
  为了测试人类在这项任务上的表现,作者使用AMT进行用户研究。首先,我们让10个不同的人观看每个视频,并决定他们是否认为视频中的主题是真实的。每个注释者被分配5个不同身份的视频,以确保没有身份特定的偏见用于欺骗预测。我们还记录图像、音频或文本是否对他们的决定有帮助。请注意,这里的决策是使用所有模式做出的。每个视频的投票百分比被用作欺骗的分数。人为预测的AUC为0.8102。这表明这个数据集比以前的研究相对容易,在以前的研究中,人们对这项任务的预测几乎是偶然的。
  在做决定时,67:4%的用户依赖于视觉线索,61:3%的时间依赖于音频,70:7%的时间依赖于文本,如图6所示。
在这里插入图片描述

  对于每个视频,人们可以选择多种有用的模式。从这些数据中,可以观察到注意到人们倾向于根据口头内容做出决定,因为这是一个语义层面的特征。只有一半的人认为音频可以帮助他们做出决定,而在本文的系统中,音频功能是非常有效的。
  基于此,本文进行了另一项用户研究,一次只向每个用户显示一种模式,因为当多个信息来源同时可用时,很难判断哪个来源有助于做出最终决定。结果如图7所示。
在这里插入图片描述
  人类的表现和我们的系统之间存在巨大的表现差距。这表明,尽管人类缺乏仅凭视觉线索预测欺骗行为的能力,但基于计算机视觉的系统明显更好。另一方面,只有音频,人类的表现就像所有形式都可以访问一样好。但是当只提供视频文本时,人类和系统的性能都会显著下降。这表明音频信息对人类预测欺骗行为起着至关重要的作用,而文字记录则没有那么有益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1555572.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

04-SpringBootWeb案例(中)

3. 员工管理 完成了部门管理的功能开发之后,我们进入到下一环节员工管理功能的开发。 基于以上原型,我们可以把员工管理功能分为: 分页查询(今天完成)带条件的分页查询(今天完成)删除员工&am…

服务器conda环境安装rpy2

参考博客 https://stackoverflow.com/questions/68936589/how-to-select-r-installation-when-using-rpy2-on-conda 现在我遇到这样一个问题,服务器系统环境没有R(没有权限安装),我只能在minconda的conda环境中使用R, 使用方法如下 我现在…

芝法酱学习笔记(0.6)——nexus与maven私库

一、私库的需求 在一个公司中,后端程序员通常几十上百个。在没有镜像私库的情况下,每当引入新库时,大家都会从maven中央仓库下载一遍这个库。这样无疑十分浪费。再加之国家的防火墙政策,许多人下载lib包可能还会十分缓慢。不同程…

Python水循环标准化对比算法实现

🎯要点 算法区分不同水循环数据类型:地下水、河水、降水、气温和其他,并使用相应标准化降水指数、标准化地下水指数、标准化河流水位指数和标准化降水蒸散指数。绘制和计算特定的时间序列比较统计学相关性。使用相关矩阵可视化集水区和显示空…

推荐:五种限流(Rate Limiting)算法

推荐:五种限流(Rate Limiting)算法,发现一个不错的讲这个算法的UP,地址是:05~五种限流(Rate Limiting)算法_哔哩哔哩_bilibili https://www.bilibili.com/video/BV11k4SerE74/ 全部用动画展示,十分生动,比如漏桶算法&…

短剧小程序短剧APP在线追剧APP网剧推广分销微短剧小剧场小程序集师知识付费集师短剧小程序集师小剧场小程序集师在线追剧小程序源码

一、产品简介功能介绍 集师专属搭建您的独有短剧/追剧/小剧场小程序或APP平台 二、短剧软件私域运营解决方案 针对短剧类小程序的运营,以下提出10条具体的方案: 明确定位与目标用户: 对短剧类小程序进行明确定位,了解目标用户群体…

【AI知识点】置信区间(Confidence Interval)

置信区间(Confidence Interval, CI) 是统计学中用于估计总体参数的范围。它给出了一个区间,并且这个区间包含总体参数的概率等于某个指定的置信水平(通常是 90%、95% 或 99%)。与点估计不同,置信区间通过区…

开源的云平台有哪些?

开源云平台为用户提供了构建、管理和运行云基础设施及应用的能力,同时允许社区参与开发和改进。以下是一些知名的开源云平台: 1. OpenStack 简介:OpenStack:一个广泛使用的开源云平台,它由多个组件组成,提…

深度学习中的结构化概率模型 - 结构化概率模型的深度学习方法篇

序言 在深度学习的广阔领域中,结构化概率模型( Structured Probabilistic Model \text{Structured Probabilistic Model} Structured Probabilistic Model)扮演着至关重要的角色。这类模型利用图论中的图结构来表示概率分布中随机变量之间的…

精品WordPress主题/响应式个人博客主题Kratos

Kratos 是一款专注于用户阅读体验的响应式 WordPress 主题,整体布局简洁大方,针对资源加载进行了优化。 Kratos主题基于Bootstrap和Font Awesome的WordPress一个干净,简单且响应迅速的博客主题,Vtrois创建和维护, 主…

Markdown实用语法汇总

说明: 本来只展示本人常用的、markdown特有优势的一些语法。表格输入markdown的弱项,不作介绍,借助软件创建即可。引用图片、音频、视频等,虽然很方便,但是内容集成度不高,需要上传发布的时候很不方便&…

学习C语言(23)

整理今天的学习内容 1.文件的概念 使用文件是为了将数据永久化地保存 按照文件功能,在程序设计中一般把文件分成两类: 每个文件都有一个唯一的文字标识,文字标识常被称为文件名,文件名包含文件路径,文件名主干和文件…

Apollo9.0 Planning2.0决策规划算法代码详细解析 (4): PlanningComponent::Proc()

🌟 面向自动驾驶规划算法工程师的专属指南 🌟 欢迎来到《Apollo9.0 Planning2.0决策规划算法代码详细解析》专栏!本专栏专为自动驾驶规划算法工程师量身打造,旨在通过深入剖析Apollo9.0开源自动驾驶软件栈中的Planning2.0模块&am…

vAPI靶场

前言 自行去搭建vAPI靶场,配合postman使用 vapi1 创建用户 第一个用户 {"username": "shi","name": "shi1","course": "nihao","id": 10 } 第二个用户 {"username": "hui…

论文理解【LLM-CV】—— 【MAE】Masked Autoencoders Are Scalable Vision Learners

文章链接:Masked Autoencoders Are Scalable Vision Learners代码:GitHub - facebookresearch/mae发表:CVPR 2022领域:LLM CV一句话总结:本文提出的 MAE 是一种将 Transformer 模型用作 CV backbone 的方法&#xff0c…

制作一个流水灯,控制发光二极管由上至下再由下至上反复循环点亮显示,每次点亮一个发光二级管(Proteus 与Keil uVision联合仿真)

一、代码编写 (1)编写程序来控制发光二极管由上至下的反复循环流水点亮,每次点亮一个发光二极管。 #define uchar unsigned char // 定义uchar为unsigned char类型uchar tab[] {0xfe, 0xfd, 0xfb, 0xf7, 0xef, 0xdf, 0xbf, 0x7f, 0x7f, 0x…

一个不错的 SQL 编码风格的指南

前言 SQL语句的编写对于我们后端开发者而言是一个必备的技巧,在日常工作中,SQL语言编写的质量不仅仅会影响到团队的合作效率与项目的可维护性,还直接关系到数据库的性能优化与数据安全。今天大姚给大家分享一个不错的 SQL 编码风格的指南&am…

【Qt】控件概述(4)—— 输出类控件

输出类控件 1. QLineEdit——单行输入框2. QTextEdit——多行输入框3. QComboBox——下拉框4. QSpinBox——微调框5. QDateEdit && QTimeEdit && QDateTimeEdit6 QDial——旋钮7. QSlider——滑动条 1. QLineEdit——单行输入框 QLineEdit是一个单行的输入框&…

定时器实验(Proteus 与Keil uVision联合仿真)

一、 (1)设置TMOD寄存器 T0工作在方式1,应使TMOD寄存器的M1、M001;应设置C/T*0,为定时器模式;对T0的运行控制仅由TR0来控制,应使相应的GATE位为0。定时器T1不使用,各相关位均设为…

执行路径带空格的服务漏洞

原理 当系统管理员配置Windows服务时,必须指定要执行的命令,或者运行可执行文件的路径。 当Windows服务运行时,会发生以下两种情况之一。 1、如果给出了可执行文件,并且引用了完整路径,则系统会按字面解释它并执行 …