【Da-SimaRPN】《Distractor-aware Siamese Networks for Visual Object Tracking》

在这里插入图片描述

ECCV-2018

中科大


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
    • 4.1 Features and Drawbacks in Traditional Siamese Networks
    • 4.2 Distractor-aware Training
    • 4.3 Distractor-aware Incremental Learning
    • 4.4 DaSiamRPN for Long-term Tracking
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 State-of-the-art Comparisons on VOT Datasets
    • 5.3 State-of-the-art Comparisons on UAV Datasets
    • 5.4 State-of-the-Art Comparisons on OTB Datasets
    • 5.5 Ablation Analyses
  • 6 Conclusion(own) / Future work


1 Background and Motivation

单目标跟踪的难点:occlusions, out-of-view, deformation, background cluttering and other variations

Siamese tracking approaches can only discriminate foreground from the non-semantic backgrounds,缺点如下

  • 背景复杂时效果可能翻车
  • 往往失去了 on-line 更新模型的机制
  • 长期跟踪的时候,full occlusion and out-of-view challenges 场景可能处理的不好

作者聚焦 accurate and long-term tracking,提出 Distractor-aware Siamese Networks,在离线训练阶段引入了 effective sampling strategy,推理阶段提出 distractor-aware module,效果显著

2 Related Work

  • Siamese Networks based Tracking
  • Features for Tracking
  • Long-term Tracking

3 Advantages / Contributions

  • 发现 imbalance of the non-semantic background and semantic distractor in the training data is the main obstacle for the learning.
  • 提出 Distractor-aware Siamese Region Proposal Networks (DaSiamRPN),训练的时候 to learn distractor-aware features,推理的时候 online tracking explicitly suppress distractors
  • 推理阶段提出 local-to-global search region strategy,提升 long-term 跟踪效果明显

4 Method

4.1 Features and Drawbacks in Traditional Siamese Networks

在这里插入图片描述
用的是 metric learning

Metric Learning,也称为距离度量学习或相似度学习,旨在学习一个能够捕捉数据高层语义信息的距离函数。这个函数通常被称为嵌入函数(Embedding Function),用于将数据映射到一个新的空间,使得在该空间中,相似样本之间的距离较小,而不同样本之间的距离较大。

训练的时候 non-semantic background occupies the majority

导致很难区分比较复杂的背景

图 1 展现的淋漓尽致

4.2 Distractor-aware Training

数据抽样方式

在这里插入图片描述

1)Diverse categories of positive pairs can promote the generalization ability

引入了 ImageNet Detection and COCO Detection 目标检测的数据集,丰富了正样本的类别,如图2(a)所示

2)Semantic negative pairs can improve the discriminative ability

负样本不仅来自于同类别,也引入了不同类别的负样本,如图2(b)和(c)

同类别的负样本可以让网络 focused on fine-grained representation

3)Customizing effective data augmentation for visual tracking

除了常规的 translation(12 pixels), scale variations(0.85 to 1.15) and illumination changes,

还引入了 motion blur 数据增强方法

25% of the pairs are converted to grayscale

4.3 Distractor-aware Incremental Learning

增量学习

增量学习(Incremental Learning)指的是一个学习系统能够不断地从新样本中学习新的知识,并能在这一过程中保存大部分以前已经学习到的知识。

在这里插入图片描述

通用的方法是用 cosine window to suppress the distractors(越近分值惩罚越低,越远越高), not guaranteed when the motion of objects are messy

作者 propose a distractor-aware module to effectively transfer the general representation to the video domain

(video domain 没有太明白指的是什么)

下面看看作者的具体增量学习方法——distractor-aware module

孪生跟踪器学习的是 similarity metric f ( z , x ) f(z,x) f(z,x),基础知识可以参考

  • 【SiamFC】《Fully-Convolutional Siamese Networks for Object Tracking》
  • 【SiamRPN】《High Performance Visual Tracking With Siamese Region Proposal Network》

在这里插入图片描述

作者在这个的基础上引入 hard negative samples (distractors)

17 ∗ 17 ∗ 5 proposals in each frame,用 NMS 筛选出 potential distractors d i d_i di in each frames,筛选的方式如下

在这里插入图片描述
h h h is the predefined threshold

z t z_t zt is the selected target in frame t t t,得分最高的 proposal 选为 z t z_t zt

the number of this set ∣ D ∣ = n |D| = n D=n

总结一下,就是和模板 z z z 相关后得分高于阈值 h h h 的 proposal 会被选定留下来作为 potential distractors

接下来 re-rank the proposals P P P which have top-k similarities with the exemplar——从 potential distractors 中挑出得分最高的 k k k 个 proposal ( p k p_k pk)进行后续操作

在这里插入图片描述

weight factor α ^ = 0.5 \hat{\alpha} = 0.5 α^=0.5

weight factor α i = 1 \alpha_i = 1 αi=1 can be viewed as the dual variables with sparse regularization

对偶变量是指在对偶线性规划问题中的变量,用于衡量资源或条件的价值。
它表示第i种资源每增加一单位对目标函数的贡献。

d i d_i di 需遍历 n n n 个 proposals

p k p_k pk 需遍历 k k k 个 proposals

使得分最高的 k 个 proposals p k p_k pk(除了得分最高的 z t z_t zt,可能就是目标 x 本身)和其他 NMS 后的 proposals 的相似度尽可能低——拉开前景和背景的差距,可以这么理解吧

exemplars and distractors can be viewed as positive and negative samples in correlation filters

作者对上述公式进行加速

在这里插入图片描述

it enables the tracker run in the comparable speed in comparisons with SiamRPN

引入学习率 β = ∑ i = 0 t − 1 ( η 1 − η ) i \beta = \sum_{i=0}^{t-1}(\frac{\eta}{1- \eta })^{i} β=i=0t1(1ηη)i η = 0.01 \eta=0.01 η=0.01

在这里插入图片描述

这就是优化目标,替代了上面的
在这里插入图片描述

训练的时候优化,推理的时候 online tracking

4.4 DaSiamRPN for Long-term Tracking

severe out-of-view and full occlusion introduce extra challenges in long-term tracking

作者引入了 a simple yet effective local-to-global search region strategy

在这里插入图片描述
目标丢失后,DaSiamRPN 的 score 明显降低了(红色曲线),这个应该是学习的网络更好导致的,和这个测试时候才使用的策略没有关系

目标丢失时,DaSiamRPN 搜索范围会增大——iterative local-to-global search strategy

以便捕捉到在常规搜索范围之外出现的目标

5 Experiments

5.1 Datasets and Metrics

数据集

  • VOT2015

  • VOT2016

  • VOT2017

  • UAV20L with 20 long-term videos

  • UAV123 with 123 videos

  • OTB2015

评价方式

  • accuracy (A)

  • robustness ®

  • expected average overlap (EAO)

  • OP: mean overlap precision at the threshold of 0.5;

  • DP: mean distance precision of 20 pixels;

  • Success and precision plots

5.2 State-of-the-art Comparisons on VOT Datasets

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

领先的很明显

5.3 State-of-the-art Comparisons on UAV Datasets

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
long-term tracking dataset can be attributed to the distractor-aware features and local-to-global search strategy.

5.4 State-of-the-Art Comparisons on OTB Datasets

All the trackers are initialized with the ground-truth object state in the first frame

在这里插入图片描述

5.5 Ablation Analyses

在这里插入图片描述

消融的实验很好的体现了本文提出的方法的提升点

6 Conclusion(own) / Future work

  • 核心提升,the distractor-aware features and local-to-global search strategy.(本博客 4.3 小节和 4.4 小节)

  • 作者写的博客ECCV视觉目标跟踪之DaSiamRPN
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1451194.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

mmap引起的内存泄漏分析

最近遇到一个内存泄漏问题,由于问题出现在客户端,只能通过客户提供的Log来分析。 根据客户提供的/proc/meminfo数据发现,MemAvailable 由294072kB减小至18128kB,减小约269MB,引起该变化的最直接原因是PageTables由614…

49.Chome浏览器有三种清缓存方式

49.Chome浏览器有三种清缓存方式:正常重新加载、硬件重新加载、清空缓存并硬性重新加载 1、【正常重新加载】 触发方式:①F5  ②CtrlR  ③在地址栏上回车  ④点击链接 如果缓存不过期会使用缓存。这样浏览器可以避免重新下载JavaScript文件、图像、…

kettle从入门到精通 第六十九课 ETL之kettle kettle cdc mysql,轻松实现增量同步

1、之前kettle cdc mysql的时候使用的方案是canalkafkakettle,今天我们一起学习下使用kettle的插件Debezium直接cdc mysql。 注:CDC (Change Data Capture) 是一种技术,用于捕获和同步数据库中的更改。 1)Debezium步骤解析mysql b…

反贿赂管理体系认证:提升企业诚信与防范风险的双重利器

反贿赂管理体系认证在当今商业环境中发挥着至关重要的作用。这一认证不仅有助于提高企业的道德标准和社会责任感,还能有效防范商业风险,并提升内部管理水平和工作效率。 反贿赂管理体系认证要求企业制定和执行严格的反贿赂政策和程序,从而在…

计算机网络原理实验(7):分析IP报文结构

一、实验名称 分析IP报文结构 二、实验目的: 1.掌握使用Wireshark分析俘获trace文件的基本技能; 2.深刻理解IP报文结构和工作原理。 三、实验内容和要求 1.分析俘获的分组; 2.分析IP报文结构。 3.记录每一字段的值,分析它的作…

FL Studio(FL 21)软件下载-详细安装教程视频

​fl studio 编曲软件即,简称FL,是音乐人熟知的水果编曲软件.可以完成完整的音乐制作环境或数字音频工作站(DAW)就是大家熟悉的水果 编曲软件,一个全能的音乐制作软件,包括编曲、录音、剪辑和混音等诸多功能,让你的电脑编程一个全能的录音室。…

基坑监测:关键环节与深入剖析,保障施工安全与质量新标准

在建筑工程中,基坑监测是一项至关重要的工作,它涉及对基坑施工现场的实时监测数据进行分析和评估,以确保基坑施工活动的稳定、安全和高效进行。基坑监测涵盖地质勘探、基坑开挖、加固、支护、周边环境以及工程质量验收等多个环节,…

通信原理抽样定理和PAM调制解调硬件实验

一、实验目的 1. 加深理解抽样定理; 2. 加深理解脉冲幅度调制的原理。 二、实验内容 1. 观测PAM平顶抽样波形; 2. 观测PAM自然抽样波形及解码后波形。 三、实验器材 1. 双踪示波器; 2. 通信原理实验箱信号源模块、①号模块。 四、实…

文章解读与仿真程序复现思路——电工技术学报EI\CSCD\北大核心《基于广义目标级联法的多牵引变电站 光伏-储能协同规划配置》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

java写一个验证码

生成验证码 内容:可以是小写字母,也可以是大写字母,还可以是数字 规则 长度为5 内容中是四位字母,1位数字。 其中数字只有1位,但是可以出现在任意的位置。 package User;import java.util.ArrayList; import jav…

FlashDB的TS数据库的标准ANSI C移植验证

本文目录 1、引言2、环境准备3、修改驱动4、验证 文章对应视频教程: 暂无,可以关注我的B站账号等待更新。 点击图片或链接访问我的B站主页~~~ 1、引言 在当今数据驱动的时代,高效可靠的数据存储与管理对于嵌入式系统及物联网(IoT)应用至关重…

【Unity每日一记】FairyGUI为什么能自动生成代码,它的好处是什么

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:uni…

kali中安装zsteg教程

1、下载文件 git clone http://www.github.com/zed-0xff/zsteg 2、第一步需要保证虚拟机是有网络的,不然无法克隆 3、可以将网络设置成如下后重启,访问百度看看能不能访问,若可以访问,则进行下一步 4、查看源,删除源&…

OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

除了OpenAI自己,居然还有别人能用上GPT-4-Base版?? 也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。 EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究**“上…

逆向分析-Ollydbg动态跟踪Ransomware.exe恶意锁机程序

1.认识Ollydbg Ollydbg是一个新的动态追踪工具,将IDA与SoftICE结合起来的思想,Ring 3级调试器,非常容易上手,己代替SoftICE成为当今最为流行的调试解密工具了。同时还支持插件扩展功能,是目前最强大的调试工具。 Oll…

我的创作纪念日(1825天)

Ⅰ、机缘 1. 记得是大一、大二的时候就听学校的大牛说,可以通过写 CSDN 博客,来提升自己的代码和逻辑能力,虽然即将到了写作的第六个年头,但感觉这句话依旧受用; 2、今年一整年的创作都没有停止,本年度几乎是每周都来…

FuTalk设计周刊-Vol.037

🔥AI漫谈 热点捕手 1、最全攻略!OpenAI 发布 GPT-4 使用指南,所有干货全在这 OpenAI 官方发布了 GPT-4 使用指南 Prompt engineering,这里面记载了驾驭 GPT-4 的六大策略。 链接https://www.ifanr.com/1570792 2、Midjourney V…

平安科技智能运维案例

平安科技智能运维案例 在信息技术迅速发展的背景下,平安科技面临着运维规模庞大、内容复杂和交付要求高等挑战。通过探索智能运维,平安科技建立了集中配置管理、完善的运营管理体系和全生命周期运维平台,实施了全链路监控,显著提…

2024年【制冷与空调设备运行操作】考试内容及制冷与空调设备运行操作考试报名

题库来源:安全生产模拟考试一点通公众号小程序 制冷与空调设备运行操作考试内容考前必练!安全生产模拟考试一点通每个月更新制冷与空调设备运行操作考试报名题目及答案!多做几遍,其实通过制冷与空调设备运行操作新版试题很简单。…

布鲁可三年巨亏后终于转正:IP授权风险或影响重大,还存对赌协议

《港湾商业观察》施子夫 凭借塑料积木玩具,丹麦玩具品牌“乐高LEGO”在全世界玩具制造厂商中的影响力自然不必多说。近期另一家被冠以“中国版乐高”的布鲁可集团有限公司(以下简称,布鲁可)准备上市,也受到外界颇多关…