opencv实战项目二十七:基于meanshif的视频脸部跟踪

文章目录

  • 前言
  • 一、Mean Shift是什么?
  • 二、opencv中meanshift使用流程
  • 三、使用代码:
  • 四、效果:


前言

在当今这个信息化时代,图像和视频处理技术已经渗透到我们生活的方方面面,从安防监控、智能交通到人机交互等领域,都离不开目标跟踪技术的应用。作为计算机视觉领域的一个重要分支,目标跟踪技术一直以来都是研究的热点。而在众多的目标跟踪算法中,基于OpenCV的Mean Shift算法以其简洁、高效的特点受到了广泛的关注。本文将带你走进基于OpenCV的Mean Shift跟踪算法的世界,深入剖析其原理,并通过实战案例,教你如何使用OpenCV库实现一个简单而实用的人脸跟踪系统。


一、Mean Shift是什么?

Mean Shift算法是一种有效的迭代方法,用于寻找数据集中点的密集区域,它在模式识别和图像处理等领域有着广泛的应用,尤其是在目标跟踪和图像分割任务中。Mean Shift算法的核心思想是通过迭代方式更新候选点的位置,直到收敛到数据的高密度区域。这个过程可以概括为以下几个步骤:

1.初始化:选择一个或多个种子点(通常是目标点的初始估计)。
2.计算偏移量:在每个迭代步骤中,计算当前种子点周围的点的加权平均位置(即均值),这个加权平均位置与当前种子点的差值称为偏移量。
3.更新位置:将种子点更新为加权平均位置。
4.重复迭代:重复上述步骤,直到偏移量小于一个预设的阈值,表明种子点已经收敛到数据的一个密度峰值。

可以简化理解:即假设你有一组点。(它可以是像直方图反向投影这样的像素分布)。你有一个小窗口(可能是一个圆圈),你必须将该窗口移动到最大像素密度(或最大点数)的区域。如下图所示:在这里插入图片描述
初始窗口以蓝色圆圈显示,名称为“C1”。它的原始中心被标记为蓝色矩形,命名为“C1_o”。但是如果你找到窗口内点的质心,你会得到点“C1_r”(用蓝色小圆圈标记),这是窗口的真正质心。它们肯定不匹配。所以移动你的窗口,使新窗口的圆与之前的质心匹配。再次找到新的质心。最有可能的是,它不会匹配。因此,再次移动它,并继续迭代,使窗口的中心和它的质心落在同一位置(或在一个小的期望误差)。最后你得到的是一个具有最大像素分布的窗口。它有一个绿色的圆圈,命名为“C2”。正如你在图片中看到的,它有最大数量的点。
因此,通常传递直方图反投影图像和初始目标位置。当物体运动时,这种运动明显地反映在直方图反投影图像中。因此,meanshift算法将我们的窗口移动到具有最大密度的新位置。

二、opencv中meanshift使用流程

在opencv中支持meanshift算法的使用其api为cv2.meanShift,在 OpenCV 中使用 cv2.meanShift 函数需要以下步骤:

  1. 初始化目标区域:首先,需要指定一个初始的目标区域(通常是一个矩形框),这可以通过手动选择或使用其他方法(如物体检测算法)来实现。
  2. 计算直方图反向投影:为了跟踪目标,需要计算目标的颜色直方图,并将其反向投影到整个图像上。这有助于突出显示与目标颜色匹配的区域。
  3. 调用 cv2.meanShift使用反向投影图像和初始目标窗口调用 cv2.meanShift 函数,它会返回新的目标位置。

第二步直方图反向投影使用的方法为cv2.calcBackProject,反向投影技术是一种基于色彩统计的目标检测方法。它将每个像素点的颜色与目标物体的颜色直方图进行比较,并创建一个新的图像,该图像的每个像素值表示该像素颜色与目标颜色匹配的概率。这个概率图像可以用于后续的目标跟踪或分割。
其函数为dst = cv2.calcBackProject(images, channels, hist, ranges, scale)
参数介绍:

images:一个或多个源图像的列表,通常是单通道图像。
channels:需要计算反向投影的图像通道的索引列表。
hist:目标颜色直方图,通常是通过 cv2.calcHist 函数计算得到的。
ranges:每个直方图通道的值范围,通常是 [0, 256]。
scale:可选参数,用于缩放返回的反向投影值,默认为 1。

在计算好反向投影之后,调用cv2.meanShift算法寻找新的矩形框,retval, target = cv2.meanShift(probImage, window, criteria):
输入参数:

probImage:反向投影图像,通常是通过 cv2.calcBackProject 函数生成的。
window:初始搜索窗口,通常是一个矩形区域 (x, y, width, height),表示目标的初始位置和大小。
criteria:停止迭代的标准,通常是一个包含三个元素的元组 (type, max_iter, epsilon),其中:
type:确定用于停止迭代的准则类型,通常是 cv2.TERM_CRITERIA_EPS 或 cv2.TERM_CRITERIA_MAX_ITER。
max_iter:最大迭代次数。
epsilon:所需的精度或阈值,当窗口移动小于这个值时,迭代停止。

返回值:

retval:迭代过程中的迭代次数。
target:目标的最终位置,即更新后的窗口位置 (x, y, width, height)。

三、使用代码:

import cv2
import numpy as np# 视频文件路径
video_path = 'D:\input_video.mp4'# 设置初始化的窗口位置
r, h, c, w = 100, 400, 200, 300  # 设置初试窗口位置和大小
track_window = (c, r, w, h)# 初始化视频读取
cap = cv2.VideoCapture(video_path)# 读取第一帧
ret, frame = cap.read()# 设置追踪的区域
roi = frame[r:r + h, c:c + w]
# roi区域的hsv图像
hsv_roi = cv2.cvtColor(roi, cv2.COLOR_BGR2HSV)
# 取值hsv值在(0,60,32)到(180,255,255)之间的部分
mask = cv2.inRange(hsv_roi, np.array((0., 60., 32.)), np.array((180., 255., 255.)))
# 计算直方图,参数为 图片(可多),通道数,蒙板区域,直方图长度,范围
roi_hist = cv2.calcHist([hsv_roi], [0], mask, [180], [0, 180])
# 归一化
cv2.normalize(roi_hist, roi_hist, 0, 255, cv2.NORM_MINMAX)# 设置终止条件,迭代10次或者至少移动1次
term_crit = (cv2.TERM_CRITERIA_EPS | cv2.TERM_CRITERIA_COUNT, 10, 1)while ret:ret, frame = cap.read()if ret == True:frame = cv2.flip(frame, 1)# 计算每一帧的hsv图像hsv = cv2.cvtColor(frame, cv2.COLOR_BGR2HSV)# 计算反向投影dst = cv2.calcBackProject([hsv], [0], roi_hist, [0, 180], 1)# 调用meanShift算法在dst中寻找目标窗口,找到后返回目标窗口ret, track_window = cv2.meanShift(dst, track_window, term_crit)# 在图像上绘制它x, y, w, h = track_windowimg2 = cv2.rectangle(frame, (x, y), (x + w, y + h), 255, 2)cv2.imshow('img2', img2)if cv2.waitKey(0) & 0xFF == ord('q'):breakcap.release()
cv2.destroyAllWindows()

四、效果:

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1547501.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

学习记录:js算法(四十六):平衡二叉树

文章目录 平衡二叉树我的思路网上思路 总结 平衡二叉树 给定一个二叉树,判断它是否是 平衡二叉树 图一 图二 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:true示例 2: 输入:root [1,2,2,3,3,null…

发掘3D文件格式的无限潜力:打造沉浸式虚拟世界

在当今数字化时代,3D技术的应用范围日益广泛,涵盖电影后期制作、产品原型设计、虚拟现实(VR)、增强现实(AR)、游戏等众多领域。而3D文件格式作为3D技术的核心组成部分,对于实现3D数据和模型的存…

ElasticSearch安装分词器与整合SpringBoot

ElasticSearch安装分词器与整合SpringBoot 如果还没安装的点击安装ElasticSearch查看怎么安装 分词器 1.分词器 在Elasticsearch中,分词器(Tokenizer)是分析器(Analyzer)的一部分,它的主要职责是将文本输入…

玩转指针(3)

一、字符指针变量 字符指针变量(如char* p)的两种赋值方式 ①将字符类型地址赋值给字符指针变量 int main() {char a w;char* p &a;*p m;return 0; }②将常量字符串赋值给字符指针变量 常量字符串的介绍:用" "引起来的就…

【ARM 嵌入式 编译系列 10.4 -- GNU Binary Utilies】

文章目录 GNU Binary Utilities 详细介绍常用工具介绍1. arm-none-eabi-objcopy2. arm-none-eabi-readelf3. arm-none-eabi-size4. arm-none-eabi-objdump5. arm-none-eabi-nm6. arm-none-eabi-strip7. arm-none-eabi-ld8. arm-none-eabi-as9. arm-none-eabi-addr2line10. arm-…

追随 HarmonyOS NEXT,Solon v3.0 将在10月8日发布

Solon (开放原子开源基金会,孵化项目)原计划10月1日发布 v3.0 正式版。看到 HarmonyOS NEXT 将在 10月8日启用公测,现改为10月8日发布以示庆贺。另外,Solon 将在2025年启动“仓颉”版开发(届时,…

迅雷笔试 最长相等子段数列长度 滑动窗口

👨‍🏫 牛马Code:最长相等子段数列长度 import java.io.BufferedReader; import java.io.InputStreamReader; import java.util.Arrays; import java.util.HashMap;public class Main {// 创建一个输入流读取器,用于读取控制台输…

调用飞书接口导入供应商bug

1、业务背景 财务这边大部分系统都是供应商项目,由于供应商的研发人员没有飞书项目的权限,涉及到供应商系统需求 财务这边都是通过多维表格进行bug的生命周期管理如图: 但多维表格没有跟飞书项目直接关联,测试组做bug统计的时候无…

第十六章 模板与泛型编程

16.1 定义模板 模板是C泛型编程的基础。为模板提供足够的信息&#xff0c;就能生成特定的类或函数。 16.1.1 函数模板 在模板定义中&#xff0c;模板参数列表不能为空。 //T的实际类型在编译时根据compare的使用情况来确定 template <typename T> int compare(const …

VmWare17直接开箱即用Win10虚拟机

你是否曾想过在电脑上安装一个Windows 10虚拟机来执行一些高风险的操作&#xff1f;比如测试某个文件是否携带病毒&#xff0c;或者想要在隔离的环境中使用电脑&#xff1f;那么&#xff0c;接下来我将为你提供一份详细的Windows 10虚拟机快速启动教程&#xff0c;让你能够轻松…

electron 设置界面右下角打开

功能需求场景 写一个可以下载各种平台的小工具&#xff0c;需要右下角打开方便做其它事情 实现基础 要在屏幕的右下角设置窗口&#xff0c;可以调整mainWindow的创建参数&#xff0c;特别是通过使用x和y坐标来定位窗口 &#xff1b; 需要获取屏幕的尺寸&#xff0c;并据此计算…

计算机的错误计算(一百零五)

摘要 本节探讨多项式的计算精度问题。 例1. 已知多项式 计算 不妨在Visual Studio 2010下编程计算&#xff0c;其中主要语句如下&#xff1a; #include <math.h>double x1234; double c91021263,c8-1260239000,c7565172,c2-21,c031977890.4; double yc9*pow(x,9)c8*…

WSL进阶体验:gnome-terminal启动指南与中文显示问题一网打尽

起因 我们都知道 wsl 启动后就死一个纯命令行终端&#xff0c;一直以来我都是使用纯命令行工具管理Linux的。今天看到网上有人在 wsl 中启动带图形界面的软件。没错&#xff0c;就是在wsl中启动带有图形界面的Linux软件。比如下面这个编辑器。 ​​ 出于好奇&#xff0c;我就…

YOLOv9改进,YOLOv9主干网络替换为GhostNetV3(2024年华为提出的轻量化架构,全网首发),助力涨点

摘要 GhostNetV3 是由华为诺亚方舟实验室的团队发布的,于2024年4月发布。 摘要:紧凑型神经网络专为边缘设备上的应用设计,具备更快的推理速度,但性能相对适中。然而,紧凑型模型的训练策略目前借鉴自传统模型,这忽略了它们在模型容量上的差异,可能阻碍紧凑型模型的性能…

通信工程学习:什么是TDD时分双工

TDD:时分双工 TDD(时分双工,Time Division Duplexing)是一种在移动通信系统中广泛使用的全双工通信技术。以下是TDD的详细解释: 一、定义与原理 TDD是一种通过时间划分来实现双向通信的技术。在TDD模式中,接收和传送在同一频率信道(即载波)的不同时隙…

Chirp通过Sui让IoT世界变得更简单

据估计&#xff0c;未来十年内&#xff0c;联网设备的数量将增长到近400亿台。无论是追踪共享出行车辆的移动、改善食品追溯性、监控制造设施&#xff0c;还是保障家庭安全&#xff0c;物联网 ( Internet of Things&#xff0c;IoT) 对企业和消费者来说都已经成为一项关键技术。…

认知杂谈84《菜鸟的自我修炼:知易行难与行难知易》

内容摘要&#xff1a; 理解与行动之间的差距是日常生活的常见挑战。"知易行难"体现在理解简单但执行困难&#xff0c;例如知道蔬菜有益但难以坚持食用。而"行难知易"则是开始时困难但后来容易的任务&#xff0c;如学习骑自行车。 这种差异源于心理惰性和习…

【ARM 嵌入式 编译系列 10.5 -- ARM toolchain naming convention】

文章目录 ARM 工具链命名规范详细介绍1. arch(架构)2. vendor(供应商)3. os(操作系统)4. abi(应用二进制接口)ABI(应用二进制接口)常见的 ABI 类型工具链命名约定ExamplesABI 合规性ARM 工具链命名规范详细介绍 ARM 工具链的命名规范指示了 GCC 工具链的构建目的和所…

AI 智能体 | 手捏素材选题库 Coze Bot,帮你实现无限输出

做自媒体的同学经常遇到的一个痛点就是无限输出&#xff0c;那怎么才能有源源不断的选题呢&#xff1f;那就是搭建一个选题素材库。 下面就为大家介绍一下基于 Coze Bot 快速搭建素材选题库&#xff0c;希望能让大家才思泉涌。 一、流程拆解 日常素材库积累的过程可以描述为…

WPF项目中使用Caliburn.Micro框架实现日志和主题切换

目录 一、添加Caliburn.Micro框架 二、配置Serilog日志 三、实现主题切换 Caliburn.Micro是MVVM模式的轻量级WPF框架&#xff0c;简化了WPF中的不少用法。这个框架中所有的页面控制都是通过ViewModel去实现的。 以下内容是自己在进行项目实战的同时进行记录的&#xff0c;对于…