系统化学习 H264视频编码(02) I帧 P帧 B帧 引入及相关概念解读

说明:我们参考黄金圈学习法(什么是黄金圈法则?->模型 黄金圈法则,本文使用:why-what)来学习音H264视频编码。本系列文章侧重于理解视频编码的知识体系和实践方法,理论方面会更多地讲清楚 音视频中概念的起源以及各个概念的联系。知其然,知其所以然。同时更强调知识系统的建立。

针对本文,我们主要讲清楚 I帧、P帧、B帧的概念及引入原因,基于I帧、P帧、B帧 展开的其他概念解读,比如GOP概念,就是基于 I帧、P帧、B帧的理解基础上,搞了一个以I帧为分割点的序列。而后面提到的运动补偿和运动矢量是P帧和B帧的关键技术,用于提高视频编码的压缩效率。

1  I帧、P帧、B帧概念解读

1.1 I帧、P帧、B帧是什么?(what)

视频经过压缩后 的图像帧 分别有 I帧、P帧、B帧,他们的概念解读分别如下:

I帧(Intra-coded Frame,内部编码帧):

  • I帧是一种关键帧,完全独立于其他帧进行编码。
  • 它使用帧内预测,即仅依赖于该帧本身的像素信息,类似于静态图片的编码方式。
  • I帧不包含时间上的预测或运动补偿,因此可以作为视频解码的起点。
  • 由于不依赖其他帧,I帧通常比其他类型的帧更大,需要更多的数据来存储。

P帧(Predictive-coded Frame,预测编码帧)

  • P帧是一种前向预测帧,它依赖于前面的I帧或P帧来进行时间上的预测。
  • 它使用帧间预测,通过比较当前帧与参考帧之间的差异(运动补偿)来减少数据量。
  • P帧不向未来帧提供信息,解码时仅需要前一个已解码的I帧或P帧作为参考。

B帧(Bi-directional predictive-coded Frame,双向预测编码帧)

  • B帧是一种双向预测帧,它同时参考前后的I帧或P帧来进行编码。
  • 与P帧相比,B帧可以利用更多的上下文信息来减少数据量,因此通常具有更高的压缩效率。
  • B帧解码时需要前后两个参考帧,这使得B帧的解码顺序与显示顺序不同。

总结下:I帧是关键帧。P帧基于I帧差异来进一步压缩,减少存储量。而B帧再基于I帧和P帧的差异,进一步减少存储量。这里思考一个问题,关于 I帧、P帧、B帧的引入,为什么只有这3类?而不是4类或者5类更多?先思考5分钟,再继续看效果更佳👇

============================================

1.2 关于 I帧、P帧、B帧的引入,为什么只有这3类,而不是更多?

帧、P帧、B帧的引入是视频编码标准中为了平衡压缩效率、解码复杂性和随机访问能力的结果。这三类帧类型提供了一种有效的折衷方案,其原因包括:

  •   压缩效率:I帧、P帧、B帧的组合提供了良好的压缩效率。I帧作为基准帧,P帧通过前向预测减少冗余,B帧通过双向预测进一步提高压缩效率。增加更多类型的帧可能会增加编码和解码的复杂性,而不一定能显著提高压缩效率。
  • 解码复杂性:每增加一种帧类型,就会增加解码的复杂性和计算量。I、P、B帧的模型已经相对复杂,因为B帧的解码依赖于前后帧。如果引入更多类型的帧,将使得解码过程更加复杂,可能导致硬件实现上的困难。
  • 随机访问和错误恢复:I帧提供了随机访问点,P帧和B帧可以快速从I帧恢复,这种结构有助于快速定位和错误恢复。如果帧类型过多,可能会影响这些功能的效率。
  • 编码效率:在大多数视频内容中,这三类帧已经能够很好地适应不同的场景和运动。增加更多类型的帧可能会带来边际效益的递减。
  • 标准化和兼容性:视频编码标准需要全球范围内的兼容性和广泛接受。I、P、B帧的模型已经被广泛采用并在多种设备和平台上实现。增加更多类型的帧可能会影响标准的普及和兼容性。
  • 实际需求:视频编码的主要目标是在保持可接受的视频质量的同时减少数据量。在大多数应用场景中,I、P、B帧已经能够满足这些需求,而不需要更多类型的帧。
  • 技术实现和成本:增加更多类型的帧会增加编码器和解码器的设计和实现难度,可能导致更高的开发和生产成本。

总之,I帧、P帧、B帧的引入是为了在压缩效率、解码复杂性和实际应用需求之间找到一个合适的平衡点。这三类帧类型已经能够满足大多数视频编码的需求,而引入更多类型的帧可能会带来不必要的复杂性和成本,而没有相应的效率提升。

基于对前面了解,我们继续探索。那么为什么要引入这几个概念呢?我们继续看👇

1.3 为什么要引入I帧、P帧、B帧?(why)

定义I帧、P帧、B帧主要是为了解决视频压缩和传输中的效率和质量平衡问题。这些不同类型的帧各自解决了以下关键问题:

  • 压缩效率:I帧作为关键帧,提供了一种无需参考其他帧即可独立解码的能力,但它们通常较大,因为不包含时间预测信息。P帧和B帧通过帧间预测减少了重复信息的存储,利用视频序列中时间上的冗余来提高压缩效率,其中B帧通过双向预测进一步提高了这一效率。

  • 解码的随机访问性:I帧使得视频流可以在任意点开始解码,这对于视频服务器和播放器来说是必要的,它们需要能够快速定位到视频流的特定位置并开始播放。

  • 错误传播控制:当视频流中出现错误时,由于P帧和B帧依赖于之前的帧,错误可能会传播到后续帧。I帧作为独立帧,可以限制错误传播的范围,从而提高视频播放的鲁棒性。

  • 编码复杂度与解码性能的平衡:B帧虽然可以提供更高的压缩效率,但它们的编码和解码过程更为复杂,因为需要处理双向预测。通过合理地在I帧和P帧之间分布B帧,可以在编码复杂度和解码性能之间取得平衡。

  • 视频质量与传输带宽的优化:在有限的带宽下,通过使用P帧和B帧减少需要传输的数据量,可以在保持视频质量的同时减少对带宽的需求。

  • 适应不同的网络条件:在网络状况良好时,可以增加B帧的使用来提高压缩率;在网络状况较差时,可以减少B帧的使用,以降低解码延迟和错误率。

  • 视频内容的动态特性适应:不同的视频内容具有不同的动态特性。例如,快速运动的场景可能需要更多的I帧来减少预测错误,而静止或慢速运动的场景则可以更多地使用P帧和B帧。

通过定义I帧、P帧、B帧,并在视频编码过程中灵活使用它们,可以有效地解决视频压缩、传输和解码中的多种问题,实现高效、可靠且高质量的视频播放。

基于I帧、P帧、B帧 展开的其他概念解读,比如GOP概念,就是基于 I帧、P帧、B帧的理解基础上,搞了一个以I帧为分割点的序列。而后面提到的运动补偿和运动矢量是P帧和B帧的关键技术,用于提高视频编码的压缩效率。

2. GOP概念解读

2.1 什么是GOP序列(what)

GOP概念:两个I帧之间是一个图像序列,在一个图像序列中只有一个I帧。如下图所示:

其主要特点和作用包括但不限于:

  • 独立解码单元:在传统的视频编码标准中,每个GOP可以作为一个独立的单元进行解码,即解码器可以从GOP中的任何一帧开始解码,而不需要之前GOP的数据。
  • 包含I帧:每个GOP通常以一个I帧开始,这个I帧称为关键帧或IDR帧(Instantaneous Decoding Refresh),它是一个完全自包含的帧,不依赖于其他帧的信息。
  • 帧间预测:GOP中的P帧和B帧利用帧间预测技术,通过参考其他帧(可以是前面的或后面的帧)来减少数据量。P帧通常只参考前面的帧,而B帧可以同时参考前后的帧。
  • 提高压缩效率:通过在GOP中使用I帧、P帧和B帧的组合,可以有效地利用视频内容的时间冗余,从而提高压缩效率。
  • 控制解码延迟:GOP的大小直接影响解码延迟。较小的GOP可以减少延迟,但可能会降低压缩效率;较大的GOP可以提高压缩效率,但会增加延迟。
  • 适应不同的编码策略:不同的编码场景和需求可能需要不同的GOP结构和大小。例如,实时通信可能需要较小的GOP以减少延迟,而视频存储和传输可能更注重压缩效率。

GOP的概念在视频编码标准如H.264和H.265中都有应用,它们通过合理组织帧的编码和预测关系,优化了视频的存储和传输效率。

2.2 为什么引入GOP序列?(why)

引入GOP(Group of Pictures)概念主要是为了解决视频编码和传输中的以下问题:

  • 提高压缩效率:通过在GOP中使用I帧、P帧和B帧的组合,可以更有效地利用视频内容的时间冗余,从而提高压缩效率。
  • 实现随机访问:GOP结构允许视频流在任意点进行随机访问和解码,因为每个GOP都可以作为一个独立的解码单元。
  • 控制解码延迟:通过调整GOP的大小,可以在压缩效率和解码延迟之间进行权衡。较小的GOP可以减少延迟,适用于实时视频通信;较大的GOP可以提高压缩效率,适用于视频存储和传输。
  • 优化编码和解码过程:GOP结构使得编码器可以更加灵活地组织帧的编码顺序,同时解码器可以按照GOP的顺序进行解码,简化了编码和解码的流程。
  • 增强错误恢复能力:在GOP结构中,由于P帧和B帧仅依赖于前面的帧,一旦出现数据错误,错误的影响可以被限制在当前GOP内,减少了错误传播。
  • 适应不同的编码策略:GOP允许编码器根据视频内容的特性和编码需求,灵活地选择I帧、P帧和B帧的比例,实现最优的编码策略。
  • 提高视频播放的流畅性:GOP结构使得播放器可以在不重新加载整个视频的情况下,快速跳转到视频的任意位置,提高了播放的流畅性和用户体验。
  • 降低存储和传输成本:通过提高压缩效率,GOP有助于减少视频存储所需的空间和传输所需的带宽,降低了视频分发的成本。

总的来说,GOP概念的引入是为了在保证视频质量的同时,提高视频编码的效率和灵活性,优化存储和传输过程,并改善视频播放的性能。

3 运动补偿和运动矢量的概念

3.1 运动补偿和运动矢量是什么?(what)

运动补偿和运动矢量是视频编码中的关键技术,用于提高压缩效率,具体概念如下:

运动矢量(Motion Vector):运动矢量是一种描述视频序列中物体运动的参数,它定义了从一帧到另一帧中特定区域(如宏块或编码单元)的运动方向和距离。主要用于帧间预测。在帧间预测中,运动矢量用于找到当前帧中某个区域与参考帧中相应区域之间的对应关系。运动矢量通常包含两个分量:水平分量和垂直分量,分别表示水平和垂直方向上的运动。

运动补偿(Motion Compensation):运动补偿是一种利用运动矢量信息来预测和补偿视频帧之间变化的技术。通过运动补偿,编码器可以预测当前帧中每个区域在参考帧中的对应位置,然后计算出实际像素与预测像素之间的差异(残差)。由于残差通常包含的信息量远小于原始像素,因此只对这些残差进行编码可以显著减少所需的数据量。

3.2 为什么引入运动补偿和运动矢量?(why)

引入运动补偿和运动矢量是为了解决视频编码中的以下几个关键问题:

  1. 减少时间冗余:视频序列中连续帧之间的内容具有高度相关性,运动补偿通过预测和补偿物体运动,有效减少这种时间上的冗余。

  2. 提高压缩效率:通过仅对帧间变化(残差)进行编码,而不是对每一帧的全部像素编码,运动补偿显著降低了编码后的数据量。

  3. 保持视频质量:准确的运动补偿有助于减少压缩过程中引入的伪影,从而在减小文件大小的同时保持视频的视觉质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1475503.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

JavaWeb开发基础7个Web术语解析

7个Web术语 Website: static vs dynamic HTTP HTTP Requests GET vs POST Servlet Container Server: Web vs Application Content Type Website: static vs dynamic 网站内容包括文本、图片、音频、视频,通过URL来访问。网站分为静态网站和动态网站。 静态网…

HBuilder X 小白日记03-用css制作简单的交互动画

:hover选择器,用于选择鼠标指针浮动在上面的元素。 :hover选择器可用于所有元素,不只是链接 :link选择器 设置指向未被访问页面的链接的样式 :visited选择器 用于设置指向已被访问的页面的链接 :active选择器 用于活动链接

mp4视频太大怎么压缩不影响画质,mp4文件太大怎么变小且清晰度高

在数字化时代,我们常常面临视频文件过大的问题。尤其是mp4格式的视频,文件大小往往令人望而却步。那么,如何在不影响画质的前提下,有效地压缩mp4视频呢?本文将为您揭秘几种简单实用的压缩技巧。 在分享和存储视频时&am…

白嫖A100活动来啦,书生·浦语大模型全链路开源体系

扫码参加即可获得: 第一节 书生浦语大模型全链路开源体系 书生浦语大模型的开源历程。 从模型到应用的典型流程 书生浦语的开源体系,包含从数据、预训练、微调、部署、评测、应用等环节

C# Winform自制多轴力臂(简单易懂,方便扩展)

WinForms框架广泛应用于上位机开发领域,其中对力臂的精准控制是常见需求之一。本文深入探讨了如何创建自定义的多轴力臂图形控件,不仅涵盖了力臂图形控件的角度调节机制,还详细展示了如何实现力臂运动的生动动态效果,为开发者提供…

【web前端HTML+CSS+JS】--- JS学习笔记03

一、JS介绍 可以在前端页面上进行逻辑处理,来解决表单的验证等问题,提升效率,直接在前端提示问题,减少服务器压力 应用1:可以做静态验证和动态验证(进行异步请求) 应用2:可以解析后…

Java---包装类与泛型

1.包装类 1.1 包装类 在Java中,由于基本数据类型不是继承Object类,为了在泛型代码中可以支持基本数据类型,Java给每个基本数据类型各自提供了一个包装类。 如下图 除了char和int基本数据类型的包装类型有点特别,其他的都是首字…

30岁前懂3点助你成为不被吃的AI产品经理

前几天突然间想起一个程序员和产品经理之间经常会遇到的问题,我问程序员,你们怎么样怼产品经理提出的需求,他们回答我如下图: 可见日常工作中AI产品经理提需求给研发工程师时,貌似产生了产品经理“求”研发帮开发的现象…

linux指令练习

二、touch、vi练习: 1、在root家目录下创建目录A1和B1 2、进入B1下同时创建三个文件m1, m2 , n1,单独创建目录N1 3、进入到A1目录中分别创建一个文件t1,k2,同时创建目录F1,F2 4、删除B1下的所有1结尾的文件或者目录 5、删除A1目录…

动态粒子发射特效404网站HTML源码

源码介绍 动态粒子发射404网站HTML源码,粒子内容可以进行修改,默认是4,0数字还有一个页面不存在英文,可以自行修改,喜欢的朋友可以拿去使用,源码是html,记事本打开修改即可,鼠标双击…

【面试题】串联探针和旁挂探针有什么区别?

在网络安全领域中,串联探针和旁挂探针(通常也被称为旁路探针)是两种不同部署方式的监控设备,它们各自具有独特的特性和应用场景。以下是它们之间的主要区别: 部署方式 串联探针:串联探针一般通过网关或者…

设计资料:520-基于ZU15EG 适配AWR2243的雷达验证底板 高速信号处理板 AWR2243毫米波板

基于ZU15EG 适配AWR2243的雷达验证底板 一、板卡概述 本板卡系北京太速科技自主研发,基于MPSOC系列SOC XCZU15EG-FFVB1156架构,搭载两组64-bit DDR4,每组容量32Gb,最高可稳定运行在2400MT/s。另有1路10G SFP光纤接口、1路40G…

使用 Hugging Face 模型时遇到的问题

题意: I load a float32 Hugging Face model, cast it to float16, and save it. How can I load it as float16? 我加载了一个float32的Hugging Face模型,将其转换为float16,并保存了。我该如何以float16的形式加载它呢? 问题…

[C++]入门基础(1)

Hello大家好,今天通过本篇文章,我们来初步学习C,C可以说是对C语言的一个升级,我们会一步一步的由浅入深的学习C。 目录 1.第一个C程序 2.命名空间 2.1 命名空间出现的意义 2.2 namespace的定义 2.3 命名空间的使用 3.C输入…

【AutoencoderKL】基于stable-diffusion-v1.4的vae对图像重构

模型地址:https://huggingface.co/CompVis/stable-diffusion-v1-4/tree/main/vae 主要参考:Using-Stable-Diffusion-VAE-to-encode-satellite-images sd1.4 vae 下载到本地 from diffusers import AutoencoderKL from PIL import Image import torch import to…

太实用了吧?手把手教你华为eNSP模拟器桥接真实网络!

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部 晚上好,我的网工朋友。 今天聊聊eNSP桥接正式网络,就是把eNSP桥接进真实的网络,利用我们的物理网卡通过实体路…

昇思25天学习打卡营第5天|MindSpore网络模型构建

打卡 目录 打卡 模型类 模型网络:定义与使用 模型层级分解 nn.Flatten 张量转换-演示查看 nn.Dense 全连接层-演示查看 nn.ReLU 非线性激活层-演示查看 nn.SequentialCell 有序网络容器 nn.Softmax 多分类概率预测 模型参数 前置感受:总的来说…

Xilinx FPGA:vivado关于IIC的一些零碎知识点

一、简介 IlC(inter-Integrated circuit)总线是一种由NXP(原PHILIPS)公司开发的两线式串行总线,用于连接微控制器及其外围设备。多用于主控制器和从器件间的主从通信,在小数据量场合使用,传输距离短,任意时刻只能有一个主机等特性…

如何安全隐藏IP地址,防止网络攻击?

当您想在互联网上保持隐私或匿名时,您应该做的第一件事就是隐藏您的 IP 地址。您的 IP 地址很容易被追踪到您,并被用来了解您的位置。下面的文章将教您如何隐藏自己,不让任何试图跟踪您的活动的人发现。 什么是 IP 地址? 首先&am…

cv2.GaussianBlur()--sigmaX

目录 1 函数原型 2 原理 2.1 一维高斯分布 2 .2 二维高斯分布 3 总结 1 函数原型 def GaussianBlur(src, ksize, sigmaX, dstNone, sigmaYNone, borderTypeNone): # real signature unknown; restored from __doc__"""GaussianBlur(src, ksize, sigmaX[, …