【低光照论文精读】RT-VENet: A Convolutional Network for Real-time Video Enhancement

论文《RT-VENet: 用于实时视频增强的卷积网络》提出了一种新颖的深度学习方法，用于实时增强视频质量。该论文的主要贡献包括：

实时性能：RT-VENet能够在单个CPU上以45帧每秒（FPS）处理1080p视频，或在Nvidia Tesla P40 GPU上以77 FPS运行。它在速度和质量上都优于现有的最先进方法。
轻量级网络：网络架构设计非常轻量化，仅使用编码器而无需解码器，使其能够更高效地进行高速处理。网络并不是直接生成像素值，而是预测颜色映射函数来调整光照、色调等属性。
时序特征聚合：该网络使用时序特征聚合（TFA）模块，确保视频帧之间的时序一致性，解决了视频增强中的闪烁问题。
多任务通用性：该方法足够通用，能够处理如重新打光、修图和去雾等多种增强任务，并在基准数据集上表现出优异的性能。
高效性：该方法显著降低了计算复杂性，处理速度比其他实时方法快约10倍，同时保持高质量的输出。

在论文的第3部分 “Approach”（方法） 中，作者详细介绍了RT-VENet的设计和实现，涵盖了问题的具体表述、网络架构的设计以及损失函数的使用。下面是该部分的详细解释：

3.1 Problem Formulation（问题表述）

在这个部分，作者定义了视频增强的问题。他们指出，许多现有的方法使用密集的像素预测（dense pixel-wise prediction），但这些方法通常伴随着高计算开销。因此，RT-VENet采用了颜色映射函数来简化计算。

挑战：

单一的全局颜色映射函数无法准确描述复杂的图像处理任务，尤其是局部的颜色变化。
如何在没有参考图像的情况下自动完成图像的颜色调整。

解决方案：

受传统基于尺度的图像滤波的启发，RT-VENet通过将图像划分为多个“网格块”来进行局部颜色映射。这些网格块（grid-like tiles）能够捕捉细微的局部细节，同时兼顾全局的上下文信息。
每个网格块都会生成一个分段线性函数，用于将输入像素的颜色值映射到目标像素。这些颜色映射函数以网格的形式分布，适应局部的颜色变化，同时确保生成图像的平滑性。

公式：

颜色映射函数定义为分段线性函数：
$\phi_g(x) = \sum_{l=0}^{L-1} k_l^g \delta_l(x) ]$
其中，k_l^g是每个线性函数的斜率，L是分段数，x是输入颜色值。

3.2 Video Enhancement Network（视频增强网络）

该部分介绍了RT-VENet的网络架构，分为两个部分：
在这里插入图片描述

Baseline Image Network（基础图像网络）

RT-VENet的基础网络是一个轻量级编码器网络，类似于MobileNetV2。
输入的图像首先被缩小到较小的分辨率，然后通过编码器转换为潜在特征表示。编码器的输出是一个特征图，其中每个像素代表网格块中的一个区域。
编码器后面接着一个“小型头部”，由几层1×1卷积组成，用来生成颜色映射函数的参数。

Temporal Feature Aggregation（时序特征聚合，TFA）

为了保持视频帧之间的时序一致性，RT-VENet在基础图像网络中引入了时序特征聚合模块（TFA），其作用是：

特征匹配：相邻帧之间的相似度通过特征匹配来衡量。对于相似度高的静止区域，当前帧和前一帧的特征会被聚合，减少不必要的变化；而对于运动区域，主要依据当前帧的特征。
特征融合：通过对当前帧和前一帧的特征进行加权融合，TFA模块能确保静止区域的输出稳定一致，并能自适应处理运动区域的变化，减少视频中的闪烁问题。

TFA的工作原理基于特征匹配后的加权融合，公式为：
$f_t^* = w_{co}(f_t + f_{t-1}) \odot M_g + (1 - 2w_{co}) f_t ]$
其中，f_t和f_{t-1}是当前帧和前一帧的特征，M_g是特征匹配的相似度，w_{co}是控制前一帧特征影响权重的参数。

3.3 Loss Function（损失函数）

为了保证增强效果和时序一致性，RT-VENet采用了多种损失函数：

Reconstruction Loss（重建损失）：
- 使用L1损失来衡量生成图像与目标图像的差异，确保增强结果在像素级别上接近目标图像。
  $L_r = || I_t - \hat{I}_t ||_1 ]$
Perceptual Loss（感知损失）：
- 基于VGG-19的感知损失，用于衡量生成图像与目标图像在高层次特征上的相似性。这种损失确保增强结果在视觉上更接近人眼的感知。
  $L_p = || \Omega(I_t) - \Omega(\hat{I}_t) || ]$
Smooth Loss（平滑损失）：
- 由于每个网格块生成的映射函数是独立的，因此可能会在网格边界处产生不平滑的伪影。为了避免这种情况，加入了平滑损失，鼓励相邻像素的增强结果保持一致。
  $L_s = \sum_p \nabla I_t^2 / || \nabla \log I_t ||_\theta ]$
Temporal-consistency Loss（时序一致性损失）：
- 该损失用于显式约束帧间一致性，减少相邻帧之间的不必要变化，尤其是对于特征高度匹配的区域。
  $L_{temp} = \sum_g || (\phi_t^g - \phi_{t-1}^g) \odot M_g' ||_1 ]$