libaom 源码分析：帧间运动矢量预测

AV1 帧间运动矢量预测原理

运动矢量可以被相邻块预测，这些相邻块可以是空域相邻块，或位于参考帧中的时域相邻块；通过检查所有这些块，将确定一组运动矢量预测器，并用于编码运动矢量信息。

空域运动矢量预测

两组空域相邻块可以被利用寻找空域 MV 预测器，第一组包括当前块的直接上方和左侧的邻近空间邻居，第二组包括靠近但不是直接相邻于当前块的外部空间邻居。
对于每组空间邻近块，首先从左到右检查顶行，然后从上到下检查左列。对于相邻空间邻近块，在检查完左列邻近块之后，还会额外检查右上角的块。对于非相邻空间邻近块，首先检查位于（-1，-1）位置的左上角块，然后以与相邻邻近块相似的方式检查顶行和左列。首先检查相邻邻近块，其次检查下一子节将描述的时间运动矢量预测器，之后检查非相邻空间邻近块。
对于使用一对参考帧的复合预测，不使用非相邻空间邻近块来推导运动矢量预测器。

时域运动矢量预测

除了空域相邻块，MV 预测器还可以使用参考图像的同位块来推导出运动矢量（MV）预测器，即所谓的时间MV预测器。
过程：
- 存储参考帧的MV：首先，将参考帧的MV与各自的参考帧索引一起存储。
- 为当前帧的每个8×8块生成时间MV预测器：对于当前帧的每个8×8块，识别并存储穿过该块的参考帧的MV，并与参考帧索引一起存放在时间MV缓冲区中。
- 示例：如下图所示的例子中，参考帧1（R1；图右侧）的MV，即MVref，从R1指向R1的参考帧（图左侧）。在此过程中，它穿过了当前帧的8×8块。MVref被存储在与这个8×8块相关联的时间MV缓冲区中。
- 运动投影过程：在推导时间MV预测器的过程中，参考帧按预定义的顺序进行扫描：LAST_FRAME、BWDREF_FRAME、ALTREF2_FRAME、ALTREF_FRAME和LAST2_FRAME。按扫描顺序，较晚的参考帧的MV会替换之前识别的MV。
- 最终时间MV预测器的确定：给定预定义的块坐标，识别并投影存储在时间MV缓冲区中的相关MV，以派生出指向当前块到其参考帧的时间MV预测器，例如上图中的MV0。
- 时间MV预测器的预定义块位置：如下图所示，展示了派生16×16块时间MV预测器的预定义块位置。最多检查七个块以找到有效的时间MV预测器。在检查最近的空间MV预测器之后，但在检查非相邻空间MV预测器之前，会检查时间MV预测器。
MV预测器的派生：在派生MV预测器时，将所有空间和时间MV候选项汇集在一起，每个预测器被分配一个在扫描空间和时间邻近块期间确定的权重。基于相关权重，对候选项进行排序和排名，并识别出多达四个候选项，将它们添加到MV预测器列表中。这个MV预测器列表也被称为动态参考列表（DRL），如下一子节所述，它在动态MV预测模式中进一步使用。

动态运动矢量预测

运动向量（MVs）的预测可以通过以下方式完成：
- 空间邻近块：在当前帧内，利用空间上邻近的编码块来预测MV。
- 时间邻近块：在参考帧内，利用时间上邻近的块来预测MV。
- MV预测器集合：通过检查所有这些块，最多可以确定四个MV预测器。
单参考帧间预测的MV预测模式：
- NEARESTMV：始终使用MV预测器列表中索引为0的条目。它适用于那些运动变化不大的场景，选择最接近当前编码块的运动向量作为预测。
- NEARMV：使用索引为1、2或3的条目之一，信号化一个三元DRL（直接参考列表）索引来指示使用哪个条目作为MV预测器。
- NEWMV：使用索引为0、1或2的条目之一，信号化一个三元DRL索引来指示使用哪个条目作为MV预测器，并信号化相对于MV预测器的MV差分（MVD）。
- GLOBALMV：使用基于帧级全局运动参数的MV作为MV预测器。它适用于全局运动补偿的场景，其中整个帧或大部分区域都遵循相同的运动。
复合帧间预测的MV预测模式：
- NEAREST_NEARESTMV：始终使用列表中索引为0的MV对。
- NEAR_NEARMV：使用由三元DRL索引信号化的索引为1、2或3的MV对。
- NEAREST_NEWMV：始终使用列表中索引为0的MV对作为MV预测器，并为第二个MV信号化一个MVD。
- NEW_NEARESTMV：始终使用列表中索引为0的MV对作为MV预测器，并为第一个MV信号化一个MVD。
- NEAR_NEWMV：使用由三元DRL索引信号化的索引为1、2或3的MV对作为MV预测器，并为第二个MV信号化一个MVD。
- NEW_NEARMV：使用由三元DRL索引信号化的索引为1、2或3的MV对作为MV预测器，并为第一个MV信号化一个MVD。
- NEW_NEWMV：使用由三元DRL索引信号化的索引为0、1或2的MV对作为MV预测器，并为两个MV都信号化MVD。
- GLOBAL_GLOBALMV：基于每个参考帧的帧级全局运动参数使用MV。
- 除了NEARESTMV和NEAREST_NEARESTMV模式外，在所有情况下，都需要信号化DRL索引来指定用作MV预测器的确切MV或MV对。然而，DRL索引的范围在参考列表中可以根据MV预测模式是[0, 1, 2]或[1, 2, 3]。

libaom 相关源码分析

函数关系：
av1_find_mv_refs 函数：

获取宏块位置：从 xd 结构中获取当前宏块的行（mi_row）和列（mi_col）。
初始化全局运动矢量：gm_mv 数组用于存储全局运动矢量，它将被初始化为零。
处理内部帧：如果参考帧是内部帧（INTRA_FRAME），则将全局运动矢量设置为零，并将 global_mvs 对应的元素标记为无效。
计算全局运动矢量：如果参考帧不是内部帧，根据参考帧的类型（单参考帧或复合参考帧），计算全局运动矢量。这些矢量是通过 gm_get_motion_vector 函数计算的，该函数考虑了是否允许高精密运动矢量和是否强制整数运动矢量。
设置参考运动矢量列表：调用 setup_ref_mv_list 函数，传入上述参数，以设置参考运动矢量列表。这个列表将用于后续的运动矢量预测和编码过程。

void av1_find_mv_refs(const AV1_COMMON *cm, const MACROBLOCKD *xd,MB_MODE_INFO *mi, MV_REFERENCE_FRAME ref_frame,uint8_t ref_mv_count[MODE_CTX_REF_FRAMES],CANDIDATE_MV ref_mv_stack[][MAX_REF_MV_STACK_SIZE],uint16_t ref_mv_weight[][MAX_REF_MV_STACK_SIZE],int_mv mv_ref_list[][MAX_MV_REF_CANDIDATES],int_mv *global_mvs, int16_t *mode_context) {const int mi_row = xd->mi_row;const int mi_col = xd->mi_col;int_mv gm_mv[2];if (ref_frame == INTRA_FRAME) {gm_mv[0].as_int = gm_mv[1].as_int = 0;if (global_mvs != NULL) {global_mvs[ref_frame].as_int = INVALID_MV;}} else {const BLOCK_SIZE bsize = mi->bsize;const int allow_high_precision_mv = cm->features.allow_high_precision_mv;const int force_integer_mv = cm->features.cur_frame_force_integer_mv;if (ref_frame < REF_FRAMES) {gm_mv[0] = gm_get_motion_vector(&cm->global_motion[ref_frame],allow_high_precision_mv, bsize, mi_col,mi_row, force_integer_mv);gm_mv[1].as_int = 0;if (global_mvs != NULL) global_mvs[ref_frame] = gm_mv[0];} else {MV_REFERENCE_FRAME rf[2];av1_set_ref_frame(rf, ref_frame);gm_mv[0] = gm_get_motion_vector(&cm->global_motion[rf[0]],allow_high_precision_mv, bsize, mi_col,mi_row, force_integer_mv);gm_mv[1] = gm_get_motion_vector(&cm->global_motion[rf[1]],allow_high_precision_mv, bsize, mi_col,mi_row, force_integer_mv);}}setup_ref_mv_list(cm, xd, ref_frame, &ref_mv_count[ref_frame],ref_mv_stack[ref_frame], ref_mv_weight[ref_frame],mv_ref_list ? mv_ref_list[ref_frame] : NULL, gm_mv, mi_row,mi_col, mode_context);
}

setup_ref_mv_list 函数

扫描第一行上方模式信息：scan_row_mbmi 函数被调用来扫描当前宏块正上方的行（row_offset = -1）的模式信息；
扫描第一列左边模式信息：scan_col_mbmi 函数被调用来扫描当前宏块左方的列（col_offset = -1）的模式信息；
检查上右边界：如果宏块有右上角块（has_tr 为真），则调用 scan_blk_mbmi 函数来扫描右上角块的模式信息；
获取时域参考 mv 信息：调用add_tpl_ref_mv函数获取时域参考 mv 信息；
扫描第二外层区域，检查左上角块：scan_blk_mbmi 函数检查左上角块；
for 循环两次外层行列：分别调用scan_row_mbmi、scan_col_mbmi函数扫描外层的行、列信息；
根据nearest_match 更新模式上下文mode_context，这个上下文信息将用于后续的编码决策，包括选择最佳的运动矢量预测模式。通过这种方式，编码器可以更智能地选择运动矢量，从而提高编码效率和视频质量；
排序参考帧候选，分配最近 mv 和近 mv；
处理复合参考帧：通过调用 process_compound_ref_mv_candidate 函数，处理行和列偏移量内的宏块，以收集复合参考 MV 候选。
处理单参考帧：通过调用 process_single_ref_mv_candidate 函数，处理行和列偏移量内的宏块，以收集单一参考 MV 候选。

static AOM_INLINE void setup_ref_mv_list(const AV1_COMMON *cm, const MACROBLOCKD *xd, MV_REFERENCE_FRAME ref_frame,uint8_t *const refmv_count,CANDIDATE_MV ref_mv_stack[MAX_REF_MV_STACK_SIZE],uint16_t ref_mv_weight[MAX_REF_MV_STACK_SIZE],int_mv mv_ref_list[MAX_MV_REF_CANDIDATES], int_mv *gm_mv_candidates,int mi_row, int mi_col, int16_t *mode_context) {const int bs = AOMMAX(xd->width, xd->height);const int has_tr = has_top_right(cm, xd, mi_row, mi_col, bs);MV_REFERENCE_FRAME rf[2];const TileInfo *const tile = &xd->tile;int max_row_offset = 0, max_col_offset = 0;const int row_adj = (xd->height < mi_size_high[BLOCK_8X8]) && (mi_row & 0x01);const int col_adj = (xd->width < mi_size_wide[BLOCK_8X8]) && (mi_col & 0x01);int processed_rows = 0;int processed_cols = 0;av1_set_ref_frame(rf, ref_frame);mode_context[ref_frame] = 0;*refmv_count = 0;// Find valid maximum row/col offset.if (xd->up_available) {max_row_offset = -(MVREF_ROW_COLS << 1) + row_adj;if (xd->height < mi_size_high[BLOCK_8X8])max_row_offset = -(2 << 1) + row_adj;max_row_offset = find_valid_row_offset(tile, mi_row, max_row_offset);}if (xd->left_available) {max_col_offset = -(MVREF_ROW_COLS << 1) + col_adj;if (xd->width < mi_size_wide[BLOCK_8X8])max_col_offset = -(2 << 1) + col_adj;max_col_offset = find_valid_col_offset(tile, mi_col, max_col_offset);}uint8_t col_match_count = 0;uint8_t row_match_count = 0;uint8_t newmv_count = 0;// Scan the first above row mode info. row_offset = -1;if (abs(max_row_offset) >= 1)scan_row_mbmi(cm, xd, mi_col, rf, -1, ref_mv_stack, ref_mv_weight,refmv_count, &row_match_count, &newmv_count, gm_mv_candidates,max_row_offset, &processed_rows);// Scan the first left column mode info. col_offset = -1;if (abs(max_col_offset) >= 1)scan_col_mbmi(cm, xd, mi_row, rf, -1, ref_mv_stack, ref_mv_weight,refmv_count, &col_match_count, &newmv_count, gm_mv_candidates,max_col_offset, &processed_cols);// Check top-right boundaryif (has_tr)scan_blk_mbmi(cm, xd, mi_row, mi_col, rf, -1, xd->width, ref_mv_stack,ref_mv_weight, &row_match_count, &newmv_count,gm_mv_candidates, refmv_count);const uint8_t nearest_match = (row_match_count > 0) + (col_match_count > 0);const uint8_t nearest_refmv_count = *refmv_count;// TODO(yunqing): for comp_search, do it for all 3 cases.for (int idx = 0; idx < nearest_refmv_count; ++idx)ref_mv_weight[idx] += REF_CAT_LEVEL;if (cm->features.allow_ref_frame_mvs) {int is_available = 0;const int voffset =</