2024NIPS | 在目标引导下利用强化学习范式进行图像冲印调优

文章标题：Goal Conditioned Reinforcement Learning for Photo Finishing Tuning
原文链接：RLPixTuner
本文是上海AI Lab联合香港中文大学（薛天帆等人）发表在2024NIPS上的论文。

1. Abstract

图像冲印调优旨在自动化对图像冲印管道（如Adobe Lightroom或Darktable）的手动调参过程。先前的工作要么使用零阶优化方法，要么依靠目标冲印管道的可微代理（进行模型训练）。前一种优化方法在参数量增加时会变得很慢；后一种优化方法很难训练。为了克服这些困难，本文提出了一个新颖的基于目标引导的强化学习框架，在使用目标图像作为条件的前提下，高效地调优管道参数。和先前的工作不同，本模型不需要依靠任何的代理并且仅把图像冲印管道视为黑盒。利用一个训练好的强化学习策略，本框架可以在十次查询内就可以找到最优的参数集，而基于优化的方法通常需要200次查询。除此以外，我们的架构使用目标图像（包括像素对齐的目标图像，风格化图像，或者是其他的可视化表示目标）引导管道参数的迭代调优过程。本文在图像冲印调优和图像风格化调优任务上执行了详细的实验，证明了方法的有效性。
请添加图片描述

2. Method

2.1 Problem Definition

本框架的目标定义为： $\mathop{\arg\min}\limits_{P} \mathcal{L}(I_g, f_{PIPE}(I_0,P)),$
其中， $f_{PIPE}$ 是图像处理管道， $I_0$ 为输入图像， $P$ 为图像处理管道的配置参数。 $I_g$ 为目标图像，需要注意的是，在不同的任务中， $I_g$ 是不同的。

请添加图片描述

2.2 Goal Conditioned Reinforcement Learning

本节定义强化学习因素。定义 $\mathcal{S}$ 为状态空间， $\mathcal{O}$ 为观测空间， $\mathcal{A}$ 是动作空间， $\mathcal{T}$ 是转移函数， $\mathcal{R}$ 是奖励函数， $\mathcal{G}$ 是目标分布， $\rho_0$ 是初始状态分布， $\gamma$ 是折扣因子。这些因子在形式上形成了基于目标的偏观测的马尔可夫过程 $(\mathcal{S},\mathcal{O},\mathcal{A},\mathcal{T},\mathcal{R},\mathcal{G},\rho_0,\gamma)$ 。
在每一个调优步 $t$ 中，智能体接收一张目标图像 $I_g \in \mathcal{G}$ 和一个观测 $o_t \in \mathcal{O}$ 。其中，观测 $o_t$ 由当前的图像 $I_t$ 和历史动作及观测组成。动作 $a_t$ 是图像处理管道在 $t$ 步将采取的参数集 $P$ 。转移方程 $\mathcal{T}:\mathcal{S}×\mathcal{A} \rightarrow\mathcal{S}$ 就是在Sec2.1中定义的 $f_{PIPE}$ 。奖励函数是 $\mathcal{R}(s,I_g)$ ，其中， $\in \mathcal{S}$ , $I_g \in \mathcal{G}$ 。本模型旨在学到一个目标引导的策略 $\pi(a|o,I_g):\mathcal{S}×\mathcal{G}\rightarrow\mathcal{A}$ ，从而最大化折扣奖励的期望和 $\mathbb{E}_{s_0 \sim \rho_0,I_g \sim \mathcal{G}}\sum_t\gamma^t\mathcal{R}(s_t,I_g).$
其中，策略 $\pi$ 是一个确定策略 $\mu_\theta$ ，输出连续的动作值 $a_t = \mu_\theta(o_t,I_g)$ 。