文章标题:Goal Conditioned Reinforcement Learning for Photo Finishing Tuning
原文链接:RLPixTuner
本文是上海AI Lab联合香港中文大学(薛天帆等人)发表在2024NIPS上的论文。
1. Abstract
图像冲印调优旨在自动化对图像冲印管道(如Adobe Lightroom或Darktable)的手动调参过程。先前的工作要么使用零阶优化方法,要么依靠目标冲印管道的可微代理(进行模型训练)。前一种优化方法在参数量增加时会变得很慢;后一种优化方法很难训练。为了克服这些困难,本文提出了一个新颖的基于目标引导的强化学习框架,在使用目标图像作为条件的前提下,高效地调优管道参数。和先前的工作不同,本模型不需要依靠任何的代理并且仅把图像冲印管道视为黑盒。利用一个训练好的强化学习策略,本框架可以在十次查询内就可以找到最优的参数集,而基于优化的方法通常需要200次查询。除此以外,我们的架构使用目标图像(包括像素对齐的目标图像,风格化图像,或者是其他的可视化表示目标)引导管道参数的迭代调优过程。本文在图像冲印调优和图像风格化调优任务上执行了详细的实验,证明了方法的有效性。
2. Method
2.1 Problem Definition
本框架的目标定义为: arg min P L ( I g , f P I P E ( I 0 , P ) ) , \mathop{\arg\min}\limits_{P} \mathcal{L}(I_g, f_{PIPE}(I_0,P)), PargminL(Ig,fPIPE(I0,P)),
其中, f P I P E f_{PIPE} fPIPE是图像处理管道, I 0 I_0 I0为输入图像, P P P为图像处理管道的配置参数。 I g I_g Ig为目标图像,需要注意的是,在不同的任务中, I g I_g Ig是不同的。
2.2 Goal Conditioned Reinforcement Learning
本节定义强化学习因素。定义 S \mathcal{S} S为状态空间, O \mathcal{O} O为观测空间, A \mathcal{A} A是动作空间, T \mathcal{T} T是转移函数, R \mathcal{R} R是奖励函数, G \mathcal{G} G是目标分布, ρ 0 \rho_0 ρ0是初始状态分布, γ \gamma γ是折扣因子。这些因子在形式上形成了基于目标的偏观测的马尔可夫过程 ( S , O , A , T , R , G , ρ 0 , γ ) (\mathcal{S},\mathcal{O},\mathcal{A},\mathcal{T},\mathcal{R},\mathcal{G},\rho_0,\gamma) (S,O,A,T,R,G,ρ0,γ)。
在每一个调优步 t t t中,智能体接收一张目标图像 I g ∈ G I_g \in \mathcal{G} Ig∈G和一个观测 o t ∈ O o_t \in \mathcal{O} ot∈O。其中,观测 o t o_t ot由当前的图像 I t I_t It和历史动作及观测组成。动作 a t a_t at是图像处理管道在 t t t步将采取的参数集 P P P。转移方程 T : S × A → S \mathcal{T}:\mathcal{S}×\mathcal{A} \rightarrow\mathcal{S} T:S×A→S就是在Sec2.1中定义的 f P I P E f_{PIPE} fPIPE。奖励函数是 R ( s , I g ) \mathcal{R}(s,I_g) R(s,Ig),其中, s ∈ S s \in \mathcal{S} s∈S, I g ∈ G I_g \in \mathcal{G} Ig∈G。本模型旨在学到一个目标引导的策略 π ( a ∣ o , I g ) : S × G → A \pi(a|o,I_g):\mathcal{S}×\mathcal{G}\rightarrow\mathcal{A} π(a∣o,Ig):S×G→A,从而最大化折扣奖励的期望和 E s 0 ∼ ρ 0 , I g ∼ G ∑ t γ t R ( s t , I g ) . \mathbb{E}_{s_0 \sim \rho_0,I_g \sim \mathcal{G}}\sum_t\gamma^t\mathcal{R}(s_t,I_g). Es0∼ρ0,Ig∼Gt∑γtR(st,Ig).
其中,策略 π \pi π是一个确定策略 μ θ \mu_\theta μθ,输出连续的动作值 a t = μ θ ( o t , I g ) a_t = \mu_\theta(o_t,I_g) at=μθ(ot,Ig)。