2024NIPS | 在目标引导下利用强化学习范式进行图像冲印调优

文章标题:Goal Conditioned Reinforcement Learning for Photo Finishing Tuning
原文链接:RLPixTuner
本文是上海AI Lab联合香港中文大学(薛天帆等人)发表在2024NIPS上的论文。

1. Abstract

图像冲印调优旨在自动化对图像冲印管道(如Adobe Lightroom或Darktable)的手动调参过程。先前的工作要么使用零阶优化方法,要么依靠目标冲印管道的可微代理(进行模型训练)。前一种优化方法在参数量增加时会变得很慢;后一种优化方法很难训练。为了克服这些困难,本文提出了一个新颖的基于目标引导的强化学习框架,在使用目标图像作为条件的前提下,高效地调优管道参数。和先前的工作不同,本模型不需要依靠任何的代理并且仅把图像冲印管道视为黑盒。利用一个训练好的强化学习策略,本框架可以在十次查询内就可以找到最优的参数集,而基于优化的方法通常需要200次查询。除此以外,我们的架构使用目标图像(包括像素对齐的目标图像,风格化图像,或者是其他的可视化表示目标)引导管道参数的迭代调优过程。本文在图像冲印调优和图像风格化调优任务上执行了详细的实验,证明了方法的有效性。
请添加图片描述

2. Method

2.1 Problem Definition

本框架的目标定义为: arg ⁡ min ⁡ P L ( I g , f P I P E ( I 0 , P ) ) , \mathop{\arg\min}\limits_{P} \mathcal{L}(I_g, f_{PIPE}(I_0,P)), PargminL(Ig,fPIPE(I0,P)),
其中, f P I P E f_{PIPE} fPIPE是图像处理管道, I 0 I_0 I0为输入图像, P P P为图像处理管道的配置参数。 I g I_g Ig为目标图像,需要注意的是,在不同的任务中, I g I_g Ig是不同的。

请添加图片描述

2.2 Goal Conditioned Reinforcement Learning

本节定义强化学习因素。定义 S \mathcal{S} S为状态空间, O \mathcal{O} O为观测空间, A \mathcal{A} A是动作空间, T \mathcal{T} T是转移函数, R \mathcal{R} R是奖励函数, G \mathcal{G} G是目标分布, ρ 0 \rho_0 ρ0是初始状态分布, γ \gamma γ是折扣因子。这些因子在形式上形成了基于目标的偏观测的马尔可夫过程 ( S , O , A , T , R , G , ρ 0 , γ ) (\mathcal{S},\mathcal{O},\mathcal{A},\mathcal{T},\mathcal{R},\mathcal{G},\rho_0,\gamma) (S,O,A,T,R,G,ρ0,γ)
在每一个调优步 t t t中,智能体接收一张目标图像 I g ∈ G I_g \in \mathcal{G} IgG和一个观测 o t ∈ O o_t \in \mathcal{O} otO。其中,观测 o t o_t ot由当前的图像 I t I_t It和历史动作及观测组成。动作 a t a_t at是图像处理管道在 t t t步将采取的参数集 P P P。转移方程 T : S × A → S \mathcal{T}:\mathcal{S}×\mathcal{A} \rightarrow\mathcal{S} T:S×AS就是在Sec2.1中定义的 f P I P E f_{PIPE} fPIPE。奖励函数是 R ( s , I g ) \mathcal{R}(s,I_g) R(s,Ig),其中, s ∈ S s \in \mathcal{S} sS, I g ∈ G I_g \in \mathcal{G} IgG。本模型旨在学到一个目标引导的策略 π ( a ∣ o , I g ) : S × G → A \pi(a|o,I_g):\mathcal{S}×\mathcal{G}\rightarrow\mathcal{A} π(ao,Ig):S×GA,从而最大化折扣奖励的期望和 E s 0 ∼ ρ 0 , I g ∼ G ∑ t γ t R ( s t , I g ) . \mathbb{E}_{s_0 \sim \rho_0,I_g \sim \mathcal{G}}\sum_t\gamma^t\mathcal{R}(s_t,I_g). Es0ρ0,IgGtγtR(st,Ig).
其中,策略 π \pi π是一个确定策略 μ θ \mu_\theta μθ,输出连续的动作值 a t = μ θ ( o t , I g ) a_t = \mu_\theta(o_t,I_g) at=μθ(ot,Ig)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/35109.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【Spring】Cookie与Session

一、Cookie是什么? Cookie的存在主要是为了解决HTTP协议的无状态性问题,即协议本身无法记住用户之前的操作。 “状态” 的含义指的是: 默认情况下 HTTP 协议的客端和服务器之间的这次通信,和下次通信之间没有直接的联系 但是实际开发中&…

【最新】linux安装docker并配置加速源

我这边之前本地创建了个虚拟机,linux系统的,用于部署服务器。有时安装一些常用工具或者中间件,还是用docker安装方便,而且docker还有编排服务等功能,实际使用中还是会省不少事的,这里记录下安装docker的过程…

SpringBoot动态配置Nacos

重要知识点 Nacos属性的简单使用将SpringBoot中的所有配置全部放入到Nacos中开发人创建单独的命名空间,修改互不影响Nacos经常变动的配置抽离到外部文件中 将项目中的所有配置全部放到到 1. 首先引入包 <!-- nacos 接入--><!-- https://mvnrepository.com/artifact…

【每天一篇深度学习论文】轻量化自适应提取模块LAE

目录 论文介绍题目&#xff1a;论文地址&#xff1a; 创新点方法模型总体架构核心模块描述1. 轻量级自适应提取&#xff08;LAE&#xff09;模块&#xff1a;2. 多路径旁路特征匹配&#xff08;MSFM&#xff09;模块&#xff1a;3. RFABlock&#xff08;感受野注意力卷积&#…

Linux中文件操作

文件由文件内容和文件属性构成&#xff0c;因此对文件的操作就是对文件内容或文件属性的操作。所谓的“打开一个文件”就是将文件的属性或内容加载到内存中&#xff0c;而没有被打开的文件存在于磁盘上。打开的文件称作“内存文件”&#xff0c;未被打开的文件称作“磁盘文件”…

hhdb数据库介绍(10-42)

安全 SQL防火墙 管理平台提供的SQL防火墙功能可为用户拦截高危SQL、误操作SQL等&#xff0c;提升系统安全性。 同时防火墙提供观测功能&#xff0c;可在开启新规则前&#xff0c;通过开启观测状态&#xff0c;判断新规则对业务的影响程度。开启观测状态后&#xff0c;计算节…

白嫖VMware ESXi 8.0 U3新功能Live Patch、无需重启零中断修复漏洞

哈喽大家好&#xff0c;欢迎来到虚拟化时代君&#xff08;XNHCYL&#xff09;&#xff0c;收不到通知请将我点击星标&#xff01;“ 大家好&#xff0c;我是虚拟化时代君&#xff0c;一位潜心于互联网的技术宅男。这里每天为你分享各种你感兴趣的技术、教程、软件、资源、福利…

JavaSE学习心得(API与算法篇)

常用API和常见算法 前言 常用API Math System Runtime Object ​编辑浅克隆 深克隆 Objects Biginteger 构造方法 成员方法 底层存储方式 Bigdecimal 构造方法 Bigdecimal的使用 底层存储方式 ​编辑正则表达式 两个判断练习 两个爬取练习 贪婪爬取和非贪…

如何开发高效的企业内训APP?教育培训系统源码搭建实战详解

本篇文章&#xff0c;小编将从教育培训系统的源码搭建、功能设计以及技术实现等方面&#xff0c;详细探讨如何开发一款高效的企业内训APP。 一、企业内训APP的需求分析 在开发企业内训APP之前&#xff0c;首先需要明确其基本需求。一个高效的企业内训APP应该具备以下几个核心…

解释器模式的理解和实践

引言 解释器模式&#xff08;Interpreter Pattern&#xff09;是一种行为型设计模式&#xff0c;它在软件工程中用得相对较少&#xff0c;但在某些特定场景下非常有用。解释器模式提供了一种解释语言的语法或表达式的方式&#xff0c;它定义了一个表达式接口&#xff0c;并通过…

Z029 PHP+MYSQL+LW+饭店预订管理系统的设计与实现 源代码 配置 文档

饭店预订管理系统 1.项目描述2. 开发背景与意义3.项目功能结构4.界面展示5.源码获取 1.项目描述 近几年来&#xff0c;我国计算机信息技术发展迅速&#xff0c;各种各样的信息管理系统层出不穷。互联网电子商务的热潮&#xff0c;改变了人们生活习惯&#xff0c;而作为城市经济…

【力扣热题100】—— Day5.回文链表

正视自己的懦弱和无能&#xff0c;克服自己的嫉妒与不甘 —— 24.12.3 234. 回文链表 给你一个单链表的头节点 head &#xff0c;请你判断该链表是否为 回文链表 。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a…

什么是大数据、有什么用以及学习内容

目录 1.什么是大数据&#xff1f; 1.1大数据的类型 1.2大数据的来源 1.3大数据处理的挑战 1.4大数据的核心技术 2.大数据有什么用&#xff1f; 2.1商业与营销&#xff1a; 2.2医疗与健康&#xff1a; 2.3金融服务&#xff1a; 2.4政府与公共服务&#xff1a; 2.5交通…

Docker 安装 中文版 GitLab

Docker 安装系列 安装GitLab、解决服务器内存不足问题、使用域名/IP地址访问项目 1、拉取 [rootTseng ~]# docker pull twang2218/gitlab-ce-zh:latest latest: Pulling from twang2218/gitlab-ce-zh 8ee29e426c26: Pull complete 6e83b260b73b: Pull complete e26b65fd11…

分布式数据库环境(HBase分布式数据库)的搭建与配置

分布式数据库环境&#xff08;HBase分布式数据库&#xff09;的搭建与配置 1. VMWare安装CentOS7.9.20091.1 下载 CentOS7.9.2009 映像文件1.2启动 VMware WorkstationPro&#xff0c;点击“创建新的虚拟机”1.3在新建虚拟机向导界面选择“典型&#xff08;推荐&#xff09;”1…

ssh连接工具

我们未来接触到的linux系统一般情况下是没有界面&#xff08;桌面环境&#xff09;&#xff0c;我们一般会在自己工作的电脑上&#xff0c;通过相关ssh工具&#xff0c;利用网络连接到远程的你的服务器上。连接工具有很多&#xff1a;mobaxterm、xshell/xftp、putty等等 mobaxt…

苹果 ATS 配置SSL证书

Apple的App Transport Security (ATS) 是一项安全机制&#xff0c;旨在确保iOS和macOS应用的网络通信使用HTTPS加密。自iOS 9和OS X 10.11以来&#xff0c;默认情况下所有网络请求都必须使用HTTPS&#xff0c;除非明确允许非HTTPS连接。 在2017年1月1日之前&#xff0c;开发者可…

安卓逆向之对抗Anti-Frida学习

基础补充 什么是 Anti-Frida 保护&#xff1f; Anti-Frida保护是指在移动应用或程序中采用的一种安全技术或防护机制&#xff0c;旨在防止或干扰Frida等动态分析工具的注入与使用。 Anti-Frida保护常见技术 有哪些&#xff1f; 检测frida-agent.so的注入 &#xff1a; Fr…

安全架构评审

安全架构评审 1.概述2.安全设计原则3.美团安全架构评审模型安全需求分析架构review攻击面分析和威胁建模攻击面分析威胁列表 1.概述 完整的安全评审会包含安全架构评审、安全代码审核和安全测试三个手段 安全架构评审聚焦于探寻安全设计中的漏洞&#xff0c;以宏观视野全面考…

迎接国庆,我上线了第一款小程序

最近花了些时间&#xff0c;写了一个 “国庆头像” 小程序。正好快国庆节了&#xff0c;于是分享一下我的这个 “Starstick星点贴纸” 小程序&#xff0c;顺便简单讲讲以及其中的设计、开发、上线过程。 小程序的界面是这样的&#xff1a; &#x1f52e;背景 今年中秋前夕&am…