Deep tone mapping network in HSV color space

Abstract

色调映射算子可以将高动态范围(HDR)图像转换为低动态范围(LDR)图像,这样我们就可以用LDR设备享受HDR图像的信息内容。然而,目前的色调映射算法主要关注亮度映射,而忽略了颜色分量。与此同时,它们经常遭受光晕伪影和过度增强。本文提出了一种色调-饱和度-值(HSV)色彩空间中的色调映射网络(TMNet),以获得更好的亮度和色彩映射。我们采用改进的Wasserstein生成对抗网络(WGAN-GP)作为基本架构,并进一步介绍了一些改进。采用精心设计的损失函数将色调映射图像推至自然图像流形。更重要的是,我们创建了一个色调映射图像数据集,其中标签图像由摄影师手动调整。与现有的色调映射方法相比,该方法在主观和客观评价方面都取得了较好的效果。

I. INTRODUCTION

自然场景具有非常宽的亮度动态范围,从10−4到105 cd/m2不等,这远远超出了普通数字显示器的能力。高动态范围(HDR)图像可以存储大的动态范围亮度,提供更好的视觉体验。然而,由于硬件的限制,很多低动态范围(LDR)设备无法正常显示HDR内容。色调映射(TM)操作符可以将HDR图像转换为LDR图像。因此,为了在传统设备上显示HDR图像,有必要使用TM算子压缩亮度范围。

在过去的几十年里,音调映射引起了人们的广泛关注。目前提出了许多TM方法,可简单地分为全局方法和局部方法。全局方法倾向于通过单压缩曲线[1]、直方图调整[2]等方式对HDR图像进行全局转换。但这些方法不能很好地保留局部对比度。相反,局部方法使用空间变化的方式来处理这一任务,因此在细节增强方面表现更好。它们大多通过边缘保持滤波器将HDR图像分解为一个基础层和一个细节层。然后对嵌入亮度信息的基础层进行压缩,同时保留或增强具有细粒度细节的细节层。近年来,深度学习因其强大的特征表示能力而受到广泛关注。Hou等人提出了一种在线卷积神经网络(CNN)模型[6],由于数据集有限,该模型只能转换一张HDR图像。Patel等人使用色调映射图像质量指数(TMQI)最高的LDR图像作为标签来训练生成式对抗网络(GAN)模型[7],TMQI是色调映射领域流行的客观评价指标。该方法利用传统的色调映射算子,主要关注客观评价指标。

总的来说,现有的TM方法有两个主要的局限性。一方面,许多当前的方法会导致过度增强和严重的工件。另一方面,传统方法通常侧重于压缩亮度动态范围,而忽略了颜色分量。

为了解决以上两个问题,我们提出了一种新的HDR图像色调映射管道,如图1所示。我们首先将输入的HDR图像转换为HSV色彩空间。然后,提出的Tone Mapping Network (TMNet)同时重建S和V通道,学习精细亮度和高质量饱和度映射。由于色调映射算子假设变换发生在相同的色域内,因此保留了H通道,可以有效地防止色移。我们还使用精心设计的损失函数,包括对抗损失和内容损失,来推动输出图像在结构保存和自然度方面都有更好的表现。最后,我们将TMNet输出和原H通道转换回RGB色彩空间,得到最终结果。此外,由于色调映射图像没有真实的底色,我们提出了一个色调映射图像数据集,其中真实的底色图像由摄影师手动修饰。这些摄影师可以使用不同的方法获得高质量的地面真实图像,这些图像看起来像真实图像,具有较高的TMQI值。通过这些改进,我们的方法在结构保真度和自然度之间取得了很好的平衡。定量和视觉结果表明,该方法优于现有的最先进的色调映射方法。

II. PROPOSED METHOD

在本节中,我们将介绍我们的HDR色调映射管道,包括预处理和TMNet的体系结构。

A. Pre-processing

由于图像的动态范围大部分嵌入在亮度域中,传统算法通常只关注亮度分量而忽略色度分量。特别地,有些算法在HSV色彩空间中执行,它们只变换V通道,同时与饱和通道相乘比例因子以避免过饱和,如下:

其中TMrgb表示RGB色彩空间中的色调映射图像,α是控制饱和度的手动参数,f表示将色彩空间转换回RGB的函数。

其他利用RGB色彩空间的算法通常计算输入亮度和映射亮度之间的比例因子,然后使用它来变换输入RGB像素,如下所示:

其中Lw和Ld分别为输入亮度和色调映射亮度,Irgb为输入像素值,Orgb为RGB色彩空间中色调映射像素值,s为控制饱和度的手动参数。

如前所述,这些方法大多采用手动参数来控制饱和度。然而,很难找到一个适合所有场景的最优值。因此,我们将输入的HDR图像转换为HSV色彩空间,重建S通道和V通道,以同时学习高质量的亮度和饱和度映射。与RGB色彩空间相比,该方法由于保留了H通道,有效地避免了色彩偏移问题。

在处理之前,输入的V通道被映射到对数域。对数函数的使用假设HDR图像中的大多数结构细节处于低动态范围,因此在压缩高亮度水平的同时提高低亮度水平是合理的。这一步模拟了人类视觉系统对亮度的响应,初步缩小了动态范围。

B. TMNet

GAN为生成具有高感知质量的视觉上可信的自然图像提供了一个强大的框架。拟议的TMNet基于一个对抗性的U-Net[13],并进行了一些具体的调整。

对于生成器,采用典型的U-Net [13]架构,因为它可以提取更多的高级信息并将其重建为原始大小。在大小相同的编码层和解码层之间增加skip连接和concat模块,以保持空间结构信息并利用多尺度特征。更重要的是,我们还将输入与解码器的输出连接起来,以保持输入的像素级细节。

在编码器中,采用7 × 7核步长为2的卷积层进行特征提取,并初步减小了特征图的尺寸。然后我们使用步长为2的四个残差块[8]。残差块只学习输入和目标之间的残差,从而使网络更容易优化。解码器由五个转置卷积层和两个卷积层组成。具有2 × 2内核和步幅2的转置卷积层旨在实现上采样,具有3 × 3内核和步幅1的最后两层用于微调输出。每个卷积层后面都有一个ReLU作为激活函数,除了最后一个,后面是一个sigmoid激活函数,将输出值限制在[0,1]范围内。在本文中,卷积层包含四个卷积层,具有3 × 3内核和步幅2,每个卷积层后面都是层规范化和ReLU。

一个引人注目的色调映射图像应该满足以下两个方面。首先,结构信息和局部细节应该与输入HDR图像一致。第二,色调映射的图像应该避免伪影并且在视觉上是真实的。为此,我们精心设计了以下损失函数:

其中,x表示色调映射图像,y是目标标签图像,Pg和Pr分别是生成器和目标分布。λ x表示沿着目标分布和生成器分布中的点之间的直线沿着采样的点,λ用原始的随机损失对惩罚进行加权。µx、σx、σxy分别是两个贴片之间的平均值、标准差和互相关。当均值和方差接近零时,使用c1和c2来避免不稳定性。β加权了与其他人的对抗性损失,在实验中被设置为0.1。

均方误差(MSE)损失确保像素域的准确性,而结构相似性指数(SSIM)损失旨在保持结构相似性。改进的Wasserstein生成对抗网络(WGAN-GP)损失将色调映射图像推到由感知相似性激励的目标域[9]。

最后,我们将TMNet的输出与输入H通道连接,并将它们转换回RGB颜色空间,以获得色调映射图像。

III. EXPERIMENTS AND RESULTS

A. Dataset and Training Settings

我们的数据集由两部分组成:HDR图像和色调映射图像。HDR图像收集自[10]和HDRI Haven1。我们特别从中挑选了1000张各种场景的图片。色调映射图像部分由3位摄影师使用Photomatix2制作,Photomatix2提供了20多种色调映射预设,以及HDRToolBox3提供的色调映射算法。摄影师仔细调整每个图像的适当参数,以确保色调映射图像具有高TMQI值的引人注目的主观质量。将数据集按7 ∶ 3的比例随机分为训练集和测试集。

我们的模型使用Pytorch实现,并部署在Tesla V100 GPU上。所有输入的HDR图像在训练中随机裁剪为256 × 256,batchsize为1,并在测试期间保持原始大小。训练损失最小化的亚当优化器的初始学习率为0.0001。整个训练过程持续150个epoch。

B. Comparison with Other Algorithms

我们比较我们的色调映射方法与国家的最先进的色调映射算法在收集的数据集。这些色调映射算法包括Kim等人[11]、Farbman等人[4]、拉曼等人[3]、Shitaba等人[12]、Li等人[14]和Liang等人[5]的方法。Kim等人[11]和拉曼等人[3]的方法使用HDRToolBox实现,其他方法通过源代码实现。所有这些色调映射方法都使用原始论文中提供的默认参数。

图2和图3示出色调映射结果的主观比较。输入的HDR图像直接显示,不需要色调映射算子。实验结果表明,该方法不仅具有较强的饱和度,而且在细节增强和自然度保持之间取得了较好的平衡。相比之下,所有其他方法都存在不同类型的失真。图2、其他方法在绘制海洋的左下角时遇到了困难,而我们的方法可以利用周围像素的信息来解决这个问题。图3我们可以看到Shitaba等人[12]和Kim等人[11]遭受亮度失真。拉曼等人[3]存在欠饱和的问题。Li等人[14]引起过度增强。Farbman等人[4]和Liang等人[5]分别失去了海滩和太阳区域的局部对比度。

为了进一步验证我们的方法的性能,我们使用TMQI作为这些色调映射方法的客观评估。TMQI评估色调映射图像的结构保真度和自然度,并将其平均以给出范围从0到1的最终分数。表1示出了对包含300个HDR图像的测试数据集执行的每种色调映射方法的平均TMQI分数。我们的方法具有最高的TMQI值(0.9075)和最高的自然度值(0.6494)。我们没有达到最高的保真度分数,因为这个指标计算了不同尺度上局部窗口的标准差,而我们的网络提取了更多的大尺度特征,以保持局部对比度并避免过度增强。实验结果表明,该方法在保证图像视觉质量的同时,还具有良好的客观性能。我们得到令人信服的结果的原因如下。首先,HSV颜色空间的利用使得网络更容易学习亮度和饱和度映射,同时避免颜色偏移。其次,手工创建的色调映射图像数据集为TMNet提供了高质量的标签。此外,对抗性损失使得色调映射图像具有较高的自然度得分,而SSIM损失使得结果能够保持最结构化的信息。

IV. CONCLUSIONS

本文提出了一种新的HDR图像色调映射流水线--色调映射网络(Tone Mapping Network,TMNet),以提高色调映射图像的视觉质量。该网络采用HSV颜色空间和生成式对抗结构,并设计了一个精心设计的损失函数。我们提出一个色调映射的图像数据集来为端到端训练提供高质量的标签。因此,我们的方法可以获得令人信服的结果,在结构保真度和自然度,同时避免了人为因素和颜色偏移。实验结果表明,所提出的方法优于现有的色调映射方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1562169.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

IaaS,PaaS和SaaS的区别讲解

IaaS、PaaS和SaaS有什么区别吗?这三个概念非常简单。 只不过在说它们仨的区别前,有个常识需要知道一下: 我们传统开发一个软件,需要9个东西: 作为使用软件的人,左边的【应用】和【数据】,是离…

Django的请求与响应

Django的请求与响应 1、常见的请求2、常见的响应3、案例 1、常见的请求 函数的参数request是一个对象,封装了用户发送过来的所有请求相关数据。 get请求一般用来请求获取数据,get请求也可以传参到后台,但是传递的参数显示在地址栏。 post请求…

企业内部文档安全外发如何挑选合适的外发系统?

企业文档的外发不仅关系到运营效率,更是信息安全的重要组成部分。面对B2B模式下文档交换的普遍性和重要性,企业内部文档的安全外发成为了众多公司关注的重点之一。 随着互联网技术的发展,企业之间的合作越来越紧密,文档的交流也变…

Java Agent 技术解析

什么是Java Agent Java Agent是在 JDK1.5 引入的一种可以动态修改 Java 字节码的技术。Java 类编译之后形成字节码被 JVM 执行,在 JVM 在执行这些字节码之前获取这些字节码信息,并且通过字节码转换器对这些字节码进行修改,来完成一些额外的功…

第十四章:收尾过程组(14.1结束项目或阶段--14.2收尾过程组重点工作)

14.1 结束项目或阶段 过程定义:终结项目、阶段或合同的所有活动的过程 14.1.1 主要输入 1.项自章程 项目章程记录了项目成功标准、审批要求,以及由谁来签署项目结束 2.项目管理计划 项目管理计划的所有组成部分均为结束项目或阶段过程的输入。 3.项…

【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM)

【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM) 【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Model (SAM) 文章目录 【视觉分割新SOTA|论文解读1】一种最先进的图像分割模型——Segment Anything Mod…

全院级、流程化的医院安全不良事件管理系统源码——等级医院评审工作的辅助工具

前言: 冰山理论”指出“每件严重不良事件背后可能隐藏着10件轻微的不良事件”“存在30件未造成伤害的差错可能存在600件引发意外的异常事件”没有一件不良事件应该被忽视! 一项研究也指出95%医生曾目睹错误的发生,61%的医务人员认为医疗错误…

基于Python星载气溶胶数据处理与反演分析技术

MODIS(中分辨率成像光谱仪)和CALIOP(云-气溶胶偏振激光雷达)是两种重要的星载遥感观测平台,它们提供了大量的气溶胶数据。MODIS通过成像光谱技术获取不同波长的遥感数据,从而得到气溶胶的空间分布、光学厚度…

耳夹式耳机哪个最好?2024年五大热门耳夹式耳机品牌分享

耳夹式耳机哪个最好?2024年五大热门耳夹式耳机品牌分享 耳夹式蓝牙耳机怎样才算好、算优质呢?哪款比较好呢?对于第一个问题,我认为耳夹式蓝牙耳机得具备以下几个特征优势才称得上是优质产品。其一,要能提供清晰、平衡…

nuxtjs使用rem 实现自适应窗口的大小

效果图: 步骤 1:安装 PostCSS 和 PostCSS 插件 npm install postcss postcss-pxtorem --save-dev步骤 2:配置 nuxt.config.ts // nuxt.config.ts export default defineNuxtConfig({compatibilityDate: 2024-04-03,devtools: { enabled: …

本地windows文件上传到远程阿里云windows server方法

一.功能简介 在本地windows下开发完成软件后,需要上传到远程阿里云服务器进行发布,可使用该方法,快速实现本地文件上传。 二.方法 在本地windows系统使用快捷键 winR,打开运行对话框,‌通过这个对话框,用…

解决Windows Server 2016本地登录失败但远程登录正常的问题:排查与解决方案

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

2024VDC蓝河分会场:蓝河操作系统2 全栈自研 为AI而生

10月10日, 以“同心同行”为主题的2024vivo开发者大会在深圳成功举办,在同期举办的蓝河分会场上,vivo多位专家及产业界、学术界伙伴分享了在AGI时代下,蓝河操作系统带来的技术创新与实践,vivo希望携各方共建生态&#…

Monad 101 杭州线下活动:解锁创新技术,引领低成本高效 DApp 开发之路!

以太坊等区块链在处理传统金融大规模交易时面临巨大挑战,有限的可扩展性成为阻碍其广泛应用的主要瓶颈。为了解决这一难题,并缩小传统金融与去中心化金融(DeFi)之间的差距,Keone 创立了 Monad。通过显著提升交易速度和…

能效电气发布“四全”欧标直流桩系列产品

2024年10月12日,深圳 分布式充放电全球第一品牌、新型充放电解决方案卓越供应商,电动汽车充放电行业颠覆者、创新者、标准制定者、市场领导者,深圳市能效电气技术有限公司发布面向全球市场的全系列欧标直流充电桩产品,功率范围覆盖22kW-160kW,包括8大系列12种型号:20kW UE20、2…

2024年最新Stable Diffusion模型资源合集!附整合安装包!

(模型资源在ComfyUI、WebUI以及ForgeUI中都通用) 之前的Stable Diffusion笔记受到了不少小伙伴的关注,很感谢大家的建议和支持。有很多小伙伴私信我问我一些AI绘画的模型资源在哪来下载,一般来说有两个网站比较常用,分…

软件测试学习笔记丨Linux三剑客-grep

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/32506 一、简介 1.1 grep命令 grep是一个全局查找正则表达式,并且打印结果行的命令。grep的输入是一个文件或者一个标准输入(stdin),或者是一…

U盘有盘符却难开启?数据恢复全攻略

一、U盘有盘符但无法打开的现象描述 在日常使用U盘的过程中,我们有时会遇到这样一种情况:将U盘插入电脑后,系统能够正常识别并分配一个盘符,但在双击或右键点击该盘符时,却无法正常打开,甚至会出现错误提示…

图像处理中常用的统计矩

目录 原点矩中心矩常用的统计矩偏度(Skewness)定义解释 峰度(Kurtosis)定义解释 统计矩的应用MATLAB相关函数 原点矩(Moment about the Origin)和中心矩(Central Moment)是概率论和数…

技术发明一等奖!FISCO BCOS研究成果荣获CCF权威认可

近日,中国计算机学会(CCF)正式揭晓了2024年度“CCF科技成果奖”的获奖名单。FISCO BCOS开源工作组组长单位微众银行与清华大学合作的“安全可控高性能区块链基础平台”项目,凭借卓越的技术创新与显著的社会经济效益,荣…