论文阅读 | 基于流模型和可逆噪声层的鲁棒水印框架(AAAI 2023)

  • Flow-based Robust Watermarking with Invertible Noise Layer for Black-box Distortions
  • AAAI, 2023,新加坡国立大学&中国科学技术大学
  • 本论文提出一种基于流的鲁棒数字水印框架,该框架采用了可逆噪声层来抵御黑盒失真。


 一、问题

基于深度神经网络的水印算法已被广泛研究,大多数的算法都使用了一种“编码器-噪声层-解码器”(Encoder-NoiseLayer-Decoder)的框架,但这样的框架可能会产生一个潜在的问题,就是编码器和解码器耦合不够好的问题。而这一问题可能会使编码器嵌入解码无关的信号,从而限制算法在不可见性与鲁棒性上的整体性能

二、所提的方法

1、概述

a.提出了一种基于可逆流模型的鲁棒水印框架

为更好地实现编码器与解码器的耦合,论文提出了一种基于可逆流模型的鲁棒水印框架,有效使用了相同的网络参数同时执行嵌入过程和提取过程。该框架的核心是一系列可逆网络单元,能有效实现输入信号和输出信号的无损转换。这样,网络的前向传输过程就能有效作为编码器实现消息的嵌入过程,而反向传输过程就能作为解码器实现消息的提取过程。从而保证了编码器和解码器的高度耦合。 

b.提出了一个可逆噪声层的结构来应对黑盒失真

可逆噪声层的主体是一个可逆流网络,其目的是使用前向传输过程模拟黑盒失真。模拟完成的可逆噪声层的前向过程能有效的作为黑盒失真层加入到整个框架中进行训练。同时由于可逆性的存在,可逆噪声层的反向过程也能有效的当作一种提取前的去噪过程,有效去除部分噪声的影响并提升了鲁棒性。

图1. 水印训练和测试的框架图。算法的主要架构是基于流的编码器和解码器,由多个可逆神经块组成,可用于前向编码过程和反向解码过程。在编码器和解码器之间,执行包含白盒和黑盒扭曲的噪声层,以将水印图像扭曲为解码器训练的扭曲版本。

2、如何理解“可逆”?

在这篇论文中,可逆性主要体现在所提出的流式编码器/解码器(Flow-based Encoder/Decoder,简称 FED)架构上。FED利用了可逆神经网络(Invertible Neural Networks,简称 INN)的特性来实现编码和解码过程的可逆性。具体来说,可逆性体现在以下几个方面:

a.共享参数的编码器和解码器

  • 在传统的“编码器-噪声层-解码器”(END)架构中,编码器和解码器是分开训练的,可能导致它们之间耦合不紧密。

  • 流式架构通过使用可逆的神经网络块,使得编码器和解码器共享相同的网络参数和结构,这意味着它们在前向编码和反向解码过程中共享相同的网络权重。从而在前向编码和反向解码过程中实现紧密耦合:

b.可逆的神经块

FED由多个可逆的“上-下采样”神经块组成。这些神经块在前向传播时用于嵌入水印信息,在反向传播时用于提取水印信息。每个神经块都设计为可逆的,即它们能够通过相同的网络结构和参数实现前向和反向操作。

c.前向编码和反向解码

在前向编码过程中,可逆神经块接收水印信息和宿主图像作为输入,并输出带水印的图像和冗余信息。在反向解码过程中,使用相同的神经块结构,但信息流的方向相反,从而从失真图像中恢复出水印信息。

(1)在前向编码过程中,我们有图像信息 x_{i}和水印信息 m_{i}作为输入。我们的目标是将水印信息嵌入到图像中,生成新的图像信息x_{i+1}和更新后的水印信息m_{i+1}​。

  1. 上采样操作 U_i:将水印信息m_i上采样到与图像信息x_{i}相同的尺寸。
  2. 下采样操作 D_{i}^{1}D_{i}^{2}:这两个操作将上采样后的图像信息 x_{i+1}进行下采样,得到两个不同的表示,用于更新水印信息。
  3. 前向编码公式如下:

这里,⊗表示点积操作,exp 表示指数函数。 

在正向编码过程中使用的加号(+)表示的是将两个信号或特征图进行逐元素相加的操作。这种操作在神经网络中非常常见,尤其是在处理图像数据时。公式中,加号用于将上采样后的水印信息与原始图像信息相结合。原因和作用:

1. 合并信息

加法操作用于合并两个不同的信息源。在正向编码的情况下,这包括:

  • 原始图像信息x_{i}:这是未经修改的输入图像。
  • 上采样的水印信息U_i{(m_i)}:这是将水印信息上采样到与图像相同的尺寸后的结果。

通过将这两个信息源相加,我们可以将水印信息直接嵌入到图像中,而不显著改变图像的视觉特性。

2. 保持图像质量

加法是一种简单且有效的信息融合方法,因为它不会引入额外的复杂性或计算负担在图像处理中,保持原始图像的视觉质量是非常重要的,尤其是在水印或隐写术应用中。加法操作因其简单性,通常不会对图像质量产生负面影响。

3. 可逆性

在可逆神经网络中,加法操作是可逆的,这意味着可以通过反向操作(减法)来恢复原始的图像信息。这种可逆性对于后续的解码过程至关重要,因为它允许从带水印的图像中准确地提取出水印信息。

(2)在反向解码过程中,我们希望从带水印的图像中提取出水印信息。我们使用与前向编码相同的网络块,但是以相反的顺序应用它们。

  1. 反向操作:首先对冗余信息r_{i+1}进行操作,以生成r_{i}
  2. 下采样的逆操作:使用U_i的逆操作从r_{i}中恢复图像信息x_{i}
  3. 反向解码公式如下:

这里,x_{i+1}'是失真图像,r_{i+1}是从x_{i+1}'中提取的冗余信息 

在反向解码过程中使用的负号(-)和指数函数(exp⁡)是可逆神经网络中常见的操作,它们用于确保网络的可逆性和信息的准确恢复。这些操作的具体作用如下:

  1. 负号(-):在反向操作中,负号用于逆转前向过程中某些操作的效果。在许多可逆网络设计中,正向操作和反向操作是对称的,负号确保了这种对称性,使得网络可以准确地反向追踪其操作。例如,如果在前向传播中进行了加法操作x=y+z,那么在反向传播中,我们可能需要执行减法操作z=x-y来恢复 z的值。

  2. 指数函数(exp⁡)指数函数在可逆网络中用于处理乘法或除法操作这是因为乘法和除法操作在数学上不是可逆的,因为它们不保持信息的一一对应关系。通过使用指数和对数函数,我们可以将乘法转换为加法,或将除法转换为减法,从而使得操作可逆例如,如果前向操作是乘法x=yz,那么反向操作可以是z = \exp(\ln(x) - \ln(y))

  • 负号 − 用于逆转D_{i}^{1}操作的效果。
  • 指数函数 exp⁡用于逆转D_{i}^{1}操作的效果,并且通过这种方式,可以将乘法操作转换为加法操作,使得网络可逆。

d.可逆的噪声层

噪声层在训练阶段被引入,用于模拟和扭曲水印图像,使解码器能够从扭曲的图像中提取出水印信息。这种机制通过联合训练编码器、噪声层和解码器来确保水印系统的鲁棒性。

(1)噪声层的类型
  • 白盒噪声层(White-box Noise Layer):直接使用现有的可微噪声层(如JPEGSS用于JPEG压缩)。这些噪声层通过已知的可微操作模拟已知的图像处理过程。
  • 黑盒噪声层(Black-box Noise Layer,即INL):针对未知机制的黑盒失真(如社交媒体中的风格转换),采用可逆神经网络(Invertible Neural Network, INN)来模拟这些失真。INL的前向过程作为训练时的噪声层,后向过程作为提取前的去噪操作,以提升系统对黑盒失真的鲁棒性。
(2)黑盒噪声层(INL)的设计
  • 训练数据:通过将原始图像 I_+经过黑盒失真过程((如风格转换API)),得到失真图像I_-,形成训练数据对 {I_+,I_-}
  • 网络架构:INL由多个可逆噪声块组成,每个噪声块包含三个模块:ϕ、ρ、ω,这些模块是任意的可学习函数。通过前向过程将原始图像扭曲成扭曲图像,后向过程则将扭曲图像恢复到接近原始图像的状态。
  • 训练目标:使得通过INL正向过程 N_{\theta_d}(I_{+}) 处理后的失真图像 I_{+}^{de}尽可能接近于真实失真图像I_-,同时在反向过程N_{\theta_d}^{-1}(I_{-})中,处理后的图像 I_{-}^{de}应尽可能接近原始图像I_+

\mathcal{L}_{\text{dis}}\left(\theta_d\right) = \text{MSE}\left(I_{+}^d, I_{-}\right) + \text{MSE}\left(I_{-}^{de}, I_{+}\right)

  • INL的输入和输出y_{i}^hy_{i}^l分别代表高频和低频组件。y_{i+1}^hy_{i+1}^l是经过处理后的高频和低频组件。

  • 正向过程:公式描述了如何通过正向过程将输入转换为输出,具体公式为如下。其中\phi,\rho, 和\omega是任意函数,通常选择具有良好表示能力的密集块(Dense Block)。 

  • y_{i+1}^{l} = y_{i}^{l} + \varphi_{i}\left(y_{i}^{h}\right):这一步表示低频组件的更新。函数 ϕ 作用于高频组件y_{i}^h,并将结果加到低频组件y_{i}^l上,生成更新后的低频组件y_{i+1}^l

  • y_{i+1}^{h} = y_{i}^{h} \otimes \exp\left(\rho_{i}\left(y_{i+1}^{l}\right)\right) + \omega_{i}\left(y_{i+1}^{l}\right):这一步表示高频组件的更新。ρ函数作用于更新后的低频组件y_{i+1}^l,然后取指数得到一个值,与原始高频组件y_{i}^h逐元素相乘(表示为 \otimes,Hadamard乘积。在矩阵或多维数组的上下文中,逐元素相乘是指两个矩阵或数组相同位置的元素之间的乘法操作。)。ω函数同样作用于y_{i+1}^l,其结果与上述乘积相加,得到最终的高频组件y_{i+1}^h

a. 离散小波变换(Discrete Wavelet Transform,DWT)

离散小波变换是一种用于信号分解的技术,它可以将信号分解成不同尺度(频率)上的组成部分。DWT 利用小波函数来捕捉信号的局部特征,这些小波函数具有不同的尺度和位移版本。

  • 功能DWT 能够将信号分解为低频部分(近似部分)和高频部分(细节部分)。低频部分包含了信号的概貌信息,而高频部分包含了信号的细节信息。
  • 应用:在图像处理中,DWT 常用于图像压缩和降噪,因为它能有效分离图像中的不同特征;在音频处理中,用于分析音频信号中的不同频率成分。
b. 逆离散小波变换(Inverse Discrete Wavelet Transform)

逆离散小波变换是 DWT 的逆过程,它用于从小波系数中重建原始信号。通过 IDWT,可以将 DWT 分解得到的近似系数和细节系数重新合成为原始的信号或图像。

  • 功能IDWT 通过结合低频和高频成分来重建信号。它确保了原始信号可以从其小波系数中准确地恢复。
  • 应用:在图像和信号的重建过程中,IDWT 是必不可少的步骤,特别是在压缩和降噪处理之后,需要恢复原始图像或信号时。

e.冗余信息的生成和利用

在前向编码过程中生成的冗余信息 Rf 在反向解码过程中并不需要,这表明解码过程是“盲”的,即解码器不需要任何额外信息即可从失真图像中提取出水印信息。

 3、损失函数

a.图像损失

图像损失的目的是确保嵌入的水印对原始图像的影响尽可能小,以实现良好的不可见性。这是通过最小化水印图像I_{\text{em}}和原始宿主图像 I_o之间的均方误差(MSE)来实现的。

\mathcal{L}_{\text{image}}(\theta) = \text{MSE}\left(I_o, I_{\text{em}}\right)

其中,I_{\text{em}}相当于f_{\theta}\left(I_o, M\right),这里f_\theta表示前向编码过程,\theta表示模型参数。 

b.消息损失

消息损失的目的是确保即使在图像受到失真后,也能准确地从失真图像I_d中提取出水印信息。这通过最小化提取出的水印M_{ex}和原始水印 M之间的均方误差来实现。

\mathcal{L}_{\text{message}}(\theta) = \text{MSE}\left(M, M_{\text{ex}}\right)

其中,M_{ex}相当于f_{\theta}^{-1}\left(I_d, R^b\right),这里表示反向解码过程,R^b是一个全零矩阵,大小与M 相同。 

c.总损失

\mathcal{L}_{\text{total}} = \lambda_1 \mathcal{L}_{\text{image}} + \lambda_2 \mathcal{L}_{\text{message}}

这里,λ1和 λ2是权重参数,用于调整两个损失部分的相对重要性。 


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143209.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx从入门到入土(二): 学习内容与安装

Nginx学习内容 1.理解Nginx在实际项目中的应用场景 2.理解正向代理和反向代理 3.Nginx在Linux和Windows上的安装 4.Nginx的运行模型概念与日志管理 5.Nginx.config核心配置文件与配置HTTPS证书 6.基于Nginx解决跨域,实现防盗链,缓存,压…

【深度学习实战—11】:基于Pytorch实现谷歌QuickDraw数据集的下载、解析、格式转换、DDP分布式训练、测试

✨博客主页:王乐予🎈 ✨年轻人要:Living for the moment(活在当下)!💪 🏆推荐专栏:【图像处理】【千锤百炼Python】【深度学习】【排序算法】 目录 😺〇、仓库…

DevEco Profiler调优工具(一)

一、Profiler调优工具简介 设备应用选择区:选择调优设备(目前仅支持真机),进程列表及当前应用进程 会话列表区:已创建的调优分析任务,单击某会话数据区显示其调优内容;选择设备和进程后&#xf…

高原生态系统揭秘:食物网结构揭示食肉动物共存机制

凌恩推出eDNA多营养级联合分析助您攻克高原生境中不同营养级物种群落关联机制研究难题 北京大学姚蒙团队在《Current Biology》期刊上(IF9.2)发表了关于青藏高原食肉动物的食物网结构及其共存机制和群落构成的文章。该研究通过分析青藏高原三种食肉动物群落中食肉动物的食性&a…

从HarmonyOS升级到HarmonyOS NEXT-环信SDK数据迁移

前言:2024年6月21日 HarmonyOS NEXT (后续称之为 NEXT) 正式发布,随着 NEXT 稳定版的逐渐临近,各个应用及SDK正在忙于适配 NEXT 系统,同样也面临着系统升级时如何对数据的迁移适配。本文通过使用环信 SDK 介…

本地连线上Redis访问不通

可能原因: 1、服务器没有开放 Redis的默认端口:6379 2、在服务器中添加访问规则 3、修改Redis的配置 修改宝塔中Redis的配置文件: redis配置修改: 1、requirepass是用来设置访问密码的 2、注释bind 127.0.0.1:改为 bind 0.0.0.0…

Redis - 深入理解Redis事务

目录 Redis是如何实现事务的?事务中执行的命令出现错误,会回滚事务吗?同一个连接可以重复开启事务吗?多个客户端同时开启事务会怎样?使用Redis事务只用MULTI和EXEC吗?Redis中的WATCH机制是怎么实现的&#…

在 Stable Diffusion 1.5 中 Lora, Dreambooth, Textual Inversion的详解指北

Lora, Dreambooth and Textual Inversion 说明 您是否想象过您可爱的宠物与埃菲尔铁塔合影的画面,或者想象过如何生成一张带有您朋友面孔的人工智能图像? 是的,通过稳定扩散技术的微调,这完全是可能的! 创建这些场景…

设备稳定流畅视频体验,乐鑫ESP32-S3芯片方案无线音视频传输通信

在快节奏的现代生活中,家庭安全和便利性成为了人们日益关注的话题。随着物联网技术的发展,智能家居安全系统正逐渐成为守护家庭的新选择。 家居安全如门锁和警报器,这些产品通过先进的传感器、摄像头和智能分析技术,不仅能够实时…

vulnhub-prime1

目录 靶场环境解题过程 靶场环境 项目ip靶机(prime)未知攻击机(kali)10.128.129.128 解题过程 打开靶机,我们只能看见一个登录界面,上面只有半截提示 我们首先要做的是主机发现,因为是网络适…

Flag_AGtivity_clear_top网页编程指南如何退出多activity程序

activity的启动模式:FLAG_ACTIVITY_CLEAR_TOP和FLAG_ACTIVITY_REORDER_TO_FRONT。 1. 如果已经启动了四个Activity:A,B,C和D。在D Activity里,我们要跳到B Activity,同时希望C finish掉,可以在start…

安卓好软-----跳过app应用开屏广告的小工具 无需root权限

工具特点; 软件很小。而且权限不多。无需root权限。测试效果还是不错的 应用利用了安卓系统的辅助功能API,可以读取您手机屏幕上显示的所有内容,并且可以以您的名义进行屏幕点击等操作。 * 轻量无广告,不联网,也不需要任…

PostgreSQL技术内幕11:PostgreSQL事务原理解析-MVCC

文章目录 0.简介1.MVCC介绍2.MVCC常见的实现方式3.PG的MVCC实现3.1 可见性判断3.2 提交/取消 0.简介 本文主要介绍在事务模块中MVCC(多版本并发控制)常见的实现方式,优缺点以及PG事务模块中MVCC(多版本并发控制)的实现。 1.MVCC…

香港科技大学工学院2025/2026年度硕士研究生(MSc)项目招生宣讲会——哈尔滨工业大学(深圳)

🔔香港科技大学工学院2025/2026年度硕士研究生(MSc)项目招生宣讲会 🕙时间:2024年9月24日(星期二) 19:00 🏠地点:哈尔滨工业大学(深圳)T5栋教学楼603室 🎆2…

如何在ubuntu中安装code-server搭建一个在线编程环境

code-server 是一个开源项目,它允许你在浏览器中运行 Visual Studio Code。通过 code-server,你可以远程访问一个运行 Visual Studio Code 的服务器,并在任何设备上使用浏览器来编辑代码。这使得你可以在轻量级设备上(如平板电脑或…

HDMI色块移动——FPGA学习笔记13

一、方块移动原理 二、实验任务 使用FPGA开发板上的HDMI接口在显示器上显示一个不停移动的方块,要求方块移动到边界处时能够改变移动方向。显示分辨率为800*480,刷新速率为90hz。(480p分辨率为800*480,像素时钟频率Vga_clk 800x4…

EmguCV学习笔记 VB.Net 11.9 姿势识别 OpenPose

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。 教程VB.net版本请访问…

spring boot 定时器配置

1、首先在主类上加EnableScheduling注解 2、在应用类上加Scheduled注解,同时记得添加spring的组件注解Component,不然无法成功

JavaEE初阶——初识EE(Java诞生背景,CPU详解)

阿华代码,不是逆风,就是我疯,你们的点赞收藏是我前进最大的动力!!希望本文内容能帮到你! 目录 零:Java的发展背景介绍 一:EE的概念 二:计算机的构成 1:CU…

玖逸云黑系统源码 v1.3.0全解无后门 +搭建教程

功能带有卡密生成和添加黑名单等,反正功能也不是很多具体的自己看程序截图即可。 搭建教程 完成 1.我们先添加一个站点 2.PHP选择7.3 3.上传源码解压 4.导入数据库 5.配置数据库信息config.php 源码下载:https://download.csdn.net/download/m0_6…