新一代图像生成E2E FT:深度图微调突破

在这里插入图片描述

文章地址:Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
项目主页:https://gonzalomartingarcia.github.io/diffusion-e2e-ft/
代码地址:https://github.com/VisualComputingInstitute/diffusion-e2e-ft
机构:亚琛工业大学+埃因霍温理工大学(2024 年 9 月 17 日)

文章摘要

最近的研究表明,通过将深度估计作为图像条件图像生成任务,大型​​扩散模型可以重新用作高精度单目深度估计器。虽然所提出的模型取得了最先进的结果,但由于多步推理而产生的高计算需求限制了它在许多场景中的使用。
在本文中,研究表明,感知到的低效率是由推理管道中的一个缺陷造成的,而这个缺陷迄今为止尚未引起注意。固定模型的性能与之前报告的最佳配置相当,但速度却快了 200 倍以上。为了优化下游任务性能,作者在单步模型的基础上执行端到端微调,并采用特定于任务的损失,并得到一个确定性模型,该模型在常见的零样本基准上优于所有其他基于扩散的深度和正常估计模型。
最后惊讶地发现,这种微调协议也可以直接在稳定扩散上工作,并实现与当前最先进的基于扩散的深度和正常估计模型相当的性能,这使人们对从以前的工作中得出的一些结论产生了质疑。

解决什么问题

本文试图解决的问题是如何高效地微调图像条件扩散模型,以提高单目深度和法线估计的性能和效率。具体来说,文章主要关注以下几个关键问题:

  1. 推理效率问题:先前的工作表明,大型扩散模型在进行单目深度估计时,由于需要多步推理过程,计算成本高,导致在许多实际应用场景中使用受限。本文旨在通过修复推理流程中的错误,提高模型的推理效率。

  2. 简化微调流程:作者指出,尽管已有的模型(如Marigold)在单目深度估计任务上取得了先进的性能,但这些模型通常需要复杂的训练和微调流程。本文通过端到端的微调方法,探索是否可以简化这一流程,同时保持或提高性能。

  3. 提高准确性:通过端到端微调,作者试图优化模型以更好地适应特定的下游任务(如深度和法线估计),从而提高模型的准确性。

  4. 挑战现有结论:作者发现,之前的方法由于推理流程中未注意到的错误,导致效率和性能可能被低估。本文通过修正这些错误,挑战并重新评估现有方法的性能,以期提供更准确的性能比较。

  5. 探索不同微调策略:文章还探讨了不同的微调策略,包括对现有模型(如Stable Diffusion)的直接微调,以及对特定任务损失函数的优化,以确定哪些策略在提高性能方面最有效。

单目深度估计在许多下游任务中都有应用,如图像和视频编辑、场景重建、新视角合成和机器人导航。以前的工作将大型扩散模型适应于单目深度估计,但这些模型在推理时计算量大,因为需要多次评估大型神经网络。作者认为,通过修正推理流程中的错误,可以显著提高模型的效率,并提出了一种新的端到端微调方法。

相关工作

在论文的“相关工作(Related Work)”部分,作者详细讨论了单目深度估计和法线估计领域的现有研究,以及扩散模型在这些领域的应用:

单目深度估计(Monocular Depth Estimation)

  • 相对深度和度量深度:介绍了相对深度和度量深度的概念,其中相对深度仅提供场景中物体的深度排序,而度量深度则需要考虑相机的焦距,引入了额外的不确定性。
  • 仿射不变深度:作为相对深度和度量深度之间的中间地带,仿射不变深度在不考虑相机焦距的情况下,能够保持物体间距离比率。
  • 零样本学习:讨论了在零样本设置中评估的深度估计方法,这些方法通常使用大型训练数据集来提高泛化能力。
  • 基于学习的方法:从早期的基于传统特征的方法,到后来基于卷积神经网络(CNN)的方法,再到最近的基于视觉变换器(ViT)的方法,如DPT和Omnidata。

单目法线估计(Monocular Normal Estimation)

  • 基于学习的方法:讨论了基于学习的方法,这些方法使用深度学习来预测图像中每个像素的表面法线方向。
  • 数据集和挑战:介绍了用于评估法线估计方法的数据集,如NYUv2和ScanNet,并讨论了在多样化环境中进行准确估计的挑战。

扩散模型在几何估计中的应用(Diffusion Models for Geometry Estimation)

  • 文本到3D的方法:提到了一些将扩散模型用于文本到3D生成的方法,这些方法显式地产生多视图深度和法线图。
  • 场景级深度估计:讨论了使用扩散模型进行场景级深度估计的方法,如VPD和Marigold,这些方法利用了扩散模型在高质量合成数据集上训练的优势。

条件潜在扩散模型(Image-Conditional Latent Diffusion Models)

  • 潜在扩散模型(Latent Diffusion Models):解释了潜在扩散模型的工作原理,包括DDPM和DDIM,以及它们如何通过逆转一个随机过程来学习从简单噪声分布到数据分布的映射。
  • Marigold模型:详细介绍了Marigold模型如何利用潜在扩散模型进行深度估计,包括其训练过程和推理策略。

作者强调,尽管基于扩散的深度和法线估计方法表现出良好的性能,但它们在推理时往往速度较慢,因为需要多次迭代去噪过程。

Marigold 的推理过程(上)和我们提出的简化(下)

本文方法

Marigold + E2E FT:
此方法涉及使用端到端方法对 Marigold 模型进行微调,从而通过单个推理步骤提高深度和正常估计性能。
亮点:单步推理能力+性能优化+零样本基准测试
损失函数:仿射不变损失+角度损失

  • 基础模型:Marigold模型是一种基于扩散的图像生成模型,它被设计用于从单目图像中估计深度。
  • 微调策略:作者通过对Marigold模型进行端到端的微调,优化了模型在特定任务(如深度和法线估计)上的性能。这种微调是在修正了模型的推理流程后进行的,以确保模型能够通过单步推理产生高质量的预测。
  • 任务特定损失:在微调过程中,使用了适合于深度和法线估计任务的特定损失函数,如仿射不变损失和基于角度的损失,以进一步提高模型的准确性。

稳定扩散 + E2E FT:
该方法需要采用端到端方法对稳定扩散模型进行微调,从而在深度和正常估计任务中取得有竞争力的结果,并且效率和准确性有所提高。
亮点:多任务适应性+效率提升+简化的微调策略
损失函数:仿射不变损失+角度损失

  • 基础模型:Stable Diffusion是一种高分辨率图像合成模型,它能够根据文本描述生成图像。
  • 微调策略:尽管Stable Diffusion最初是为图像生成任务设计的,但作者展示了如何通过端到端微调使其适应深度和法线估计任务。这种微调同样在修正了推理流程后进行,使得模型能够直接从单目图像中产生准确的几何估计。
  • 效率和准确性:通过微调,Stable Diffusion模型在深度和法线估计任务上取得了有竞争力的结果,同时在效率和准确性上都有所提高。
    在这里插入图片描述
    在这里插入图片描述

结论

文章的最终结论主要集中在以下几个方面:

  1. 修复推理流程的关键性:作者指出,之前在扩散模型推理中的一个关键缺陷导致了效率低下和性能不佳。通过修复推理流程,特别是调整DDIM调度器,模型能够在单步推理中产生合理的预测,从而显著提高了推理效率。

  2. 端到端微调的有效性:作者展示了通过端到端微调(E2E FT)来优化模型的有效性。这种方法不仅简化了训练流程,还能在深度和法线估计任务中取得优异的性能。微调后的模型在多个标准基准测试中表现出色,超越了许多现有的复杂模型。

  3. 简单方法的竞争力:作者发现,即使是直接对Stable Diffusion模型进行简单的端到端微调,也能在深度和法线估计任务中取得有竞争力的结果。这表明,复杂的训练流程并不是唯一的成功路径,简单的方法同样可以有效。

  4. 对现有结论的挑战:通过修复推理流程和优化微调策略,作者挑战了之前一些关于扩散模型在几何估计任务中效率低下的结论,提供了新的视角和实证结果。

  5. 未来研究的方向:作者认为,扩散模型在几何任务中的潜力尚未完全挖掘,未来的研究可以进一步探索如何利用大规模数据和自训练技术来提高模型的性能。

总的来说,文章强调了修复推理流程和采用端到端微调的重要性,展示了这些改进如何显著提升扩散模型在单目深度和法线估计任务中的效率和准确性,为未来的研究提供了新的思路和方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148872.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构:搜索二叉树

前言 在前面我们已经学习了二叉树的基础操作,但是,仅仅是二叉树,没有太大的作用啊,存数据效果没有顺序表和链表好,那为啥还要学二叉树呢? 这不就来了嘛,给二叉树增加一些性质,作用不…

剑侠情缘c++源码全套(增加缺失的头文件和相关的库,其它网上流传的都是不全的)剑网三源码

剑侠情缘c源码全套(增加缺失的头文件和相关的库,其它网上流传的都是不全的) 下载地址: 通过网盘分享的文件:剑侠情缘c源码全套(增加缺失的头文件和相关的库,其它网上流传的都是不全的&#xff0…

飞睿智能3公里WiFi实时图传模块,隧道高速无线传输抗干扰,实时不卡顿

在数字化快速发展的今天,无线通信技术日新月异,其中WiFi实时图传模块凭借其高效、稳定、便捷的传输特性,正逐渐在各个领域崭露头角。特别是当我们谈论到3公里WiFi实时图传模块时,这不仅是对传统无线传输技术的一次革新&#xff0c…

父子Shell你了解多少?一起解读吧

一.source和点、bash \sh 、./script区别 1.source和点,执行脚本,只在当前shell环境中执行生效 2.指定bash\sh 解释器运行脚本,是开启subshell,开启子shell运行脚本 命令 3. ./script,都会指定shebang,通过解释器运行,…

PAT甲级-1090 Highest Price in Supply Chain

题目 题目大意 一个供应链由供应商、经销商、零售商组成。供应商作为根节点,售卖价格为P的商品,每经过一级经销商或零售商都会以高于r%的价格批发或出售。题目给出总节点数n,每个节点的编号从0到n-1,给出的每个值是该节点编号的索…

臀部筋膜炎最佳治疗方法

臀部筋膜炎的最佳治疗方法因个体差异而异,但通常包括以下几个方面: 一、药物治疗 非甾体抗炎药:如布洛芬、双氯芬酸钠等,这些药物通过抑制前列腺素合成来减少炎症和疼痛,适用于缓解轻至中度的急性发作期臀部筋膜炎引…

跨平台数据库工具DataGrip v2024.2全新发布——增加智能刷新功能

DataGrip 是一个跨平台的数据库工具可在Windows,OS X 和 Linux上使用。同时支持多种数据库,包含了SQL Server,Oracle,PostgreSQL,MySQL,DB2,Sybase,SQLite,Derby&#xf…

智慧农业的引擎:高标准农田灌区信息化的探索与实践

在现代农业的广阔图景中,智慧农业作为一股革新力量,正逐步重塑着传统农业的面貌。其中,高标准农田灌区的信息化建设不仅是智慧农业的重要引擎,更是实现农业可持续发展、提高资源利用效率的关键路径。 高标准农田灌区信息化的内涵…

828华为云征文|华为云Flexus云服务器X实例 基于CentOS系统镜像快速部署Laravel开源论坛

最近公司可热闹了!大家都在为搭建博客论坛系统忙得不可开交,尤其是在选服务器这件事儿上,那叫一个纠结。 同事 A 说:“咱得选个厉害的服务器,不然这论坛以后卡得跟蜗牛爬似的可咋办?” 同事 B 回应道&#…

C++11语法(基础)【一】

目录 1. C11简介 2. 统一的列表初始化 2.1 {}初始化 2.2 std::initializer_list 3. 声明 3.1 auto 3.2 decltype 3.3 nullptr 声明:C11我会分几篇来讲,每一篇我都会讲几种特性。 1. C11简介 在2003年C标准委员会曾经提交了一份技术…

slam入门学习笔记

SLAM是Simultaneous localization and mapping缩写,意为“同步定位与建图”,主要用于解决机器人在未知环境运动时的定位与地图构建问题,目前广泛用于机器人定位导航领域,VR/AR方面,无人机领域,无人驾驶领域…

【小白请绕道】Redis 的 I/O 多路复用技术,它是如何工作的?

Redis 的 I/O 多路复用技术是其高性能的关键之一。在单个线程中,Redis 可以同时处理多个网络连接,这是通过使用 I/O 多路复用技术实现的。这种技术允许 Redis 在单个线程中监听多个套接字,并在套接字准备好执行操作时(如读取或写入…

STM32F1,F4,L1系列禁止JTAG和SW引脚方法

STM32F1系列 程序中在使用到JTAG、SWD的某个IO 时,需要禁用掉相关调试方法后,再配置相应的IO方式。在需要相应的接口配置前使用这些代码。 对于F1系列,调用函数进行专门的禁止。 标准库配置方式: RCC_APB2PeriphClockCmd(RCC_A…

2024源代码加密软件TOP10分享|企业源代码加密软件

在现代企业的数字化转型过程中,源代码作为企业核心知识产权之一,至关重要。为了防止数据泄漏、外部攻击以及内部违规操作,企业越来越关注源代码的加密和保护。本文将为大家介绍2024年最受欢迎的十大源代码加密软件,帮助企业更好地…

助力新能源汽车行业的发展,尽在AUTO TECH 2025华南展

随着全球对环境保护的重视和石油资源的逐渐减少,新能源汽车的发展已经成为必然趋势。预计未来几年,新能源汽车的市场规模和销量将继续保持快速增长。根据 IDC 预测,中国乘用车市场中新能源车市场规模将在 2028 年超过 2300 万辆,年…

面试经典 150 题:力扣88. 合并两个有序数组

每周一道算法题启动 题目 【题目链接】 【解法一】合并后排序 排序后的数组自动省略0的数字&#xff0c;又学到了 class Solution { public:void merge(vector<int>& nums1, int m, vector<int>& nums2, int n) {//合并两个数组后排序for(int i0; i<…

基于springboot渔具销售系统设计与开发

文未可获取一份本项目的java源码和数据库参考。 选题背景及意义 随着社会的发展,渔具销售企业之间的竞争与合作变得越来越频繁.而销售部门作为企业的窗口,其地位无与伦比。在激烈的市场竞争中,企业要能对市场变化作出反应,销售部门起了关键作用,销售部门作为企业的生命已经成了…

什么味道呀!热播剧《凡人歌》启示:这几年,请主动给生活降级——早读(逆天打工人爬取热门微信文章解读)

试试就试试 引言Python 代码第一篇 洞见 热播剧《凡人歌》启示:这几年&#xff0c;请主动给生活降级第二篇 在错误的地方重复&#xff0c;毫无价值结尾 &#xff08;哈哈哈 真的吗&#xff1f;&#xff09; 引言 回复平静 啥啥都回复平静 家里人不要钱了 股票也跌停了 哈哈 怎…

搭建EMQX MQTT服务器并接入Home Assistant和.NET程序

本文主要介绍如何使用Docker搭建EMQX MQTT服务器&#xff0c;并将其接入到Home Assistant中&#xff0c;最后演示如何使用.NET接入MQTT。 1. 背景 在智能家居系统中&#xff0c;MQTT&#xff08;消息队列遥测传输协议&#xff09;是一种轻量级的消息传输协议&#xff0c;特别适…

leetcode-10. 正则表达式匹配

题目描述 给你一个字符串 s 和一个字符规律 p&#xff0c;请你来实现一个支持 . 和 * 的正则表达式匹配。 . 匹配任意单个字符* 匹配零个或多个前面的那一个元素 所谓匹配&#xff0c;是要涵盖 整个 字符串 s 的&#xff0c;而不是部分字符串。 示例 1&#xff1a; 输入&a…