图像修复(Inpainting)技术的前沿模型与数据集资源汇总

图片

图像修复(Image Inpainting)是一种计算机视觉技术,旨在填补图像中的缺失区域或去除图像中的不需要部分,使其看起来自然且无明显痕迹。其目标是根据图像的上下文信息和周围像素来推断和重建缺失区域的内容,以生成逼真且一致的图像。

Inpainting 技术的应用广泛,包括但不限于:

  • 图像修复:用于修复老旧或损坏的照片,例如修补划痕、污渍或褪色区域。

  • 视觉内容编辑:在照片/视频编辑中,填充被裁剪或移除的部分,或替换特定区域的内容。;移除不需要的对象或元素,实现无缝过渡。

  • 电影与游戏特效:在视觉特效制作中填充虚拟环境中缺失的视图,提升沉浸感。

  • ......

本文精心汇总了 Inpainting 技术的前沿开源模型与数据集资源,旨在加速开发人员的研究进程,轻松获取所需工具与数据。

LaMa

图片

LaMa(LArge MAsk inpainting)是三星、EPFL、Skotech 提出的一个用于图像修复的深度学习模型,专门用于处理大尺寸遮挡区域的图像修复任务。

LaMa特点:

  • 使用一种新修复网络,具有图像范围感受野的快速傅里叶卷积 fast Fourier convolutions (FFCs)

  • 高感受野感知损失(high receptive field perceptual loss)

  • large training masks,能发挥前两个组件的潜力

此外,LaMa 在远高于训练时所见分辨率(~2k,相较于训练时的 256x256)下表现出更良好的泛化能力,并且即使在具有挑战性的场景(如周期性结构的补全)中也能取得出色的表现。

图片

  • 参考论文:Resolution-robust Large Mask Inpainting with Fourier Convolutions(WACV2022)

  • 论文地址:https://arxiv.org/abs/2109.07161

  • 开源地址:https://github.com/advimman/lama

PowerPaint

图片

PowerPaint 是清华大学(深圳)和上海人工智能实验室共同开放的一个高质量多功能的图像修补模型,可以同时支持插入物体、移除物体、图像扩展、形状可控的物体生成,实现关键是通过针对不同修复任务学习定制的任务提示词来进行。

图片

  • 参考论文:A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting(ECCV2024)

  • 论文地址:https://arxiv.org/abs/2312.03594

  • 开源地址:https://github.com/open-mmlab/PowerPaint

IOPaint

IOPaint 是一个免费的、开源的、全自动托管的图像修复/扩展工具,由最先进的 AI 模型提供支持。

在 IOPaint 中,可以使用多种模型来修改图像,包括以下几种修改:

  • Erase(擦除):移除任何不需要的对象、缺陷、水印或人物。还开发了一个 macOS 和 iOS 应用程序 OptiClean,它提供此功能。使用模型为LaMa。

  • Inpainting(修复):对图像的特定部分进行修改,添加新对象或替换图中的任何内容。使用模型PowerPaint。

  • Outpainting(扩展):在图像周围生成新的像素,使其变得更大。使用模型为PowerPaint。

,时长00:07

 

  • 官网地址:https://www.iopaint.com/

  • 开源地址:https://github.com/Sanster/IOPaint

BrushNet

图片

BrushNet 是腾讯和港中大联合开发的一个即插即用(plug-and-play)图像修复方法,采用像素级掩膜图像特征插入的架构设计。在包括图像质量、掩膜区域保留和文本一致性在内的七个关键指标上均优于现有模型。

图片

此外,为了训练和评估基于分割的掩膜修复模型,提出 BrushData 和 BrushBench。具体来说,BrushData 为 Laion-Aesthetic 数据集增加了额外的分割掩膜标注。BrushBench 共包含 600 张图像,每张图像都有人工标注的掩膜和字幕注释。BrushBench 中的图像均匀分布在自然图像和人工图像(如绘画)之间。该数据集在不同类别(包括人类、动物、室内场景和室外场景)之间实现了均衡分布。

图片

  • 参考论文:BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion(ECCV2024)

  • 论文地址:https://arxiv.org/abs/2403.06976

  • 开源地址:https://github.com/TencentARC/BrushNet

  • 数据下载:https://tencentarc.github.io/BrushNet/

MAT

图片

MAT 是港中大、Adobe Inc 等提出的第一个基于 Transformer 的能够直接处理高分辨率图像修复系统。MAT 组件包括:Multi-head Contextual Attention 通过动态掩码指示的有效 Tokens,高效地进行长距离依赖建模。通过改进的 Transformer 模型结构,使得在训练大型掩码图像的修复时更加稳定。此外,还设计了新颖的样式操作模块,以提供多样性图像修复。MAT 在多个基准数据集上包括 Places 和 CelebA-HQ,取得了 SOTA 效果。

图片

  • 参考论文:MAT: Mask-Aware Transformer for Large Hole Image Inpainting(CVPR2022 Best Paper Finalists, Oral)

  • 论文地址:https://arxiv.org/abs/2203.15270

  • 开源地址:https://github.com/fenglinglwb/MAT

CelebA Dataset

CelebA Dataset 是一个专注于人脸图像的数据集,包含 20 多万张名人图像,这些图像涵盖了丰富的人脸表情、姿态和光照条件,以及每张图像有 40 个属性注释。为人脸编辑、人脸修复等任务提供了宝贵的训练资源。

图片

  • 下载地址:https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

Places2

Places 数据集由麻省理工学院(MIT)发布,包含 1000 多万张图像,包括 400 多个独特的场景类别。该数据集每类包含 5000 到 30000 个训练图像。

该数据集因其广泛的自然场景覆盖和丰富的图像多样性,非常适合用于构建图像修复模型,使模型能够从多种自然场景中学习分布特性。

图片

  • 下载地址1:https://www.kaggle.com/datasets/nickj26/places2-mit-dataset

  • 下载地址2:http://places2.csail.mit.edu/download.html

NVIDIA Irregular Mask Dataset

NVIDIA 提出用部分卷积(partial convolutions)和掩模自动更新代替卷积运算(automatic mask update step)来实现目前最具艺术性的图像修复结果,包括任何形状、大小、位置或距离图像边界任何距离的空白。

图片

另外,还提出一个大型不规则掩膜数据集(Irregular Mask Dataset), 55,116 个掩码用于训练,24,866 个掩码用于测试,图像的尺寸均为 512×512。

  • 参考论文:Image Inpainting for Irregular Holes Using Partial Convolutions(ECCV 2018)

  • 论文地址:https://arxiv.org/abs/1804.07723

  • 下载地址:https://nv-adlr.github.io/publication/partialconv-inpainting


趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力·连接人:

📍通过连接全球算力,趋动云可以为用户提供便宜、好用的 AI 算力。
📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,趋动云可以帮助AI开发者接入丰富的生态,快速实现最佳实践。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1537966.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

《机器学习》周志华-CH7(贝叶斯分类)

7.1贝叶斯决策论 对分类任务而言,在所有相关概率已知的理想情形下,贝叶斯决策论考虑如何基于这些概率核误判损失来选择最优的类别标记。 R ( x i ∣ x ) ∑ j 1 N λ i j P ( c j ∣ x ) \begin{equation} R(x_{i}|x)\sum_{j1}^{N}\lambda_{ij}P(c_{j}…

DTMF2str集成工具

DTMF2str 项目地址: baicaiyihao/DTMF2str: DTMF解码并转换为字符串 (github.com) 用于CTF中misc DTMF题中,方便ctfer解题。 注:工具根据现有的一些题型进行编写的,如果有无法解出的题型可以提issus后续进行完善。 工具功能&a…

C++独立开发开源大数计算库 CBigNum

项目简介&项目地址 CBigNum 是本人独立开发开源的一款大数计算库,支持任意位数整数带任意位数小数的浮点运算。您可以通过本库执行非常大的数据运算或非常高精度的除法运算(您可以随意指定除法的小数保留到第几位)。 项目地址:https://github.com/…

MATLAB路径规划如何采用矢量法让他们尽量在一个方向??

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

HTML | 外部引入 CSS 的2种方式:link和@import有什么区别?

外部引入 CSS 有2种方式,link 和 import。就结论而言,强烈建议使用 link ,慎用 import 方式。 两者都是外部引用 CSS 的方式,但是存在一定的区别: (1)从属关系区别 link是HTML / XHTML标签&a…

误删分区后的数据救赎恢复实战解析

在数字化时代,数据不仅是信息的载体,更是个人记忆与企业资产的宝贵财富。然而,误删分区这一操作失误,却如同暗流涌动,悄无声息地吞噬着用户的重要数据。本文将深入探讨误删分区的现象、影响,并详细介绍一种…

Linux运维培训班靠谱吗?如何判断一个培训班的教学质量?

当我们下定决心打算系统培训Linux运维时,哪家机构比较好成为了我们面临的最大难题。之前分享过很多培训机构的个人感受,但授人以鱼不如授人以渔,说到底那些都是我个人的看法,因此今天打算帮助大家学会如何判断一个培训班的好坏。 …

C# 修改项目类型 应用程序程序改类库

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

72、Python之函数式编程:纯函数与lambda表达式

引言 今天聊点简单的,也就是“纯函数”。任何一个函数只要满足纯函数的两个特性,就是纯函数。纯函数与lambda表达式,其实没有必然的联系。只是由于lmbada表达式比较简洁,很多时候可以作为纯函数的一种实现方式。 本文的主要内容…

PointNet++改进策略目录

后续我将如何使用文章中创新点加入的PointNet中代码实现部分进行更新 题目原理解析代码改进PointNet改进策略 :模块改进 | LFA | RandLA-Net,通过随机采样与局部特征聚合提升大规模3D点云处理效率✔️❌PointNet改进策略 :模块改进 | Residua…

【网络】详解HTTP协议的CGI机制和CGI进程

目录 引言 CGI机制模型 伪代码示例 个人主页:东洛的克莱斯韦克-CSDN博客 引言 CGI机制是HTTP协议提供的偏底层的一套机制,也是非常重要的机制——它让大量的业务进程和HTPP协议解耦。而CGI进程是业务层的,用来处理各种数据,比…

1分钟解锁AI绘本财富密码:从0到10万粉,她只用了三步!

在这个信息爆炸的时代,我们每天都在为生活奔波,赚钱似乎变得越来越难。记得小时候,我们总是梦想着能有一种魔法,让书本里的金币自动飞入脑中,但现实却是残酷的我们只能眼睁睁地看着那些遥不可及的梦想。然而&#xff0…

Selenium with Python学习笔记整理(网课+网站)

本篇是根据学习网站和网课结合自己做的学习笔记,后续会一边学习一边补齐和整理笔记 官方学习网站在这获取: https://selenium-python.readthedocs.io/getting-started.html#simple-usage WEB UI自动化环境配置 (推荐靠谱的博客文章来进行环境配置,具…

再次被对地观测拒稿

又拒稿了,这次应该不是没法修改了,范围不一样,准备改投其他期刊了。 创新性不够说明还难以达到1区的要求,继续先投着一区试试吧,不行再降了 所以说还需要一开始就对照期刊范围来写,比较有针对性。

apk反编译修改教程系列-----修改apk 去除软件加固状态 应用加固的一些常识与检测【二十六】

目前很多apk应用有加固。其中包括如360加固、腾讯乐固等,厂商无非是把一系列的混淆、加密、隐藏、检测等技术组合起来,封装好给你使用。真实的目的就是防止APK被调试 。呗任意修改。此博文普及一些加固的基本常识。后续实例演示一些apk去加固的步骤。 通过博文了解 1-----a…

OpenAI的o1模型与Transformer的无限潜力:数学证明推理算力无上限

近期,斯隆奖得主马腾宇和Google Brain推理团队创始人Denny Zhou合作,提出了一项引人注目的数学证明:只要思维链(CoT)足够长,Transformer就有能力解决各种复杂问题。这一发现引发了广泛关注,因为…

智能BI项目第三期

AIGC AI 提问技巧 为了让 Al 更好地理解我们的输入,并给出预期精确的输出,需要严格控制我们的提问词。 1.使用系统预设 控制输入格式(便于Al精确地理解我们的需求) 你是一个数据分析师和前端开发专家,接下来我会按照以下固定格式给你提供…

【开源免费】基于SpringBoot+Vue.JS在线文档管理系统(JAVA毕业设计)

本文项目编号 T 038 ,文末自助获取源码 \color{red}{T038,文末自助获取源码} T038,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

<<编码>> 第 14 章 反馈与触发器(1)--振荡器 示例电路

继电器振荡器 info::操作说明 无需操作, 保持控制开关常闭以形成振荡 如需停止振荡, 则断开控制开关 注: 要看到灯闪烁的效果, 右上角 “仿真速度” 控制杆应设置为一个较低的位置(靠左侧) 另: 因继电器内部开关跳动动画效果耗时太长, 即便设置为较低的仿真速度也无法观察到开关…

不要沉迷大模型的技术与理论,学习大模型的方法——从做一个小应用开始

“ 在应用中学习技术,而不是沉迷于技术本身 ” 不知道大家都是怎么学习大模型技术的,但从个人的经验和公众号的反馈来看,有些人在学习大模型技术时转进了牛角尖,导致很多东西学不明白,事倍功半。 今天就从个人的学习…