【论文速看】DL最新进展20240923-长尾综述、人脸防伪、图像分割

目录

    • 【长尾学习】
    • 【人脸防伪】
    • 【图像分割】

【长尾学习】

[2024综述] A Systematic Review on Long-Tailed Learning

论文链接:https://arxiv.org/pdf/2408.00483

长尾数据是一种特殊类型的多类不平衡数据,其中包含大量少数/尾部类别,这些类别具有非常显著的综合影响。长尾学习旨在在具有长尾分布的数据集上构建高性能模型,能够高准确度地识别所有类别,特别是少数/尾部类别。这是一个前沿研究方向,在过去几年中吸引了大量的研究努力。文中提供了关于长尾视觉学习最新进展的全面综述。首先,提出了一个新的长尾学习分类法,包括八个不同的维度,如数据平衡、神经网络架构、特征增强、logits调整、损失函数、附加功能、网络优化以及后处理技术。基于提出的分类法,对长尾学习方法进行了系统回顾,讨论了它们的共性和可比较的差异。同时,还分析了不平衡学习和长尾学习方法之间的差异。最后,讨论了这个领域的前景和未来方向。
在这里插入图片描述


【人脸防伪】

[2024] DeCLIP: Decoding CLIP representations for deepfake localization

论文链接:https://arxiv.org/pdf/2409.08849

代码链接:https://github.com/bit-ml/DeCLIP

生成模型可以创建全新的图像,但它们也可以以人类肉眼无法察觉的方式部分修改真实图像。文中解决了自动检测这种局部操纵的挑战。深度伪造检测中最紧迫的问题之一仍然是模型对不同生成器类别的泛化能力。对于完全操纵的图像,从大型自监督模型(如CLIP)中提取的表示提供了朝向更健壮检测器的有希望的方向。这里引入了DeCLIP——这是首次尝试利用这些大型预训练特征来检测局部操作。文中展示了,当与足够大的卷积解码器结合使用时,预训练的自监督表示能够执行定位并提高现有方法的泛化能力。与之前的工作不同,所提方法能够在具有挑战性的扩散模型情况下执行定位,其中整个图像都受到生成器的影响。此外,作者观察到,这种结合了局部语义信息和全局的数据类型,相比其他生成方法类别,提供了更稳定的泛化性能。

在这里插入图片描述


[2024] MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection

论文链接:https://arxiv.org/pdf/2409.09724

逼真的面部生成方法的迅速发展在社会和学术界引发了重大担忧,凸显了对鲁棒且可泛化的面部伪造检测(FFD)技术的迫切需求。尽管现有方法主要使用图像模态捕捉面部伪造模式,但其他模态如细粒度噪音和文本尚未被充分探索,这限制了模型的泛化能力。此外,大多数FFD方法倾向于识别由GAN生成的面部图像,但难以检测未见过的扩散合成图像。为了克服这些局限性,文中旨在利用尖端的基础模型——对比语言-图像预训练(CLIP),实现可泛化的扩散面部伪造检测(DFFD)。本文中提出了一种新颖的多模态细粒度CLIP(MFCLIP)模型,通过语言引导的面部伪造表示学习,挖掘全面的细粒度伪造痕迹,以促进DFFD的发展。具体而言,设计了一种细粒度语言编码器(FLE),从层次化文本提示中提取精细的全局语言特征。设计了一个多模态视觉编码器(MVE),以捕获全局图像伪造嵌入以及从最丰富的补丁中提取的细粒度噪音伪造模式,并将它们整合起来以挖掘通用的视觉伪造痕迹。此外,构建了一种创新的即插即用样本对注意力(SPA)方法,以强调相关的负样本对并抑制不相关的负样本对,使跨模态样本对能够进行更灵活的对齐。广泛的实验和可视化结果表明,所提模型在不同设置下(如跨生成器、跨伪造和跨数据集评估)均优于现有技术。

在这里插入图片描述

【图像分割】

[2024] Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation

论文链接:https://arxiv.org/pdf/2409.09893

利用多个训练数据集来扩展图像分割模型可以增强其鲁棒性和语义理解能力。单个数据集具有明确定义的真值,这些真值具有非重叠的掩码布局和互斥的语义。然而,将它们合并用于多数据集训练会破坏这种和谐,并导致语义不一致。例如,一个数据集中“人”类与另一个数据集中“脸”类在特定像素上需要处理多标签。现有方法在这种设置下表现不佳,特别是在评估混合了各个单独训练集的标签空间时。为了解决这些挑战,作者引入了一种简单而有效的多数据集训练方法,通过整合基于语言的类名嵌入和特定于标签空间的查询嵌入。所提方法在保持高性能的同时,不受训练数据集之间潜在不一致性的影响。值得注意的是,在四个具有标签空间不一致性的基准数据集上进行推理时,在语义分割上的mIoU提升了1.6%,在全景分割上的PQ提升了9.1%,在实例分割上的AP提升了12.1%,并在新提出的PIQ指标上提升了3.0%。
在这里插入图片描述


[ITM2024] Towards Semi-supervised Dual-modal Semantic Segmentation

论文链接:https://arxiv.org/pdf/2409.13325

随着3D和2D数据采集技术的发展,同时获取场景的点云和图像变得容易,这进一步促进了双模态语义分割。大多数现有方法在进行点云和图像的同时分割时,严重依赖于标注训练数据的量与质。然而,大规模的逐点和逐像素标注程序既费时又费力。为了解决这一问题,作者提出了一种并行双流网络来处理半监督双模态语义分割任务,称为PD-Net,它联合利用少量的标注点云、大量的未标注点云以及未标注图像。所提出的PD-Net包含两个并行流(分别称为原始流和伪标签预测流)。伪标签预测流预测未标注点云及其对应图像的伪标签。然后,未标注数据被发送到原始流进行自训练。每个流都包含两个用于3D和2D数据的编码器-解码器分支。在每个流中,探索了多个双模态融合模块以融合双模态特征。此外,还探索了一个伪标签优化模块,以优化由伪标签预测流输出的伪标签。在两个公共数据集上的实验结果表明,所提出的PD-Net不仅优于比较的半监督方法,而且在大多数情况下也达到了一些全监督方法的竞争性能。
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148998.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

C:内存函数

目录 前言: 一、memcpy 函数的使用及实现 1、memcpy函数的介绍 1.1 memcpy函数参数解读 2、memcpy函数的使用 3、memcpy函数的模拟实现 二、memmove函数的使用及模拟 1、memmove函数的使用 2、memmove函数的模拟实现 三、memset 函数的使用 1、memset函数的…

PyCharm下载和安装教程

Python、C/C、C#、DSL、Go、Groovy、Java、JavaScript、Objective-C、PHP 等编程语言。 图 1 JetBrains 开发工具 PyCharm下载和安装 进入 PyCharm官方下载页面(如图 2 所示),可以看到 PyCharm 有 2 个版本,分别是 Professional(专业版)和 Community(社…

Mybatis百万数据插入(含导出)

1 一般一次性插入多条数据 传统的sql语句: INSERT INTO table1 ( field1, field2 ) VALUES( "data1", "data2" ); INSERT INTO table1 ( field1, field2 ) VALUES( "data1", "data2" ); INSERT INTO table1 ( field1, fi…

DirectX修复助手

在日常使用电脑时,我们可能会遇到提示缺少DLL文件,如0xc000007b错误、缺少d3dxxx.dll等问题,这些会影响软件运行甚至导致系统不稳定。以下是一些常见的DLL问题原因和一个修复工具,希望能帮到你。 DLL文件问题的常见原因 软件安装…

20 基于STM32的温度、电流、电压检测proteus仿真系统(OLED、DHT11、继电器、电机)

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于STM32F103C8T6 采用DHT11读取温度、滑动变阻器模拟读取电流、电压。 通过OLED屏幕显示,设置电流阈值为80,电流小阈值为50,电压阈值为60,温度阈值…

24. Revit API: 几何对象(五)- (Sur)Face

一、前言 虽然Face是GeometryObject的子类,Surface不是,但这两者之间还是挺有关联的,每个Face都有一个对应的Surface,类似于Edge和Curve的关系。 Surface是数学意义上的面,纯定义。 Face是几何形状(实体&a…

css如何设置间距

在CSS中设置间距是非常常见的需求,可以通过多种属性来实现。以下是一些常用的CSS属性及其用法,用于设置元素之间的间距: 内边距(Padding) padding 属性用于设置元素内容与元素边框之间的距离。可以分别设置四个方向的…

视频质量评价SimpleVQA

目录 一、研究意义 例子 二、介绍 三、文章解读 3.1 论文动机 3.2论文思路 3.3方法 3.3.1网络框架 3.3.2公式解读 3.3.3核心创新 3.3.4理解 !!!作者对模型的改进 本人算法框体 3.3.5实验细节: 四、代码复现 4.1代码文件简介 4.2数…

leetcode第二十六题:删去有序数组的重复项

给你一个 非严格递增排列 的数组 nums ,请你 原地 删除重复出现的元素,使每个元素 只出现一次 ,返回删除后数组的新长度。元素的 相对顺序 应该保持 一致 。然后返回 nums 中唯一元素的个数。 考虑 nums 的唯一元素的数量为 k ,你…

C++之STL—vector容器基础篇

头文件 #include <vector> //vector容器 #include <algorithm> //算法 基本用法&&概念 vector<int> v; v.push_back(10); vector<int >::iterator v.begin(); v.end(); 三种遍历方式 #include <vector> #include <algorithm>…

Leetcode3289. 数字小镇中的捣蛋鬼

Every day a Leetcode 题目来源&#xff1a;3289. 数字小镇中的捣蛋鬼 解法1&#xff1a;哈希 代码&#xff1a; /** lc appleetcode.cn id3289 langcpp** [3289] 数字小镇中的捣蛋鬼*/// lc codestart class Solution { public:vector<int> getSneakyNumbers(vector…

在线文档搜索服务测试报告

目录 1. 项目背景: 2. 项目功能: 3. 测试计划: 1. 项目背景: 1.1 在线搜索服务的前端主要一下几个功能, 分别是进入搜索引擎界面(有提示输入关键词信息); 进行输入关键词的界面, 以及显示有关关键词的文档url, 点击跳转至目标文档的界面; 1.2 该在线搜索服务的文档可以实现用…

精彩回顾|博睿数据Bonree ONE 3.0产品发布会圆满落幕:三城联动 共襄盛举!

在金秋九月的璀璨时刻&#xff0c;博睿数据于9月20日在北京圆满举办了Bonree ONE 3.0产品发布会的收官之站。此前&#xff0c;这一盛会已在上海、广州相继绽放光彩&#xff0c;三城联动&#xff0c;共襄盛举&#xff0c;不仅展现了博睿数据在可观测性领域的深厚积淀与前瞻视野&…

一行命令,一分钟轻松搞定SSL证书自动续期

httpsok 是一个便捷的 HTTPS 证书自动续签工具&#xff0c;专为 Nginx 服务器设计。已服务众多中小企业&#xff0c;稳定、安全、可靠。现在的网站SSL免费证书有效期只有3个月&#xff0c;所以就会有经常更快SSL证书的需求&#xff0c;如果手上需要更换的SSL证书比较多的情况下…

leetcode第80题:删除有序数组的重复项(||)

给你一个有序数组 nums &#xff0c;请你 原地 删除重复出现的元素&#xff0c;使得出现次数超过两次的元素只出现两次 &#xff0c;返回删除后数组的新长度。 不要使用额外的数组空间&#xff0c;你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 说明&…

【第十一章:Sentosa_DSML社区版-机器学习之分类】

目录 11.1 逻辑回归分类 11.2 决策树分类 11.3 梯度提升决策树分类 11.4 XGBoost分类 11.5 随机森林分类 11.6 朴素贝叶斯分类 11.7 支持向量机分类 11.8 多层感知机分类 11.9 LightGBM分类 11.10 因子分解机分类 11.11 AdaBoost分类 11.12 KNN分类 【第十一章&…

【毕业论文+源码】基于ASP的课程指导平台的开发

引 言 随着全球信息化技术的兴起&#xff0c;特别是Internet的日益普及&#xff0c;解决了信息Internet上传递的问题&#xff0c;建立了一个组织得很好的信息结构框架&#xff0c;使得Internet用户能够在Internet上的任何一个终端&#xff0c;以一种简单、统一的方式来访问超…

软考中级系统集成项目管理证书好考吗

系统集成项目管理工程师证书是中国计算机技术职业资格&#xff08;水平&#xff09;考试&#xff08;简称软考&#xff09;中的中级资格之一。该证书是由人社部和工信部共同颁发&#xff0c;且证书上有这两个国家部门的印章&#xff0c;具有较高的职业认可度和市场价值。 系统…

调用JS惰性函数问题

第一次调用这个函数时 console.log(a) 会被执行&#xff0c;打印出 a&#xff0c;全局变量 a 被重定义并被赋予了新的函数&#xff0c;当再一次调用时&#xff0c;console.log(b) 被执行。 用处&#xff1a;因为各浏览器之间的行为差异&#xff0c;经常会在函数中包含了大量的…

从决策树到GBDT、随机森林

何为决策树 决策树&#xff08;Decision Tree&#xff09;&#xff0c;它是一种以树形数据结构来展示决策规则和分类结果的模型&#xff0c;作为一种归纳学习算法&#xff0c;其重点是将看似无序、杂乱的已知数据&#xff0c;通过某种技术手段将它们转化成可以预测未知数据的树…