【论文速看】DL最新进展20240921

目录

    • 注意力机制Transformer
    • 伪装检测
    • 人脸识别

注意力机制Transformer

Theory, Analysis, and Best Practices for Sigmoid Self-Attention

研究机构:Apple

论文链接:https://arxiv.org/pdf/2409.04431

代码链接:https://github.com/apple/ml-sigmoid-attention

注意力是Transformer架构的关键组成部分。它是一种序列到序列的映射,将每个序列元素转换为值的加权和。权重通常是通过键和查询之间的点积的softmax获得的。最近的研究探索了Transformer中softmax注意力的替代方法,例如ReLU和sigmoid激活函数。在这项工作中,作者重新审视了sigmoid注意力,并进行了深入的理论和实证分析。从理论上讲,证明了具有sigmoid注意力的Transformer是通用函数逼近器,并且与softmax注意力相比具有改进的规则性。通过详细的实证分析,发现在训练初期稳定较大的初始注意力范数是成功训练带有sigmoid注意力模型的关键因素,这超过了之前的尝试。还引入了FLASHSIGMOID,这是针对硬件优化且内存高效的sigmoid注意力实现,在H100 GPU上比FLASHATTENTION2快17%的推理内核速度。跨语言、视觉和语音的实验表明,适当归一化的sigmoid注意力在广泛的领域和规模上可以匹敌softmax注意力的强大性能,这是之前对sigmoid注意力的尝试未能完全实现的。该工作统一了先前的研究成果,并为作为Transformer中softmax替代品的sigmoid注意力建立了最佳实践。

伪装检测

【ECCV 2024】Frequency-Spatial Entanglement Learning for Camouflaged Object Detection

论文链接:https://arxiv.org/pdf/2409.01686

代码链接:https://github.com/CSYSI/FSEL

伪装目标检测在计算机视觉领域引起了广泛关注。主要挑战在于空间域中伪装目标与其周围环境高度相似,使得识别变得困难。现有方法尝试通过复杂的设计最大化空间特征的区分能力以减少像素相似性的影响,但往往忽略了特征在空间域中的敏感性和局部性,导致次优的结果。本文提出了一种新的方法来解决这一问题,通过联合探索频率域和空间域的表征,引入了频率-空间纠缠学习(FSEL)方法。这种方法包括一系列精心设计的纠缠变换器块(ETB)用于表征学习、联合域感知模块用于语义增强以及双域反向解析器用于频率和空间域的特征整合。具体来说,ETB利用频率自注意力有效地表征不同频带之间的关系,而纠缠前馈网络通过纠缠学习促进不同域特征之间的信息交互。大量实验证明了FSEL在三个广泛使用的数据集上优于21种最先进的方法,通过全面的定量和定性比较展示了其优越性。

【2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

论文链接:https://arxiv.org/pdf/2409.12421

代码链接:无(作者说将会发布)

伪装目标检测(COD)旨在分割与周围环境具有非常相似模式的伪装目标。最近的研究表明,通过频率信息增强特征表示可以大大减轻前景对象和背景之间的模糊问题。随着视觉基础模型(如InternImage、Segment Anything Model等)的出现,将预训练模型通过轻量级的适配器模块适配到COD任务上展示了一个新颖且有前景的研究方向。现有的适配器模块主要关注空间域中的特征适配。文中提出了一种针对COD任务的新型频率引导的空间适配方法。具体来说,将适配器的输入特征变换到频率域。通过对位于频谱图中不重叠圆内的频率分量进行分组和交互,不同的频率分量被动态地增强或减弱,使图像细节和轮廓特征的强度自适应调整。同时,有助于区分对象和背景的特征被突出显示,间接暗示了伪装目标的位置和形状。在四个广泛采用的基准数据集上进行了大量实验,所提出的方法以较大优势超过了26种最先进的方法。

人脸识别

【2024】SymFace: Additional Facial Symmetry Loss for Deep Face Recognition

论文链接:https://arxiv.org/pdf/2409.11816

代码链接:[无]

在过去的十年里,利用先进的机器学习方法提升人脸识别算法取得了稳步进展。损失函数在解决人脸验证问题中扮演着关键角色,并发挥了革命性的作用。这些损失函数主要探索了类内或类间分离的变化。本研究考察了人脸验证问题中的自然现象——面部对称性。左半边脸和右半边脸之间的对称性在近几十年的许多研究领域中得到了广泛应用。本文通过将人脸图像垂直分割成两半来审慎地采用这种简单的方法。基于面部对称性的自然现象可以增强人脸验证方法的假设,假设分割后的人脸的两个输出嵌入向量必须在输出嵌入空间中相互靠近。受到这一概念的启发,根据分割后的人脸对称对的嵌入差异来惩罚网络对称损失有潜力最小化由于面部表情和光照条件引起的微小不对称特征,从而显著增加类别间的方差,并导致更可靠的人脸嵌入。这个损失函数推动任何网络在现有的所有网络架构和配置上超越其基线性能,能够实现最先进的结果,并且该方法结合现有的方法(如arcface和adaface)有一定的提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/146669.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Kerberos自我总结Kerberos自我总结

1、协议原理与漏洞产生 1.1 kerberos Kerberos协议是一种基于票据Ticket的认证方式,它由三个角色组成,分别是客户端Client、服务端Server和秘钥分发中心KDC。 协议中的交互分为六步,为AS_REQ、AS_REP、TGS_REQ、TGS_REP、AP_REQ和AP_REP …

揭露大模型本质,大模型入门必看的12本书!看完我直接跪了

敢不敢用一年时间读完这12本书,模型入门必看的12本书!建议收藏!! 第一本: 《基于GPT-3,ChatGPT,GPT-4等Transformer架构的自然语言处理》 主要内容 了解用于解决复杂语言问题的新技术。将GPT-3与T5、GPT-2和基于BE…

用Python实现时间序列模型实战——Day 28-29: 项目报告与展示

一、学习内容 1.1 项目报告的撰写与优化 项目报告应该从项目背景、数据探索、建模过程、预测结果、模型评估等方面进行全面描述。通过清晰的图表、简明的文字和合理的模型选择来优化报告的表达。 1.2 项目结果的展示与交流 通过展示图表、代码、关键模型的结果,…

Linux系统中的进程调度队列

目录 一、进程调度队列结构 二、活动队列与过期队列 1.queue[140] 2.bitmap[5] 一、进程调度队列结构 Linux系统中,每一个CPU都有一个进程调度队列runqueue,如图所示 二、活动队列与过期队列 运行队列runqueue中有两个指针*active、*expired。*acti…

从小白到大神:C语言预处理与编译环境的完美指南(下)

从小白到大神:C语言预处理与编译环境的完美指南(上)-CSDN博客 👆👆👆👆👆👆上篇链接在这~~👆👆👆👆👆&#x…

角色权限管理实现学习

逻辑: 权限表(Sys_Power):存所需授权才能访问的检验字段 授权表/角色权限表(Sys_RolePower):存角色所能访问的权限字段 角色表(Sys_Role):定义角色(管理员,部门负责人,项目负责人...) 用唯一的权限字段标注所要授权才能访问的…

心理辅导系统设计与Spring Boot技术

5 系统的实现 5.1学生功能模块的实现 学生进入本系统可查看系统信息,系统主界面展示如图5-1所示。 图5-1系统主界面图 5.1.1 学生登录界面 学生在登录时需输入正确的登录用户名和密码,系统会以登录用户名、密码为参数进行登录信息的验证,信…

Keil MDK5学习记录

2024.9.19 1. no browse information available in ‘xxx’的问题 成功解决Keil MDK5中no browse information available in ‘xxx’的问题-CSDN博客https://blog.csdn.net/bean_business/article/details/1091894452. .c文件中显示函数列表 如何在Keil5里.c文件中显示函数列表…

oracle数据库启动

文章目录 背景一、步骤1.登录oracle用户2.启动监听服务3.启动数据库 背景 oracle数据库启动 一、步骤 1.登录oracle用户 代码如下(示例): su - oracle2.启动监听服务 代码如下(示例): lsnrctl start成…

AI音乐创作带给音乐原创人的挑战和机遇

随着人工智能(AI)技术的迅速发展,AI音乐创作在全球音乐产业中逐渐崭露头角。人工智能不仅能生成旋律、和声,甚至可以模仿艺术家风格创作出接近真实人类创作的作品。这一技术的崛起给音乐原创人带来了前所未有的挑战,但…

【PyQt5】QWidget子类所有子类

QWidget子类 [QObject 学习](https://editor.csdn.net/md/?articleId142371795) 2024-09-19更新QWidget子类所有子类 2024-09-17发布子类QAbstractButton类 2024-09-17正在学习中QAbstractslider类QAbstractSpinBox类QFrame类QCalendarwidget类QComboBox类QDialogButtonBox类Q…

【计算机网络 - 基础问题】每日 3 题(十八)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏&…

uniapp 微信小程序 订阅消息功能实现

该网址 https://api.weixin.qq.com 上线后不可访问,调用该网址操作需在后端( 重要! 重要! 重要!) 1.首先拿到的三个码 //微信公众平台 //https://mp.weixin.qq.com const wxappid "管理-开发管理-A…

QTCreator 调试:unknown debugger type “No engine“

QTCreator 调试:unknown debugger type "No engine" - kaizenly - 博客园 (cnblogs.com) 一开始Debuggers---Auto-detected这里第一row第一个项是标红的,然后没改东西,点完应用Apply以后,就可以调试了...(不…

Spring Boot助力高校心理辅导系统升级

3 系统分析 3.1可行性分析 在进行可行性分析时,我们通常根据软件工程里方法,通过四个方面来进行分析,分别是技术、经济、操作和法律可行性。因此,在基于对目标系统的基本调查和研究后,对提出的基本方案进行可行性分析。…

【华为杯】2024华为杯数模研赛E题 解题思路

题目 高速公路应急车道紧急启用模型 问题背景 高速公路拥堵现象的原因众多,除了交通事故外,最典型的就是部分路段出现瓶颈现象,主要原因是车辆汇聚,而拥堵后又容易蔓延。高速公路一些特定的路段容易形成堵点,如匝道…

(done) 什么是 GMM? Gaussian Mixture Model,高斯混合模型

来源:https://www.bilibili.com/video/BV13b411w7Xj/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 (视频质量很高,一共四个视频,我只看了一个) 直接看视频吧&#xff0…

2024年度性价比高的头戴式耳机怎么选?TOP4爆款产品推荐,速藏!

在 2024 年,头戴式耳机市场精彩纷呈,众多产品让人眼花缭乱。想要选到性价比高的头戴式耳机,需综合考量音质、降噪、续航等多个关键要素。2024年度性价比高的头戴式耳机怎么选?接下来为大家推荐四款爆款产品,让你快速了…

应届生必看 | 毕业第一份工作干销售好不好?

吉祥知识星球http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247485367&idx1&sn837891059c360ad60db7e9ac980a3321&chksmc0e47eebf793f7fdb8fcd7eed8ce29160cf79ba303b59858ba3a6660c6dac536774afb2a6330&scene21#wechat_redirect 《网安面试指南》…

基础漏洞——SSRF

目录 一.原理 二.引起ssrf的函数 三.这些函数具体作用 (1)File_get_content() (2)Fsockopen() (3)Curl_exec() 四.常见的业务场景(可能出现的漏洞的地方,漏洞挖掘&#xff09…