TASK-CUSTOMIZEDMASKED AUTOENCODERVIA MIXTURE OF CLUSTER-CONDITIONAL EXPERTS

发表于:ICLR 2023 notable top 25%(相当于spotlight)
推荐指数: #paper/⭐⭐⭐
论文链接: Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts | OpenReview
poster链接:ICLR 2023 Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts Oral

问题背景:

在不同的数据集上,比如生物数据集和无机事物数据集,用同一个网络结构可能会出现负迁移

具体的例子:对于鸟和飞机用同一个网络结构可能不太合适
解决办法:MOE

前人的工作:tokenMOE

文章配图
但是这个工作会导致模型趋向于同一个专家的问题

MOCE的工作

MOCE的工作是用聚类中心作为门控机制
原始图片->预训练MAE-> F ∈ R d ∗ n F\in\mathbb{R}^{d*n} FRdn
可学习聚类中心: C ∈ R d ∗ m C\in\mathbb{R}^{d*m} CRdm
分配: A = F T C A=F^{T}C A=FTC
聚类后分布: Q ∈ R d ∗ m Q\in\mathbb{R}^{d*m} QRdm
最终: max ⁡ Q T r ( Q T A ) + ε H ( Q ) s . t . Q 1 n = 1 m 1 m , Q T 1 m = 1 n 1 n , \max_{\boldsymbol{Q}}Tr\big(\boldsymbol{Q}^{T}\boldsymbol{A}\big)+\varepsilon H\big(\boldsymbol{Q}\big)s .t .\boldsymbol{Q}\mathbf{1}_{n}=\frac{1}{m}1_{m},\boldsymbol{Q}^{T}\mathbf{1}_{m}=\frac{1}{n}\mathbf{1}_{n}, maxQTr(QTA)+εH(Q)s.t.Q1n=m11m,QT1m=n11n,
给定C,Q可以Sinkhorn-Knopp算法来解决
给定Q,C可以通过SGD来优化
文章配图
门控机制:
G ( x ) = T o p K ( σ ( W g ⋅ C [ x ] + ϵ ) ) , G(\mathbf{x})=TopK(\sigma(W_g\cdot C_{[\mathbf{x}]}+\epsilon)), G(x)=TopK(σ(WgC[x]+ϵ)),

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1538152.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

人类行为识别系统源码分享

人类行为识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

使用streaming-json-py插件处理JSON数据流:详细指南

目录 一、streaming-json-py简介 二、安装与配置 三、基本使用 示例1:处理不完整的JSON对象 示例2:处理不完整的JSON数组 四、高级用法 实时数据流分析 日志处理 五、性能优化与错误处理 六、总结与展望 在数据驱动的现代社会,实时处理数据流已成为许多应用和服务…

Linux·权限与工具-git与gdb

1. git工具 git是一款软件,发明它的人同时发明了Linux操作系统,也就是大名鼎鼎的Linus Torvalds 林纳斯托瓦兹。后来人们把git软件包装,产生了github、gitee等平台。 git产生的初衷就是便于进行多人协同管理,同时它还可以用来将本…

GB/T28181-2022相对老版本有哪些变动?

GB/T28181-2022新版概述 GB/T28181-2022是《公共安全视频监控联网系统信息传输、交换、控制技术要求》的国家标准,该标准在2022年12月30日发布,并于2023年7月1日正式实施。以下是关于GB/T28181-2022的详细解析: 一、标准概述 GB/T28181-20…

2024/9/18 模型的存储与读取

一、模型的存储与读取 主要涉及到torch.save和torch.load函数 新建两个python文件: 1.在model_save文件中保存模型(方式一)和模型参数(方式二) 2.在model_load文件中读取模型(方式一)和模型参数并装载模型(方式二)

海外绿色农业果蔬投资系统可以二开多语言

食品安全已经是全球非常重视,关于农业方面的基础建设投资都在大力推进,做一个绿色农业果蔬投资是一个非常不错的。希望这个系统能对你有很大的帮助!

三菱变频器变更电流最大输入(20mA 初始值)时的频率(60Hz初始值)

变更最高频率。变更示例 在4~ 20mA 输入频率设定器中,将 20mA 时的频率从 60Hz(初始值)变更为 50Hz。 输入 20mA 电流时调整为输出 50Hz。 将Pr.126 设定为“50Hz” NOTE 4mV 时的频率设定可通过校正参数 C5 设定。 其他的频率设定电流增益的调整方法,还…

泛微E-Mobile client/cdnfile 任意文件读取漏洞复现

0x01 产品简介 泛微E-Mobile是一款由泛微网络科技股份有限公司开发的移动办公产品,该产品专门为手机、平板电脑等移动终端用户设计,旨在提供便捷、高效的移动办公体验。适用于企业高管和有移动办公需求的业务部相关员工使用,特别适合于已有内部OA系统的大中型企业机构,尤其…

HBuilder无法打开微信开发者工具

配置微信开发工具路径之后,HBuilder无法打开微信开发者工具 使用HBuilder打开微信开发者工具的配置,官网有 运行至微信模拟器控制台报错 这个时候就需要打开微信开发者工具进行安全设置了

国外问卷调查怎么做的,新手怎么开始?

既然你准备进入这个行业,就应该明白一件事:这个项目,本质就是网络搬砖。 也就是你搬的越多、越快,就赚得越多。 做一份问卷,比如2美元,做50份,就是100美元,也就是700元左右。 月入…

好用的超声波清洗机有哪些?精选四大爆款品牌汇总

随着时代的发展及生活水平的提升,珠宝饰品、眼镜等个人物品日益普及至千家万户。然而,这些贵重小物在日常存放中难免会积累微尘与隐形细菌,无形中可能对我们的健康产生潜在影响。鉴于细菌的微小难察,超声波清洗机应运而生&#xf…

C++:日期类的实现

目录 一、前言 二、头文件 三、各个函数的实现 打印、检查日期及获取日期 、、-、-、 、<、<、>、>、 &#xff01; 日期-日期 >>、<< 一、前言 前面几篇讲了关于类和对象的一些知识&#xff0c;本篇就来实现一下前面用到的日期类。 二、头文…

Linux文件IO-基础知识了解及文件描述符

1、简介 本章给大家介绍 Linux 应用编程中最基础的知识&#xff0c;即文件 I/O&#xff08;Input、Outout&#xff09;&#xff0c;文件 I/O 指的是对文件的输入/输出操作&#xff0c;说白了就是对文件的读写操作&#xff1b;Linux 下一切皆文件&#xff0c;文件作为 Linux 系…

付费流量如何有效撬动自然流?

付费流量能够有效撬动自然流量的情况主要有三种。 首先&#xff0c;当直播刚开始时&#xff0c;流量通常较为泛化&#xff0c;转化效果不理想。在这种情况下&#xff0c;借助付费流量圈选精准受众&#xff0c;可以显著提高转化率。一旦形成转化&#xff0c;系统会根据这些转化行…

怎么使用Chrome与C++实现高效自动化测试

在软件开发过程中&#xff0c;自动化测试是确保代码质量和稳定性的关键步骤。谷歌浏览器&#xff08;Chrome&#xff09;提供了强大的开发者工具和丰富的API&#xff0c;结合C的强大功能&#xff0c;可以实现高效的自动化测试。本文将介绍如何使用Chrome和C来实现这一目标。&am…

vue2使用npm引入依赖(例如axios),报错Module parse failed: Unexpected token解决方案

报错情况 Module parse failed: Unexpected token (5:2) You may need an appropriate loader to handle this file type. 原因 因为我们npm install时默认都是下载最新版本&#xff0c;然后个别依赖的版本太新&#xff0c;vue2他受不起这个福分。 解决方法 先去package.js…

Rasa对话模型——做一个语言助手

1、Rasa模型 1.1 模型介绍 Rasa是一个用于构建对话 AI 的开源框架&#xff0c;主要用于开发聊天机器人和语音助手。Rasa 提供了自然语言理解&#xff08;NLU&#xff09;和对话管理&#xff08;DM&#xff09;功能&#xff0c;使开发者能够创建智能、交互式的对话系统。 1.2…

数据驱动新时代:数据飞轮如何唤醒中台潜能

前言 随着数字化转型浪潮的不断高涨&#xff0c;数据已跃升为企业战略蓝图中不可或缺的核心资产。为了更有效地整合与利用来自内外部的海量数据资源&#xff0c;众多企业纷纷着手构建数据中台&#xff0c;以期实现数据的集中管理、高效共享以及基于数据的精准业务决策。然而&a…

低代码开发平台系统架构概述

概述 织信低代码开发平台&#xff08;产品全称&#xff1a;织信Informat&#xff09;是一款集成了应用设计、运行与管理的综合性平台。它提供了丰富的功能模块&#xff0c;帮助用户快速构建、部署和维护应用程序。织信低代码平台通过集成丰富的功能模块&#xff0c;为用户提供…

构建 LLM 应用程序时经常遇到的高级概念的快速指南

使用案例 数据支持的 LLM 应用程序有无数的用例&#xff0c;但大致可以分为四类&#xff1a; 结构化数据提取 Pydantic 提取器允许您指定要从数据中提取的精确数据结构&#xff0c;并使用 LLM 以类型安全的方式填充缺失的部分。这对于从 PDF、网站等非结构化来源中提取结构化…