15.混合专家模型(MoEs)技术揭秘

混合专家模型(MoEs)技术揭秘

混合专家模型(Mixture-of-Experts, MoEs)技术发展简史

Mixtral 8x7B :质效并举的稀疏混合专家模型

请添加图片描述

Mixtral 8x7B :质效并举的稀疏混合专家模型
请添加图片描述

MoEs 技术发展简史

请添加图片描述

MoEs 开山鼻祖:自适应局部专家混合 (Adaptive Mixtures of Local Experts, 1991)

  1. 混合专家模型:提出了一种有效减弱干扰效应的模型结构,设立多个独立的子网络(“专家”)来处理不同的输入数据子集(子任务),从而实现学习网络独立的权重更新。
  2. 门控网络:除了专家网络,这个模型还引入了一个称为“门控网络”(Gating Network)的结构。门控网络的职责,根据输入数据决定使用哪个专家网络(或组合)处理当前输入。
  3. 自适应学习:同时对每个专家和门控网络进行训练,模型可以根据数据自适应地改变每个专家的权重和作用。

请添加图片描述

核心贡献

  1. **分治处理复杂问题:**MoE 模型结构能够将复杂的任务分解为更小、更易于管理的子任务,每个由不同的专家网络处理。
  2. **引入了新的学习机制:**通过结合多个专家的知识和专长,混合专家模型能够更灵活地适应各种不同的数据模式和任务。
  3. **对后续研究的启发:**该论文在深度学习和机器学习领域具有重要影响,为后续关于神经网络架构创新、分布式学习以及模型优化方法的研究提供了灵感和基础

请添加图片描述

MoEs 与 集成学习技术对比

请添加图片描述

深度 MoEs ( Learning Factored Representations in a Deep Mixture of Experts ,2013)

请添加图片描述

请添加图片描述

Hinton Jeff Dean 合作发表稀疏门控 MoE (2017 ICLR)

请添加图片描述

请添加图片描述

请添加图片描述

MoEs 与 大模型结合后的技术发展

GShard**:基于** MoE 探索巨型 Transformer 网络(Google, 2020

请添加图片描述

请添加图片描述

请添加图片描述

在 GShard 中,编码器和解码器里的部分 FFN (Feed-Forward Network) 层被 MoE (Mixture of Experts) 层替代,并采用了一种称为 top-2 的门控机制。这种设计对大规模计算尤其有利:当模型扩展到多个设备时,MoE层在这些设备间共享,而其他层则在每个设备上独立存在。

为了在大规模应用中保持效率和均衡的负载,GShard 团队在设计上做了一些创新,包括:

随机路由机制:在 top-2 设计中,我们始终选择表现最优的专家,但第二选择的专家则根据其权重以一定概率被选中。

专家处理能力限制:我们可以设定一个专家能处理的 Token 数量的上限。如果两个专家的处理能力都已达到上限,那么这个 Token 就会被认为是多余的,并通过残差连接传递到下一层,或在某些情况下被直接丢弃。这一概念在 MoEs 的应用中非常关键。

注:在模型编译时所有的张量形状(Tensor Shape)都是静态确定的,但无法预先知道每个专家将处理多少Token,因此需要设定一个固定的处理能力上限。

请添加图片描述

GLaM**:使用** MoE 扩展语言模型性能(Google, 2021

请添加图片描述

GShard vs GLaM
请添加图片描述

Switch Transformer**:使用稀疏技术实现万亿模型(Google, 2022)**
请添加图片描述
请添加图片描述

并行提升 MoEs 效率

请添加图片描述

Mixtral 8x7B 稀疏专家模型(2024

请添加图片描述

请添加图片描述

请添加图片描述
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1452788.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

如何从戴尔笔记本电脑恢复数据?

戴尔笔记本电脑上的数据存储在计算机的硬盘上。通常,您可以将数据安全地保存在笔记本电脑上。但是,戴尔笔记本电脑上的文件可能会因某些问题而丢失。例如,意外删除、格式化、系统升级、病毒感染、数据传输失败或其他未知问题都会导致戴尔笔记…

誉天教育近期开班计划(6月15日更新)

云计算HCIP 周末班 2024/6/15 田老师 售前IP-L3 周末班 2024/6/15 陈老师 RHCA442 晚班 2024/6/17邹老师 数通HCIE 晚班 2024/6/24阮老师 云计算HCIE直通车晚班 2024/6/25 曾老师 售前IT-L3 周末班 2024/6/29 伍老师 数通HCIP 晚班 2024/7/1杨老师 存储直通车 晚班 2024/7/1 高…

房地产房型展示信息小程序的内容是什么

地产业规模之大且品牌众多,还有房屋租赁、中介等,无论开发商公司还是衍生行业商家都需要多渠道宣传品牌和客户触达沟通转化,除了线下各种传单,线上也是主要场景,通过各种连接来达到相应目标。 也因此需符合平台生态开…

Qt状态机框架

概述 状态机框架提供了用于创建和执行状态图的类。这些概念和符号基于Harel的Statecharts:复杂系统的可视化形式(http://www.wisdom.weizmann.ac.il/~dharel/SCANNED.PAPERS/Statecharts.pdf),也是UML状态图的基础。状态机执行的语义基于状态图XML (SCXML)(http://…

Android断点续传原理及实现

常见两种网络请求方式 一、 HttpURLConnection HttpURLConnection的setRequestProperty()方法,对我们要读取的字节部分进行控制,比如: 1.Range0-100代表只读取前100个字节。 2.Range100-500代表读取从第100个字节开始,读到第500个字节为止。…

【单元测试】Spring Boot 的测试库

Spring Boot 的测试库 1.了解回归测试框架 JUnit2.了解 assertThat3.了解 Mockito4.了解 JSONPath5.测试的回滚 单元测试(unit test)是为了检验程序的正确性。一个单元可能是单个 程序、类、对象、方法 等,它是应用程序的最小可测试部件。 单…

Windows10 MySQL(8.0.37)安装与配置

一、MySQL8.0.37下载 官网下载链接: https://dev.mysql.com/downloads/ 解压文件,解压到你想要的位置 二、新建MySQL配置文件 右键新建文本文档 新建my.txt文件 编辑my.txt文件,输入以下内容 [mysqld] # 设置 3306 端口 port3306 # 设…

STM32项目分享:智慧农业(机智云)系统

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 1.PCB图 2.PCB板打样焊接图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片: 哔哩哔哩视频链接: https://www.bilibili.c…

[Vulnhub]Wintermute LFI+SMTP+Screen+Structv2-RCE+Lxc逃逸

概要 靶机 192.168.8.104 信息收集 $ nmap 192.168.8.103 --min-rate 1000 -sC -sV 结果: Starting Nmap 7.92 ( https://nmap.org ) at 2024-06-15 05:54 EDT Nmap scan report for 192.168.8.103 (192.168.8.103) Host is up (0.035s latency). Not shown: 997 closed t…

【LLM】吴恩达『微调大模型』课程完全笔记

Finetuning Large Language Models 版权说明: 『Finetuning Large Language Models』是DeepLearning.AI出品的免费课程,版权属于DeepLearning.AI(https://www.deeplearning.ai/)。 本文是对该课程内容的翻译整理,只作为教育用途,不…

数据结构之LinkedList与链表(上)

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏:数据结构(Java版) 目录 手动实现单链表的源码 手动实现双链表的源码 分析 LinkedList 的源码 LinkedList的使用 …

ChatGPT关联技术

ChatGPT关联技术 一、前馈神经网络二、序列到序列模型(Seq2Seq)三、自注意力机制四、多头自注意力机制五、自监督学习六、Transformer模型七、语言生成技术八、多语种语言模型九、预训练语言模型十、生成式预训练模型(GPT)十一、近…

人民日报:高考填志愿十问十答,填报志愿时需要考虑哪些因素?

高考结束,志愿填报即将开始,填报志愿时需要考虑哪些因素?如何避免高分低录甚至落榜?高考填志愿你需要知道的事↓↓ 祝福考生考入理想大学、就读喜欢的专业。加油! 责任编辑:曹继炜

【计算机网络仿真实验-实验2.6】带交换机的RIP路由协议

实验2.6 带交换机的rip路由协议 1. 实验拓扑图 2. 实验前查看是否能ping通 不能 3. 三层交换机配置 switch# configure terminal switch(config)# hostname s5750 !将交换机更名为S5750 S5750# configure terminal S5750(config)#vlan 10 S5750(config-vlan)#exit S57…

Android 工程副总裁卸任

Android 工程副总裁卸任 Android工程副总裁Dave Burke宣布,他将辞去领导Android工程的职位,将重心转向“AI/生物”项目。不过,他并没有离开Alphabet,目前仍将担任Android系统开发顾问的角色。 Burke参与了Android系统的多个关键…

偏微分方程算法之抛物型方程差分格式编程示例三(C-N格式)

目录 一、研究问题 二、C++代码 三、结果分析 一、研究问题 已知其精确解为。分别取以下三种步长: ①

随机森林算法进行预测(+调参+变量重要性)--血友病计数数据

1.读取数据 所使用的数据是血友病数据,如有需要,可在主页资源处获取,数据信息如下: import pandas as pd import numpy as np hemophilia pd.read_csv(D:/my_files/data.csv) #读取数据 2.数据预处理 在使用机器学习方法时&…

【html】学会这一套布局,让你的网页更加

很多小伙伴们在刚刚开始学习网页设计的时候不知道怎么布局今天给大家介绍一种非常实用且更加专业的一种布局。 灵感来源: 小米官网 布局图; 实例效果图: 这是一个简单的HTML模板,包括头部、内容区域和底部。 头部部分包括一个分为左右两部分…

有监督学习——高斯过程

1. 高斯过程 高斯过程(Gaussian Process)是一种假设训练数据来自无限空间且各特征都符合高斯分布(高斯分布又称“正态分布”)的有监督学习。 高斯过程是一种概率模型,在回归或分类预测都以高斯分布标准差的方式给出预…

SSM考研咨询app-计算机毕业设计源码05262

摘 要 随着互联网趋势的到来,各行各业都在考虑利用互联网将自己推广出去,最好方式就是建立自己的互联网系统,并对其进行维护和管理。在现实运用中,应用软件的工作规则和开发步骤,采用Java技术建设考研咨询app。 本设计…