详细介绍Transformer!

 

🤗Transformer是一种神经网络架构,核心思想是利用自注意力机制来捕捉序列中元素之间的关系。从而避免了传统RNN难以处理长序列依赖的问题。

 Transformer的主要组件和流程

💫Encoder-Decoder结构

  • Transformer包含编码器和解码器两个主要部分。编码器负责接受输入序列,提取特征,生成一系列向量表示;解码器则根据这些向量表示生成输出序列。

💫多头自注意力机制

  •  允许模型在计算每个单词的表示时,同时关注输入序列中的不同位置。这种机制通过多个head并行计算注意力,然后将他们的结果合并,增强了模型表达能力。        

💫位置编码

  • 因为Transformer是无序列化的,需要通过加入位置编码器来引入位置信息,让模型能区分序列中不同位置的元素。为每个位置生成独特的编码。

 💫前馈神经网络

  • 每个编码器与解码器中都有一个基于位置的前馈神经网络,一般是两个全连接层组成,可以自动调整参数。

💫掩码机制

  • 解码的过程中,为了确保模型只依赖已知信息生成下一个时刻的输出,采用掩码机制掩盖当前时刻之后的位置信息,可以防止信息泄露。 

传统RNN 

💯 Transformer解决了RNN面临的很多问题:

  1. 并行计算效率,RNN需要按顺序处理输入数据,计算是依赖前一个时间步的结果,所以并行  计算困难。Transformer基于自注意力机制,可以并行处理序列中的所有元素。
  2. 长距离依赖:RNN处理长序列时可能遇到梯度消失或梯度爆炸,很难捕获序列中远距离依赖问题,transformer可以通过自注意力机制处理长距离依赖。

💥Self-attention的特点 

  • self-attention是一种通过自身和自身进行关联的attention机制, 从而得到更好的representation来表达自身。
  • self-attention是attention机制的一种特殊情况,在self-attention中, Q=K=V, 序列中的每个单词(token)都和该序列中的其他所有单词(token)进行attention规则的计算
  • attention机制计算的特点在于, 可以直接跨越一句话中不同距离的token, 可以远距离的学习到序列的知识依赖和语序结构 

Attention计算过程

  • 阶段一: query 和 key 进行相似度计算,得到一个query 和 key 相关性的分值
  • 阶段二: 将这个分值进行归一化(softmax),得到一个注意力的分布
  • 阶段三: 使用注意力分布和 value 进行计算,得到一个融合注意力的更好的 value 值

💯关于(Q, K, V) 

假如我们有一个问题: 给出一段文本,使用一些关键词对它进行描述! 为了方便统一正确答案,这道题可能预先已经给大家写出了一些关键词作为提示.其中这些给出的提示就可以看作是key, 而整个的文本信息就相当于是query,value的含义则更抽象,可以比作是你看到这段文本信息后,脑子里浮现的答案信息, 这里我们又假设大家最开始都不是很聪明,第一次看到这段文本后脑子里基本上浮现的信息就只有提示这些信息, 因此key与value基本是相同的,但是随着我们对这个问题的深入理解,通过我们的思考脑子里想起来的东西原来越多, 并且能够开始对我们query也就是这段文本,提取关键信息进行表示. 这就是注意力作用的过程, 通过这个过程, 我们最终脑子里的value发生了变化

查询Query是一条独立的序列信息, 通过关键词Key的提示作用, 得到最终语义的真实值Value表达, 数学意义更充分。

Multi head Attention

  • 原始论文中提到进行Multi-head Attention的原因是将模型分为多个头,可以形成多个子空间, 让模型去关注不同方面的信息, 最后再将各个方面的信息综合起来得到更好的效果

  • 多个头进行attention计算最后再综合起来,类似于CNN中采用多个卷积核的作用,不同的卷积核提取不同的特征, 关注不同的部分,最后再进行融合

  • 直观上讲,多头注意力有助于神经网络捕捉到更丰富的特征信息

Multi-head Attention和单一head的Attention唯一的区别就在于, 其对特征张量的最后一个维度进行了分割, 一般是对词嵌入的embedding_dim=512进行切割成head=8, 这样每一个head的嵌入维度就是512/8=64, 后续的Attention计算公式完全一致, 只不过是在64这个维度上进行一系列的矩阵运算。

在head=8个头上分别进行注意力规则的运算后, 简单采用拼接concat的方式对结果张量进行融合就得到了Multi-head Attention的计算结果 。

🤗那么不考虑计算量的前提下,head是否可以无限增多? 

实际应用中,head数量不可以无限增加,随着head数量增加,计算资源和难度会增加很多。并且遇到数据不足的情况下,额外的head会导致模型过拟合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/15108.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

中国车牌分类

从颜色和单双层分类(不考虑临时车牌) 黄单黄双黄绿单蓝单蓝双绿单绿双黑单黑双白单白双 #特殊文字 挂使港澳学警领临

【4060显卡也能跑高质量的Flux模型了吗】MIT Han 实验室开源了一个Flux的量化项目——SVDQuant

麻省理工学院(MIT)Han 实验室一直在积极开展一系列项目,包括微小机器学习(Tiny Machine Learning)、SANA、SVDQuant 和 QServe,这些项目旨在提高人工智能计算的效率,并实现在边缘设备上的高效部…

基于Java Springboot学生管理系统

一、作品包含 源码数据库全套环境和工具资源部署教程 二、项目技术 前端技术:Html、Css、Js、Vue 数据库:MySQL 后端技术:Java、Spring Boot、MyBatis 三、运行环境 开发工具:IDEA 数据库:MySQL5.7 数据库管理…

DELL Precision 系列默认用的都是非ECC内存

文章目录 DELL Precision 系列默认用的都是非ECC内存概述SSD升级SSD1SSD2 笔记DELL Precision 系列默认用的都是非ECC内存可以选非ECC的内存 备注备注如果不差钱备注END DELL Precision 系列默认用的都是非ECC内存 概述 去了一次DELL维修中心,清了一次灰。人工真贵…

Linux基础(2)以及资源耗尽病毒的编写(详见B站泷羽sec)

免责声明:本教程作者及相关参与人员对于任何直接或间接使用本教程内容而导致的任何形式的损失或损害,包括但不限于数据丢失、系统损坏、个人隐私泄露或经济损失等,不承担任何责任。所有使用本教程内容的个人或组织应自行承担全部风险。 Linux…

20241114软考架构-------软考案例15答案

每日打卡题案例15答案 15.【2016年真题】 难度:一般 阅读以下关于应用服务器的叙述,在答题纸上回答问题1至问题3。(25分) 【说明】 某电子产品制造公司,几年前开发建设了企业网站系统,实现了企业宣传、产品…

【LeetCode】每日一题 2024_11_14 统计好节点的数目(图/树的 DFS)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动! 题目:统计好节点的数目 代码与解题思路 先读题:题目要求我们找出好节点的数量,什么是好节点?“好节点的所有子节点的数量都是相同的”,拿示例一…

HarmonyOs DevEco Studio小技巧29--ArkTS文字如何渐变

这是需求 昨天想了老多方法 一开始以为加上线性渐变这个属性就好了 Entry Component struct TextTest {State message: string 中华人民共和国万岁;build() {RelativeContainer() {Text(this.message).id(TextTestHelloWorld).fontSize(33).fontWeight(FontWeight.Bold).alig…

块设备 - 想进阶的必经之路!

在Linux内核开发的世界中,块设备(Block Device)是一块不可忽视的领域。它承载了文件系统的运行,管理着磁盘存储的核心逻辑,是初学者迈向内核进阶的重要知识点。本篇文章将用通俗易懂的语言,为你揭开块设备的…

高鑫零售实现扭亏为盈,逆市增长的高鑫零售未来何在?

大润发母公司高鑫零售发布截至9月30日的2025财年中期业绩报告:营收347.08亿元人民币,税后溢利1.86亿元,同比增加5.64亿元,实现扭亏为盈,高鑫零售的成绩单我们该如何分析? 首先,整体来看&#x…

AI绘画如何赚钱?分享5个简单,易上手的实用性案例

近年来,人工智能(AI)技术在各个领域都取得了巨大的突破,其中之一就是AI绘画。通过分享一些令人兴奋的应用与变现案例,我们可以深入了解AI绘画的实际应用,以及它如何改变了传统艺术创作和商业模式。 在接下…

如何在 Ubuntu 上安装 RStudio IDE(R语言集成开发环境) ?

RStudio 是一个功能强大的 R 语言集成开发环境(IDE),R 是一种主要用于统计计算和数据分析的编程语言。任何从事数据科学项目或任何其他涉及 R 的类似任务的人,RStudio 都可以使您的工作更轻松。 本指南将引导您完成在 Ubuntu 系统上安装 RStudio 的过程…

C++玩转物联网:认识树莓派Pico

在嵌入式编程的领域中,树莓派Pico、Arduino和ESP32都是广受欢迎的微控制器开发板,但它们在性能、功能和编程语言支持上各有特点。树莓派Pico是树莓派基金会推出的一款高性价比开发板,搭载了RP2040微控制器,支持标准的C库&#xff…

网络基础 - 网段划分篇

我们知道,IP 地址(IPv4 地址)由 “网络标识(网络地址)” 和 “主机标识(主机地址)” 两部分组成,例如 192.168.128.10/24,其中的 “/24” 表示从第 1 位开始到多少位属于网络标识,那么,剩余位就属于主机标识了&#xf…

当微软windows的记事本被AI加持

1985年,微软发布了Windows 1.0,推出了一款革命性的产品:记事本(Notepad)。这款软件旨在鼓励使用一种未来主义的新设备——鼠标,并让人们可以不依赖VI等键盘工具就能书写文本和编写代码。记事本因其简洁和高…

FastGPT + Dify,本地知识库快速部署!

本文主要内容 本地部署 Dify、FastGPT、OllamaDify、FastGPT 对接一些目前免费的 LLM 大语言 AI 模型Dify、FastGPT 对接 Ollama 本地模型 大家好,我是一名喜欢在家折腾本地部署的开发者,这次我来分享如何在本地运行 Ollama,并将它与 FastG…

黄仁勋对话孙正义:日本的AI新饼、Arm的AI野心与英伟达的东亚新机会

2020 年的软银世界大会上,孙正义与黄仁勋围绕「What’s Next for AI」展开了一次围炉对谈。黄仁勋穿着标志性的皮夹克坐在火堆旁,畅谈了将 Arm 纳入麾下的重要价值,孙正义也毫不吝啬赞美之词,称老黄在未来 10 年会达到史蒂夫 乔布…

什么是邻道泄露抑制比(ACLR)

今天和大家一起学习交流下邻道泄露抑制比(ACLR)指标,看看是否 让你产生一些新的灵感。 什么是ACLR? 邻道泄露抑制比是用于衡量下行的发射性能,是主信道的发射功率与测得的相邻信道的功率之比。ACLR值越低,表示相临信道的功率的干扰越小,说明系统的性能越好。一般用dB…

VMware和CentOS 7.6 Linux操作系统的安装使用

1. 安装VMware 安装VMware之前,有些电脑是需要去BIOS里修改设置开启cpu虚拟化设备支持才能安装。如果运气不好在安装过程中安装不了的话就自行百度吧。 打开 VMware 的官网: https://www.vmware.com/ 点击 product,往下滑找到 see desktop hypeerviso…

沈阳乐晟睿浩科技有限公司抖音小店保障

在当今这个数字化时代,电子商务行业以其便捷性、高效性和广泛的覆盖面,成为了推动经济发展的新引擎。沈阳乐晟睿浩科技有限公司,作为这股变革洪流中的佼佼者,凭借其深厚的技术实力、敏锐的市场洞察力和前瞻性的战略布局&#xff0…