【王树森】RNN模型与NLP应用(8/9):Attention(个人向笔记)

前言

  • 基于RNN的Seq2Seq模型无法记住长序列
  • Attentnion机制可以大幅度提升Seq2Seq模型
    在这里插入图片描述

Seq2Seq Model with Attention

  • Attention可以让句子在逐步变长的时候不忘记前面的输入信息
  • Attention还可以告诉Decoder应该关注哪一个状态
  • 优点:Attention可以大幅度提高准确率
  • 缺点:Attention计算量比较大

Simple RNN + Attention

  • 需要计算最后一个输出的状态和前面所有状态的相关性(权重),把这个权重记为 α i \alpha_i αi,所有的权重总和为1
    在这里插入图片描述
    • 计算方法1(原版):①把 h i h_i hi s 0 s_0 s0 做concatenation,②然后和一个矩阵 W W W(需要被训练的参数)相乘后丢到 tanh 激活函数里面使其范围变为 [ − 1 , 1 ] [-1,1] [1,1] ,③然后再和 v T v^T vT 做内积得到一个实数。④最后把所有的权重做一个Softmax。
      在这里插入图片描述
    • 计算方法2(更流行,和Transformer一致):①将 h i h_i hi W K W_K WK(需要被训练的参数) 相乘得到 k i k_i ki,将 s 0 s_0 s0 W Q W_Q WQ(需要被训练的参数) 相乘得到 q 0 q_0 q0,其中 k i k_i ki q 0 q_0 q0 都是一维的向量。② k i T q 0 k^T_iq_0 kiTq0 得到权重 α i ~ \tilde{\alpha_i} αi~。③对所有的 α i ~ \tilde{\alpha_i} αi~ 做 Softmax即可得到权重。
      在这里插入图片描述
  • 我们对所有的 h i h_i hi 利用刚刚算出的权重计算加权平均得出一个向量 c 0 c_0 c0,其中一个 c c c 对应一个 s s s,计算出的加权平均向量被称为 Context vector。
    在这里插入图片描述
  • 对于更新状态来说,之前的Simple RNN是这样的,它不会去看前面的状态,而是只会看最后一个
    在这里插入图片描述
  • 而有Attention后更新状态还会把之前的信息 c 0 c_0 c0 考虑进去,也就是还会把前面的信息考虑进去,这样就把RNN遗忘的问题解决了
    在这里插入图片描述
  • 而对于后续的状态 s i s_i si 重复前面的步骤即可,注意每次权重 α i \alpha_i αi 都需要重新计算后得出 c i c_i ci
    在这里插入图片描述
  • Question: 有多少权重 α i \alpha_i αi 被计算了?
    • 对于每一个 c i c_i ci ,我们都i需要用 s i s_i si 来计算 m m m 个权重
    • 假设 Decoder 有 t t t 个状态,那么总共就需要计算 m t mt mt
    • 这个时间复杂度是很高的!
  • 权重可视化:在下面的图中,连线表示相关性,连线越粗,相关性越强。而可以看到Area和zone有比较粗的连线,而英语中的Area就对应法语中的zone:权重指导Decoder关注Encoder中正确(如zone会特别关注Area)的状态,从而生成正确的翻译
    在这里插入图片描述

Summary

  • 之前的Seq2Seq模型:Decoder只会关注最后一个状态,容易导致遗忘
  • Attention则会关注Encoder的所有状态
  • Attention还会指导Decoder关注的侧重点
  • 缺点:更高的计算复杂度,之前的模型只需要 O ( m + t ) O(m+t) O(m+t) 的复杂度,而Attention则需要 O ( m t ) O(mt) O(mt) 的复杂度,其中 m m m 是源序列的长度, t t t 是目标序列的长度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1523844.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【Java】实体类Javabean

文章目录 前言一、实体类Javabean是什么?二、代码总结 前言 记录实体类的基本语法 一、实体类Javabean是什么? 其实就是一种特殊形式的类,这种类特殊点在于: 1、这个类中的成员变量都要私有,并且要对外提供相应的ge…

Dubbo ZooKeeper Spring Boot整合

依赖配置 1. Dubbo 起步依赖 Dubbo 是一款高性能的 Java RPC 框架&#xff0c;用于快速开发高性能的服务。 <dependency><groupId>org.apache.dubbo</groupId><artifactId>dubbo-spring-boot-starter</artifactId><version>${dubbo.ver…

【功能自动化】使用HTMLTestRunner生成测试报告

配置环境&#xff1a; 部署webtours网站 准备数据 user.txt 在软件开发过程中&#xff0c;测试是非常重要的环节&#xff0c;通过测试可以验证代码的正确性和稳定性。而生成测试报告则是测试的一个重要环节&#xff0c;通过测试报告可以清晰地了解测试的结果、覆盖率等信息。…

第九届世界渲染大赛国内参赛者作品在哪里可以看?

第九届世界渲染大赛汇聚了全球顶尖的CG艺术家&#xff0c;其中国内选手的表现尤为引人注目。他们凭借独特的创意视角和精湛的技术&#xff0c;将浓郁的国风元素融入作品之中&#xff0c;为大赛增添了一抹独特的东方色彩。接下来&#xff0c;就让我们一探究竟&#xff0c;看看这…

datagrip链接sql server2005报错

错误信息 第一次报 DBMS: Microsoft SQL Server (no ver.) Case sensitivity: plainmixed, delimitedexact [08S01] 驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接。错误:“The server selected protocol version TLS10 is not accepted by client pr…

C++学习笔记----6、内存管理(一)---- 使用动态内存(4)

3.6、多维自由内存空间上的数组 如果需要在运行时决定多维数组的维度&#xff0c;可以使用在自由内存空间上的数组。与一维动态分配的数组通过指针访问一样&#xff0c;多维动态分配的数组也可以通过指针访问。不同的地方在于在二维数组中&#xff0c;需要用一个指向指针的指针…

基于精益六西格玛管理方法进行生产线综合改善

生产线精益六西格玛改善是一个系统工程&#xff0c;只有对其进行系统的策划与组织&#xff0c;才能收到良好的改善效果。一般来说&#xff0c;需要成立一个专门的精益六西格玛推进组织&#xff0c;由其完成一系列的组织、准备工作。具体如下&#xff1a; &#xff08;1&#xf…

详解si5338 si53xx 设计使用及STM32 iic驱动设计

背景 在实际项目中经常使用si5338 si53xx&#xff0c;进行多路时钟的倍频以生成想要的时钟信号&#xff0c;但是针对si5338 si53xx设计使用缺少相关的资料&#xff0c;本文详解si5338 si53xx 设计使用及STM32 iic驱动设计&#xff0c;本文使用工程在项目中得到测试&#xff0c…

【pycharm】汉化及翻译插件

汉化插件 翻译插件 使用 选中右键翻译

通信算法之232: 无线发射功率和信号强度,常用单位dB、dBm、dBi和dBd介绍

[转载] 无线功率和信号强度的基本概念 在无线网络中&#xff0c;使用AP设备和天线来实现有线和无线信号互相转换。如下图所示&#xff1a; 有线网络侧的数据从AP设备的有线接口进入AP后&#xff0c;经AP处理为射频信号&#xff0c;从AP的发送端&#xff08;TX&#xff09;经过…

DCMM认证等级以及费用多少?

DCMM&#xff08;数据管理能力成熟度&#xff09;特别适合拥有较多数据量的组织、以及期望在初期就进行数据管理规范的组织。它旨在帮助组织对象发现自身问题&#xff0c;为数据管理能力的建设和提升指明方向。 DCMM将组织的数据管理划分为 8大能力域&#xff0c;细分为28个能…

如何将代理IP设置为ISP:详细指南

在当今互联网时代&#xff0c;代理IP已经成为许多用户保护隐私和提升网络体验的重要工具。而ISP&#xff08;Internet Service Provider&#xff09;的代理IP更是因为其高质量和稳定性备受青睐。本文将详细介绍如何将代理IP设置为ISP&#xff0c;让你在网络世界中享受更优质的上…

如何在D盘创建虚拟环境?包括安装PyTorch和配置PyCharm

摘要&#xff1a;本文首先在D盘创建了虚拟环境&#xff0c;然后在虚拟环境中安装了PyTorch&#xff0c;最后配置了pycharm的解释器。 1. 在 D 盘创建虚拟环境 打开Anaconda Prompt 输入conda info --envs查看当前已有环境 创建自己的虚拟环境&#xff0c;打算命名为py310&…

不同分辨率下页面自适应方法

首先在utils文件下新建一个js文件命名为screenSize.js 然后在需要做自适应的页面文件中引入import {screenSize} from ‘/utils/screenSize’ 最外层div中用ref命名 最后在mounted中使用该方法 记得style中给login宽1920px,高1080px

CPP继承(下)

目录 继承与友元 继承与静态成员 复杂的菱形继承及菱形虚拟继承 单继承 多继承 菱形继承 菱形继承的问题 虚继承 虚拟继承解决数据冗余和二义性的原理 继承的总结和反思 笔试面试题 继承与友元 友元关系不能继承&#xff0c;也就是说基类友元不能访问子类私有和保护…

高效易用的仓库进销存管理软件盘点,总有一款适合你!

本文将盘点10款主流的仓库进销存管理软件&#xff0c;为企业选型提供参考&#xff01; 仓库进销存管理软件就如同企业仓库的智慧大脑&#xff0c;能把企业的库存管理得井井有条。 有了它&#xff0c;首先能准确掌握库存情况&#xff0c;就像有了一双敏锐的眼睛&#xff0c;随时…

[SWPUCTF 2023 秋季新生赛]Pingpingping

这种是ctf中比较简单的一类题&#xff0c;主要解法基本上也就那些形式。 这道题我给它提出来主要是涉及了一下比较零散的知识点&#xff0c;觉得想要跟大家分享一下。 <?php highlight_file(__FILE__); error_reporting(0); $_ping $_GET[Ping_ip.exe]; if(isset($_ping…

新160个crackme -047-surre

运行分析 打开程序&#xff0c;标题显示Unreg未注册点击Try it&#xff0c;让我们选择一个文件&#xff0c;若选择文件无反应&#xff0c;不选择文件之后弹出错误提示 PE分析 Delphi程序&#xff0c;32位&#xff0c;无壳 静态分析&动态调试 ida找到已注册字符串&#xff0…

glsl着色器学习(十)缩放

对二维图形进行缩放&#xff0c;需要用到顶点着色器&#xff0c;顶点着色器经过矩阵变换&#xff0c;会将模型空间最终转换成裁剪空间。下面就来操作矩阵 这里需要用到一个库glMatrix。 首先修改顶点着色器 <script id"vertex-shader-2d" type"x-shader/x-…

为何科技达人都爱用Windows Disk Clear?数据安全有保障!

前言 “在数字时代&#xff0c;数据即力量&#xff0c;而其安全则是力量的基石。”这句箴言恰如其分地描绘了当今社会对数据安全的迫切需求。正是在这样的科技浪潮中&#xff0c;一款名为“Windows Disk Clear”的软件如同璀璨星辰&#xff0c;照亮了数据安全领域的天空。 它…