3 种自然语言处理(NLP)技术:RNN、Transformers、BERT

自然语言处理 (NLP) 是人工智能的一个领域,旨在使机器能够理解文本数据。NLP 研究由来已久,但直到最近,随着大数据和更高计算处理能力的引入,它才变得更加突出。

随着 NLP 领域的规模越来越大,许多研究人员都试图提高机器理解文本数据的能力。经过大量的进步,许多技术在 NLP 领域被提出并应用。

本文将比较 NLP 领域中处理文本数据的各种技术。本文将重点讨论 RNN、Transformers 和 BERT,因为它们是研究中经常使用的技术。让我们开始吧。

图片

< NLP - RNN、Tranformers、BERT>

循环神经网络

循环神经网络(RNN) 于 1980 年开发,但最近才在 NLP 领域引起关注。RNN 是神经网络家族中的一种特殊类型,用于处理顺序数据或不能相互独立的数据。顺序数据示例包括时间序列、音频或文本句子数据,基本上是任何具有有意义顺序的数据。

RNN 与常规前馈神经网络不同,因为它们处理信息的方式不同。在常规前馈神经网络中,信息是在层之后处理的。然而,RNN 使用循环周期来处理信息输入。为了理解差异,让我们看下面的图片。

图片

如您所见,RNN 模型在信息处理过程中实现了循环。RNN 在处理此信息时会考虑当前和以前的数据输入。这就是为什么该模型适用于任何类型的顺序数据。

如果我们以文本数据为例,假设我们有句子“我早上 7 点起床”,并且我们将单词作为输入。在前馈神经网络中,当我们到达单词“起床”时,模型已经忘记了单词“我”、“起床”和“起床”。但是,RNN 会使用每个单词的每个输出并将它们循环回来,这样模型就不会忘记。

在 NLP 领域,RNN 经常用于许多文本应用,例如文本分类和生成。它经常用于词级应用,例如词性标注、下一个词生成等。

深入研究文本数据上的 RNN,RNN 有很多种类型。例如,下图是多对多类型。

图片

看上图,我们可以看到每个步骤(RNN 中的时间步)的输出都是一步一步处理的,并且每次迭代总是考虑先前的信息。

另一种在许多 NLP 应用中使用的 RNN 类型是编码器-解码器类型(Sequence-to-Sequence)。其结构如下图所示。

图片

此结构引入了模型中使用的两个部分。第一部分称为编码器,它接收数据序列并基于该序列创建新的表示。该表示将用于模型的第二部分,即解码器。使用此结构,输入和输出长度不一定相等。示例用例是语言翻译,其输入和输出之间的长度通常不相同。

使用 RNN 处理自然语言数据有各种好处,包括:

  1. RNN 可用于处理不受长度限制的文本输入。
  2. 该模型在所有时间步骤中共享相同的权重,这使得神经网络在每个步骤中使用相同的参数。
  3. 由于具有过去输入的记忆,RNN 适用于任何序列数据。

但是,它也存在一些缺点:

  1. RNN 容易受到梯度消失和梯度爆炸的影响。梯度消失是指梯度结果接近于零(消失),导致网络权重仅更新很小的量,或者梯度结果非常显著(爆炸),以至于赋予网络不切实际的巨大重要性。
  2. 由于模型的序列特性,训练时间较长。
  3. 短期记忆意味着模型训练的时间越长,就会开始忘记。RNN 有一个扩展,称为LSTM,可以缓解这个问题。

Transformers

Transformers 是一种 NLP 模型架构,旨在解决 RNN 中以前遇到的序列到序列任务。如上所述,RNN 在短期记忆方面存在问题。输入越长,模型在遗忘信息方面就越突出。这就是注意力机制可以帮助解决问题的地方。

Bahdanau等人(2014)在论文中引入了注意力机制,用于解决长输入问题,尤其是编码器-解码器类型的 RNN。我不会详细解释注意力机制。基本上,它是一个层,允许模型在进行输出预测的同时专注于模型输入的关键部分。例如,如果任务是翻译,那么输入单词“Clock”将与印尼语中的“Jam”高度相关。

transformers 模型由Vaswani等人(2017)提出。该架构受到编码器-解码器 RNN 的启发,并考虑到注意力机制而构建,并且不按顺序处理数据。整个 transformers 模型的结构如下图所示。

在这里插入图片描述

Transformers 架构(Vaswani等人,2017 年)

在上述结构中,Transformers 使用位置编码将数据向量序列编码为词向量,同时使用解码将数据转换为原始形式。在注意力机制的帮助下,编码可以根据输入赋予重要性。

与其他模型相比,Transformer 具有一些优势,包括:

  • 并行化过程增加了训练和推理速度。
  • 能够处理更长的输入,从而更好地理解上下文

Transformers 模型仍然存在一些缺点:

  • 高计算处理和需求。
  • 注意力机制可能需要对文本进行拆分,因为它可以处理的长度有限制。
  • 如果分割错误,上下文可能会丢失。

BERT

BERT,即 Transformers 的双向编码器表示,是由Devlin等人(2019)开发的模型,涉及两个步骤(预训练和微调)来创建模型。如果我们比较一下,BERT 是 Transformers 编码器的堆栈(BERT Base 有 12 层,而 BERT Large 有 24 层)。

BERT的整体模型发展如下图所示。

图片

BERT 总体流程(Devlin等人(2019)

预训练任务同时启动模型的训练,完成后,模型可以针对各种下游任务(问答、分类等)进行微调。

BERT 的特别之处在于它是第一个在文本数据上进行预训练的无监督双向语言模型。BERT 之前已在整个维基百科和书籍语料库上进行过预训练,包含超过 30 亿个单词。

BERT 被认为是双向的,因为它不是按顺序读取数据输入(从左到右或反之亦然),但 Transformer 编码器同时读取整个序列。

与按顺序(从左到右或从右到左)读取文本输入的定向模型不同,Transformer 编码器会同时读取整个单词序列。这就是为什么该模型被认为是双向的,并允许模型理解输入数据的整体上下文。

为了实现双向,BERT 使用了两种技术:

  • 掩码语言模型 (MLM) — 单词掩码技术。该技术将掩码 15% 的输入词,并尝试根据未掩码的单词预测这个被掩码的单词。
  • 下一句预测 (NSP) — BERT 尝试学习句子之间的关系。该模型以句子对作为数据输入,并尝试预测后续句子是否存在于原始文档中。

在 NLP 领域使用 BERT 有几个优点,包括:

  1. BERT易于用于预先训练的各种NLP下游任务。
  2. 双向使得 BERT 更好地理解文本上下文。
  3. 这是一个很受欢迎的模式,得到了社区的大力支持

尽管如此,它仍然存在一些缺点,包括:

  1. 一些下游任务微调需要很高的计算能力和很长的训练时间。
  2. BERT 模型可能会导致模型很大,需要更大的存储空间。
  3. 它更适合用于复杂任务,因为简单任务的性能与使用更简单的模型没有太大差别。

结论

NLP 近来变得越来越突出,许多研究都集中在改进应用程序上。在本文中,我们讨论了三种经常使用的 NLP 技术:

  1. 循环神经网络 (RNN)
  2. Transformers
  3. BERT

每种技术都有其优点和缺点,但总的来说,我们可以看到模型正在以更好的方式发展。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1539910.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

大数据-141 - ClickHouse 集群 副本和分片 Zk 的配置 Replicated MergeTree原理详解

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

python | x-y 网格切片

写在前面 通常&#xff0c; 我们处理的毕竟完善的nc产品&#xff0c;一般呈现未timexlatxlon的维度&#xff0c;且lon和lat都是规则的网格&#xff0c;我们可以方便的使用xarray.sel()选择合适的区域进行切片。但是&#xff0c;部分nc产品比如卫星轨道或者模式输出的数据&…

二、编译原理-词法分析

一、词法分析器的作用 1、词法分析器的作用 读入字符流&#xff0c;组成词素&#xff0c;输出词法单元序列 过滤空白、换行、制表符、注释等 将词素添加到符号表中&#xff0c;以便编译的各个阶段取用 2、词法单元、模式、词素 &#xff08;1&#xff09;词法单元 (token…

NLP开端:Tokenizer-文本向量化

Tokenizer 问题背景 An was a algorithm engineer 如上所示&#xff0c;在自然语言处理任务中&#xff0c;通常输入处理的数据是原始文本。但是算法模型自能处理数值类型&#xff0c;因此需要找到一种方法&#xff0c;将原始的文本数据转换为数值类型的数据。这就是分词器所…

Java 方法重写(难)

目录 1&#xff0e;A类和B类都写一个相同的方法&#xff0c;先用static&#xff0c;两边都是一样的&#xff1a; 2&#xff0e;A类和B类都去掉static&#xff0c;出现了两个圆圈的符号&#xff0c;代表重写&#xff1a; 3&#xff0e;总结 4&#xff0e;为什么需要重写&…

thinkPHP 8.0.4 安装

windows 上安装最新版 thinkPHP8.0.4 下载phpStudy V8.1&#xff1a;小皮面板安装Composer2.x&#xff0c;Composer是PHP的一个依赖管理工具&#xff0c;主要功能包括依赖管理、版本控制、自动加载、扩展开发以及集成其他工具。安装 php8.0.2 4. 网站-管理-compose&#xff0c…

204页PPT金税四期监管要求与最新政策及风险防范-培训课件

读者朋友大家好&#xff0c;最近有会员朋友咨询晓雯&#xff0c;需要《204页PPT金税四期监管要求与最新政策及风险防范-培训课件&#xff08;经典》资料&#xff0c;欢迎大家下载学习。 金税四期稽查的重点包括以下方面&#xff1a; 企业发票&#xff1a;关注资金流、发票流、…

前后端独立部署的企业级私有化文档管理系统丨无忧·企业文档

大家好&#xff0c;我是软件部长&#xff0c;今天给大家介绍一款企业级在线知识库项目-JVS的无忧企业文档。 JVS提供低代码、物联网、规则引擎、智能BI、逻辑引擎、无忧企业文档&#xff08;在线协同&#xff09;、无忧企业计划、无忧企业邮筒等平台&#xff0c;欢迎关注微信公…

vscode连接不上远程服务器

删除缓存.vscode 然后再删除.ssh

Vue3快熟

Vue3快速上手 1. Vue3简介1.1. 【性能的提升】1.2.【 源码的升级】1.3. 【拥抱TypeScript】1.4. 【新的特性】 2. 创建Vue3工程2.1. 【基于 vue-cli 创建】2.2. 【基于 vite 创建】(推荐)2.3. 【一个简单的效果】 3. Vue3核心语法3.1. 【OptionsAPI 与 CompositionAPI】Options…

【C语言】常见的C语言概念

个人主页 &#xff1a; zxctscl 如有转载请先通知 文章目录 1. 什么是C语言2.C语言的历史3. 编译器的选择VS20223.1 编译和链接3.2 编译器的对比3.3 VS2022的优缺点 4.VS项目和源文件、头文件介绍5. 第一个C语言程序6. main函数7. printf和库函数8. 关键字介绍9. 字符和ASCII编…

react hooks--useReducer

概述 很多人看到useReducer的第一反应应该是redux的某个替代品&#xff0c;其实并不是 ◼ useReducer仅仅是useState的一种替代方案&#xff1a;  在某些场景下&#xff0c;如果state的处理逻辑比较复杂&#xff0c;我们可以通过useReducer来对其进行拆分&#xff1b; 或…

gma 2.0.13 (2024.09.16) 更新日志

安装 gma 2.0.13 pip install gma2.0.13网盘下载&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1P0nmZUPMJaPEmYgixoL2QQ?pwd1pc8 提取码&#xff1a;1pc8 注意&#xff1a;此版本没有Linux版&#xff01; 编译gma的Linux虚拟机没有时间修复&#xff0c;本期Linux版…

Angular17+leaflet集成天地图组件

Angular17leaflet集成天地图组件 例图 需要的包 "asymmetrik/ngx-leaflet": "^17.0.0","types/leaflet": "^1.9.12","leaflet": "^1.9.4",去天地图网站获取一个token https://www.tianditu.gov.cn/ 创建Angul…

8、创建一般资产负债科目

定义解释 在前台创建资产负债类科目。定义资产负债类会计科目。 在 SAP 中,会计科目的定义分为两层&#xff1a;科目表层和公司代码层。 比如&#xff1a;一个集团企业可以定义一套会计科目表&#xff0c;但是下面的每个公司代码&#xff0c;从中选择哪些科目&#xff0c;这…

透明LED模块的应用场景

随着科技的不断进步和市场需求的增长&#xff0c;透明LED显示屏的应用越来越广泛&#xff0c;成为了众多领域中的创新亮点。透明LED模块凭借其高通透率、轻薄设计以及与环境的完美融合&#xff0c;正逐步替代传统显示方式&#xff0c;为现代化的展示和广告提供了全新的解决方案…

PicoQuant公司:探索铜铟镓硒(CIGS)太阳能电池技术,引领绿色能源革新

铜铟镓硒&#xff08;‌CIGS&#xff09;‌薄膜太阳能电池具有生产成本低、污染小、不衰退、弱光性能好等显著特点&#xff0c;光电转换效率居各种薄膜太阳电池之首&#xff0c;接近于晶体硅太阳电池&#xff0c;而成本只是它的三分之一&#xff0c;被称为下一代非常有前途的新…

window批处理脚本:将本地的三个文件通过SCP传输到Linux设备上

文件名send_file.bat&#xff1a; echo off setlocal:: 提示用户输入远程IP地址 set /p remoteIpAddressplease input IP::: 定义本地文件名 set "localFile1111" set "localFile2222" set "localFile3333":: 获取本地文件的完整路径 set "…

项目与产品的生命周期

在项目管理领域有两个关键概念&#xff0c;即项目生命周期和产品生命周期。它们是理解项目管理过程中的关键要素。 项目生命周期是一个项目从概念到完成所经过的所有阶段。所有项目都可分成若干阶段&#xff0c;且所有项目无论大小&#xff0c;都有一个类似的生命周期结构。阶…

学习大数据DAY59 全量抽取和增量抽取实战

目录 需求流程&#xff1a; 需求分析与规范 作业 作业2 需求流程&#xff1a; 全量抽取 增量抽取 - DataX Kettle Sqoop ... 场景: 业务部门同事或者甲方的工作人员给我们的部门经理和你提出了新的需 求 流程: 联系 > 开会讨论 > 确认需求 > 落地 需求文档( 具体…