深度学习-18-深入理解BERT实战使用预训练的DistilBERT模型

文章目录

  • 1 预训练的BERT模型
    • 2.1 单词级的嵌入表示
    • 2.2 句子级的嵌入表示
    • 2.3 从最顶层编码器层中抽取嵌入表示
      • 2.3.1 预处理输入
      • 2.3.2 获得嵌入表示
    • 2.4 从所有的编码器层中抽取嵌入表示
      • 2.4.1 预处理输入
      • 2.4.2 嵌入表示
  • 3 为下游任务微调BERT
    • 3.1 文本分类
      • 3.1.1 原理(微调BERT模型)
      • 3.1.2 实战(为情绪识别微调BERT)
      • 3.1.3 加载数据集
      • 3.1.4 加载模型
      • 3.1.5 预处理数据集
      • 3.1.6 训练模型
    • 3.2 自然语言推理
    • 3.3 命名实体识别
  • 4 问题及解决
    • 4.1 module 'dill._dill' has no attribute 'PY3'
    • 4.2 cannot import name is_mlu_available
    • 4.3 FailedPreconditionError: logs is not a directory
  • 5 参考附录

1 预训练的BERT模型

从开始预训练BERT模型是很耗资源的,所以我们可以下载预训练好的BERT模型。
在BERT-uncased中,所有的标记都是小写的。
在BERT-cased中的标记没有转换为小写,而是直接用来训练。

其中BERT-uncased模型是最常用的。

我们可以以下面两个方式使用预训练模型:
(1)作为抽取嵌入表示的特征抽取器。
(2)通过在下游任务像文本分类、问答等任务的微调预训练的BERT模型。

实战文本分类中的情绪识别任务和自然语言推理中的问答任务。# 2 作为抽取嵌入表示的特征抽取器
学习具体如何从预训练的BERT模型中抽取单词级和句子级的嵌入表示。

2.1 单词级的嵌入表示

考虑一个句子​​ I love Paris​​,假设我们要抽取该句子中的每个标记的上下文嵌入。
首先,我们对句子分词然后喂给预训练的BERT模型,它会返回每个标记的嵌入表示。
除了可以获取标记级(单词级)的嵌入表示,我们还可以获取句子级的表示。

假设我们想要完成一个情感分析任务,然后我们有下面的数据集:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1539165.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

MTK芯片机型的“工程固件” 红米note9 5G版资源预览 写入以及改写参数相关步骤解析

小米机型:小米5 小米5x 米6 米6x 米8 米9 米10系列 米11系列 米12系列 mix mix2 mix2s mix3 max max2 max3 note3 8se 9se cc9系列 米play 平板系列等分享 红米机型:红米note4 红米note4x 红米note5 红米note6 红米note7 红米note8 红米note8pro 红米s2 红米note7pro 红米…

大数据概念与价值

文章目录 引言大数据的概念高德纳咨询公司的定义麦肯锡全球研究所的定义什么是大数据? 大数据的特征Volume(体积)Variety(种类)Velocity(速度)Value(价值)Veracity&#…

OpenCV 1

前言:开新坑辽,, 目录 计算机眼中的图像 视频的读取与处理 ROI区域 边界填充 数值计算 腐蚀操作 膨胀操作 开运算与闭运算 梯度计算 礼貌与黑帽 Sobel算子 梯度计算方法 scharr与laplacian 计算机眼中的图像 灰色图片&#xff0…

微服务——网关路由(Spring Cloud Gateway)

网关路由 1.什么是网关 网关又称网间连接器、协议转换器,是在网络层以上实现网络互连的复杂设备,主要用于两个高层协议不同的网络之间的互连。网关就是网络的关口。数据在网络间传输,从一个网络传输到另一网络时就需要经过网关来做数据的路由…

MYSQL登录失败,确保密码正确,常见问题

今天登录MYSQL时,发现登录不进去,我能确保密码没有错误,并且我昨天以这样的方式登录成功,我已经重启过mysql服务,但是依旧登录不进去。 C:\Users\user>mysql -u root -p Enter password: ****** ERROR 1045 (28000): Access …

(已解决)vscode如何选择python解释器

文章目录 前言解决方案 前言 有的时候可能有不同版本的编译器,以适用不同年份的项目。所以,怎么在vscode中换python解释器呢? 解决方案 对着要运行的python文件进行右键,比如我是要运行main文件,点击那个命令选项版…

为什么7kw交流充电桩主板是充电桩运行的关键

7kw交流充电桩主板是电动汽车充电站中的一个核心组件,负责管理和控制充电过程。它是一种专门为7kw功率设计的交流充电设备的控制中枢,包含了电力电子、微处理器、通信模块等多种元件,以确保安全、高效地为电动汽车提供电能。 7kw与3.5kw主板的…

音视频入门基础:AAC专题(10)——FFmpeg源码中计算AAC裸流每个packet的pts、dts、pts_time、dts_time的实现

音视频入门基础:AAC专题系列文章: 音视频入门基础:AAC专题(1)——AAC官方文档下载 音视频入门基础:AAC专题(2)——使用FFmpeg命令生成AAC裸流文件 音视频入门基础:AAC…

【CSS in Depth 2 精译_034】5.4 Grid 网格布局的显示网格与隐式网格(下)

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结) 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结 第二章 相对单位(已完结) 2.1 相对…

在 React 中模拟输入

需求 与 Bug 项目的 C# 桌面端使用 CefSharp 内嵌了一个三方网站,在外部实现了一个登录控件,外部登录后希望内嵌的三方网站自动登录,实现代码如下: browser.ExecuteScriptAsync($"document.getElementsByName(username)[0]…

Etcd权限认证管理

1 查看是否开启权限认证 ctl auth status 2 开启权限认证 ctl auth enable。开启后每一条命令都要加上用户 --userroot:root(root默认最高权限) 3 创建其他用户 ctl user add user1 --user用户名:密码 4 创建角色 ctl role add testR --user 5 为角色添加权限 ctl role g…

Linux基础命令——文件系统的日常管理

目录 一.如何查看当前工作目录?(你现在所处的位置路径) 二.命令touch的用途是什么?还有别的方法新建文件吗? (1)创建空文件 (2)如果已经存在这个文件,就会更新创建时间。 (3…

优化器与现有网络模型的修改

文章目录 一、优化器是什么二、优化器的使用三、分类模型VGG16四、现有网络模型的修改 一、优化器是什么 优化器(Optimizer)是一个算法,用于在训练过程中调整模型的参数,以便最小化损失函数(Loss Function&#xff09…

【论文阅读笔记】YOLOv10: Real-Time End-to-End Object Detection

论文地址:https://arxiv.org/abs/2405.14458 文章目录 论文小结论文简介论文方法为NMS-free训练的一致性双标签分配双标签分配一致性匹配度量 效率-精度整体驱动的模型设计效率驱动模型设计轻量级分类检测头Spatial-channel 解耦下采样Rank-guided block design 精度…

linux 操作系统下的dhclient命令介绍和案例使用

linux 操作系统下的dhclient命令介绍和案例使用 dhclient 是 Linux 系统中用于动态主机配置协议(DHCP)客户端的命令。它的主要功能是从 DHCP 服务器获取网络配置,包括 IP 地址、子网掩码、默认网关和 DNS 服务器等信息 dhclient 命令概述 …

transformer共享权重对联模型

嵌入维度512,8头,1层 |分割中最从左到右依次是数据集上联,模型预测下联,数据集下联 ,有些对联对的还是可以的 嵌入维度512,8头,3层,最后一个输出层采用线性层,模型训练过程 上面是模型训练过程,下面是模型训练结果 从左到右,上联,模型生成,下…

满足10人同时绘图的图形工作站

在当今这个数字化与创意并重的时代,图形工作站作为设计师、艺术家及数字内容 创作者们的重要工具,其性能与效率直接关系到项目的成功与否。 当谈及满足10人同时绘图的图形工作站时,我们不仅要考虑硬件的峰值性能,还需兼顾软件的兼…

PSINS,GNSS速度与SINS滤波的MATLAB代码

文章目录 程序说明主要特点适用范围获取方式运行截图 程序说明 基于PSINS工具箱的GNSS和SINS滤波的MATLAB代码,观测量为GNSS的三轴速度。 专为工程师和研究人员设计,助您轻松实现高精度的导航和定位。 主要特点 高精度滤波算法:结合PSINS和…

中间件:maxwell、canal

文章目录 1、底层原理:基于mysql的bin log日志实现的:把自己伪装成slave2、bin log 日志有三种模式:2.1、statement模式:2.2、row模式:2.3、mixed模式: 3、maxwell只支持 row 模式:4、maxwell介…