[论文阅读]BERT-based Lexical Substitution

BERT-based Lexical Substitution

基于BERT的词汇替换

ACL2019

BERT-based Lexical Substitution - ACL Anthology

以前关于词汇替换的研究倾向于通过从词汇资源(例如 WordNet)中找到目标词的同义词来获得替代候选词,然后根据其上下文对候选词进行排名。这些方法有两个局限性:(1) 它们可能会忽略不是词汇资源中目标词同义词的优秀替代候选词;(2) 他们没有考虑到替换对句子的全局上下文的影响。为了解决这些问题,我们提出了一种基于 BERT 的端到端词汇替换方法,该方法可以在不使用任何注释数据或手动策划资源的情况下提出和验证替代候选者。我们的方法首先将 dropout 应用于目标词的嵌入,以部分掩盖单词,使 BERT 能够平衡考虑目标词的语义和上下文来提出替代候选词,然后根据候选词的替换对句子的全局语境化表示的影响来验证候选词。实验表明,我们的方法在提议和排序替代候选人方面都表现良好,在 LS07 和 LS14 基准测试中都取得了最先进的结果。

介绍

词汇替换旨在于不改变句子含义的情况下用替代词替换句子中的目标词,可以用于文本简化、释义生成等任务。

挑战:高精度的替换单词很困难

以前应对这一挑战的大多数方法首先通过从手动策划的词汇资源中选择同义词作为候选词来获得替代候选词,然后根据它们在上下文中的适当性对它们进行排名,或者对词汇表中的所有单词进行排名以避免使用词汇资源。例如:

  1. 基于知识的词汇替代系统:使用预定义的规则对替代候选人进行评分;
  2. 向量空间建模方法:使用基于句法上下文的分布稀疏向量表示;
  3. 替代向量方法:包含该上下文中目标词槽的潜在填充物;
  4. 单词/上下文嵌入相似性方法:使用词嵌入的相似性对替代词进行排序;
  5. 监督学习方法:使用去异国化特征对替代候选人进行排名。
图 1:(a) WordNet 和原始 BERT 无法在其 top-K 结果中提出有效的替代品,但应用目标词嵌入 dropout 使 BERT 能够提出它;(b) 不受欢迎的替代词(例如,hot、tough)往往比好的替代词(例如,powerful)更能改变句子的语境化表示。单词后面的数字是单词的上下文化向量与原始目标单词的余弦相似度;而句子后面的数字是替换前后句子的语境化表示的相似性,如方程 (2) 定义。

尽管这些方法在某些情况下效果很好,但它们有两个关键限制:(1) 它们严重依赖词法资源。虽然这些资源可以提供替代的同义词,但它们并不完美,并且它们可能会忽略一些好的候选者,如图 1(a) 所示。(2) 大多数以前的方法只衡量替换候选词在上下文中的适合度,但它们不考虑替换是否会改变句子的含义。以图 1(b) 为例,虽然 tough 可能适合上下文并且很强大,但它对句子的上下文表示的改变比 powerful 更大。因此,它不是替换中最佳的词汇。

为了解决上述问题,我们提出了一种新颖的基于 BERT 的词汇替换方法,其动机是 BERT (Devlin et al., 2018) 不仅可以预测以双向上下文为条件的掩码目标词的分布还可以测量两个句子的语境化表示的相似性。为了提出句子中目标词的替代候选者,我们引入了一种新的嵌入 dropout 机制以部分掩盖目标词并使用 BERT 来预测该位置的单词。与完全屏蔽或保留目标词相比,使用嵌入 dropout 进行部分掩码使 BERT 能够平衡地考虑目标词的语义及其上下文,有助于避免生成语义上与目标词不一致或不适合上下文的替代候选词,如图 1(a) 所示。为了验证替代候选,我们建议根据替代对句子语境化表示的影响来评估候选的适合性,这避免了选择会大大改变句子含义的替代,如图 1(b) 所示。我们在官方 LS07 和 LS14 基准测试上进行了实验。结果表明,我们的方法在提出和验证替代候选人方面都大大优于以前的方法,在两个数据集中都取得了新的最先进的结果。

方法:基于BERT的词汇替换

BERT(Bidirectional Encoder Representations from Transformers)(Devlin 等人,2018 年)是一种双向变换器编码器(Vaswani 等人,2017 年),以掩码语言建模和下一句预测任务为目标进行训练,在各种 NLP 任务中被证明是有效的。在本节中,我们将介绍如何有效利用 BERT 进行词性替换。

1.替代候选提案

由于 BERT 是通过掩盖目标词来训练的双向语言模型,因此它可以用来提出一个替代候选者来重建句子。然而,在实践中,如果我们掩盖目标词并让 BERT 预测该位置的词,BERT 很可能会生成语义上与原始目标词不同的候选词,尽管它符合上下文;另一方面,如果我们不掩盖目标词,大约 99.99% 的预测概率分布将落入原始目标词,因此从剩余的 0.01% 概率空间中选择替代候选词是不可靠的,如图 1 所示。

为了在两种极端情况之间进行权衡,我们建议应用嵌入 dropout 来部分掩盖目标词。它强制目标字的 input embedding 的一部分维度为零,如图 2 所示。这样,BERT 只能从目标词接收模糊的信息,因此必须考虑其他上下文来重建句子,这提高了替代候选提案,如图 1(a) 所示。

上面这个公式,对数中的分母表示所有给定第k个位置被dropout掩码后的句子x~,得到不是原始句子x的概率;分子是预测第k个位置上经过BERT还原后得到的不是原始单词而是给定单词xk'的概率,这个分数把预测概率归一化,再取对数,则预测概率越大的单词计算得到的结果越接近0(他的这个数学建模的思想挺好的,可以参考)

2.替代候选验证

并非所有预测的单词都是合适的,候选词可能会改变句子的原意。文中通过比较替换前后句子的语境化表示来评估候选人的适合性,进而得到验证。

这样,我们可以使用 s v (x k |x, k) 来衡量 x k → x ’k 的替换对句子语义的影响。图 1(b) 中 hot 和 tough 等不受欢迎的替代候选人将获得较低的 s v,从而无法获得排名,而像 powerful 这样的合适候选人将获得较高的 s v,因此会成为首选。
在实践中,我们同时考虑方程 (1) 中的提案分数 s p 和方程 (2) 中的验证分数 s v 来对候选人的总体推荐:


其中 α 是提案值的权重。

像这样的词替换方案,不管应用在机器翻译还是文本释义上都会比较合适,就比如说降重操作,就是搞同义词替换,不改变文本原意。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/3952.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【Java SE 】特殊报错机制 ---> 异常 !

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 目录 1. 异常概念 1.1 算术异常 1.2. 空指针异常 1.3 数组越界异常 2. 异常的分类 2.1 编译时产生的异常 2.2 运行时产生的异常 3. 如何处理异常 3.1 异常…

使用kettle同步数据流程

使用kettle同步数据流程 一.Kettle软件安装(解压即可使用) 1.windows安装解压 pdi-ce-8.2.0.0-342.zip,点Spoon.bat启动kettle 2.Linux安装 把data-integration目录所有文件上传到服务器 二.安装数据库驱动把需要的…

两级运放的电路版图设计

电路版图文件PDK,88出,点击此处获取,24h秒发 PDF文件免费,已绑定 《集成电路版图设计课程》 课程设计(大作业)报告 2023 - 2024 学年第 1 学期 题 目 CMOS运算放大器的电路设计 专 业 …

Windows不支持配置NFS?还有什么注意事项?

我们前面介绍了如果配置Windows Server的NFS共享(Windows Server2012 R2搭建NFS服务器),也介绍了Linux如何配置NFS共享(CentOS 7搭建NFS服务器)。但是,我最近发现一个问题,那就是桌面版的Window…

解锁测试能力密码:直击三问,成就卓越测试

在测试人眼中真的是“万物皆可测”,不管是物体(铅笔,桌子)、终端(手机,电脑)、软件代码、硬件设备等等。那是因为在底层逻辑中,我们搞清楚了其核心本质,总结起来有三个方…

AutoCAD2021

链接: https://pan.baidu.com/s/1GG93ZFRfV_30xTWtDiv3Ew 提取码: dx8i 简介:一键安装,已经破解。支持W7-w10-w11系统64位

伍光和《自然地理学》电子书(含考研真题、课后习题、章节题库、模拟试题)

《自然地理学》(第4版)由伍光和、王乃昂、胡双熙、田连恕、张建明合著,于2018年11月出版。作为普通高等教育“十一五”国家级规划教材,本书不仅适用于高校地球科学各专业的基础课程,还可供环境、生态等有关科研、教学人…

奥数与C++小学四年级(第十七题 弹跳板)

参考程序代码&#xff1a; #include <iostream> bool visited[101] {false}; // 标记1-100是否被访问过int main() {int step 1; // 初始步数int i 2; // 步长visited[1] true; // 标记位置1已访问while (true) {step i; // 跳到下一个位置if (step >…

206面试题(28~46)

206道Java面试题&#xff08;28~46&#xff09; 28.Array和ArrayList有什么区别&#xff1f; 一、基本性质 Array(数组) Array是一种固定大小的数据结构。 用于存储多个相同类型的元素。 创建时需要指定数组的大小&#xff0c;且长度定义完后不能改变。 ArrayList(动态数组)…

“大跳水”的全新奥迪A3,精准狙击年轻人的心

文/王俣祺 导语&#xff1a;随着传统豪华品牌在国内市场的全面崩盘&#xff0c;奥迪再一次坐不住了。这次&#xff0c;奥迪“割肉”的目标瞄准了被称为“年轻人第一台豪车”的奥迪A3&#xff0c;这款车问世以来&#xff0c;就凭借出色的性能与品质收获了一大批年轻粉丝。如今&a…

网站建设公司怎么选?网站制作公司怎么选才不会出错?

寻找适合靠谱的网站设计公司&#xff0c;不要盲目选广告推最多的几家&#xff0c;毕竟要实现自身品牌营销&#xff0c;还是需要多方面考量。以下几个方面可以作为选择的参考&#xff1a; 1. 专业能力如何&#xff1f; 一个公司的专业能力&#xff0c;决定了最后网站设计的成果…

【IEEE出版 | EI稳定检索】2024智能机器人与自动控制国际学术会议 (IRAC 2024,11月29-12月1日)

2024智能机器人与自动控制国际学术会议 &#xff08;IRAC 2024&#xff09; 2024 International Conference on Intelligent Robotics and Automatic Control 官方信息 会议官网&#xff1a;www.icirac.org 2024 International Conference on Intelligent Robotics and Autom…

【力扣热题100】[Java版] 刷题笔记-104. 二叉树的最大深度

题目&#xff1a;104. 二叉树的最大深度 给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 解题思路 有关二叉树的题&#xff0c;最先想到的就是利用递归方法遍历。 解题过程 分别计算左右子树的最大…

【OJ题解】C++实现字符串大数相乘:无BigInteger库的字符串乘积解决方案

&#x1f984;个人主页: 起名字真南 &#x1f984;个人专栏:【数据结构初阶】 【C语言】 【C】 【OJ题解】 目录 1. 引言2. 题目分析示例&#xff1a; 3. 解题思路4. C代码实现5. 代码详解6. 时间和空间复杂度分析7. 边界情况分析8. 总结 1. 引言 在开发中&#xff0c;有时我们…

Rust闭包(能够捕获周围作用域变量的匿名函数,广泛应用于迭代、过滤和映射)闭包变量三种捕获方式:通过引用(不可变引用)、通过可变引用和通过值(取得所有权)

文章目录 Rust 闭包详解闭包的定义与语法基本语法 闭包的特性- 环境捕获&#xff08;三种捕获方式&#xff1a;通过引用、通过可变引用和通过值&#xff08;取得所有权&#xff09;&#xff09;示例代码 - 内存安全与生命周期示例代码1 示例代码2&#xff1a;闭包所有权转移示例…

【xxl-job总结】

文章目录 xxl-job介绍系统组成为什么不使用quartz过期处理策略避免任务重复执行源码分析 xxl-job介绍 XXL-JOB是一个轻量级分布式任务调度平台&#xff0c;它的核心设计目标是开发迅速、学习简单、轻量级、易扩展。 1.简单易用&#xff1a;XXL-JOB提供了友好的Web界面&#xf…

19. 架构重要需求

文章目录 第19章 架构重要需求19.1 从需求文档中收集架构重要需求&#xff08;ASRs&#xff09;不要抱太大希望从需求文档中找出架构重要需求 19.2 通过访谈利益相关者收集架构重要需求19.3 通过理解业务目标收集架构重要需求19.4 在效用树中捕获架构重要需求19.5 变化总会发生…

简易CPU设计入门:译码模块(一)

项目代码下载 还是请大家首先准备好本项目所用的源代码。如果已经下载了&#xff0c;那就不用重复下载了。如果还没有下载&#xff0c;那么&#xff0c;请大家点击下方链接&#xff0c;来了解下载本项目的CPU源代码的方法。 下载本项目代码 准备好了项目源代码以后&#xff…

Hunyuan-Large:腾讯发布业界参数规模最大的开源 MoE 模型,支持超长文本输入,超越主流开源模型

❤️ 如果你也关注大模型与 AI 的发展现状&#xff0c;且对大模型应用开发非常感兴趣&#xff0c;我会快速跟你分享最新的感兴趣的 AI 应用和热点信息&#xff0c;也会不定期分享自己的想法和开源实例&#xff0c;欢迎关注我哦&#xff01; &#x1f966; 微信公众号&#xff…

Linux基础

1. openssl passwd -1 密码 128位 openssl passwd -5 密码&#xff08;更安全&#xff09;256位 openssl是开源的加密工具包&#xff0c;有各种加密&#xff0c;解密等功能 2. 文件管理 创建空文件 touch newfile 删除文件 rm new file 新建日录 mkdir newdir 删除…