【论文笔记】Prefix-Tuning: Optimizing Continuous Prompts for Generation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Prefix-Tuning: Optimizing Continuous Prompts for Generation
作者: Xiang Lisa Li, Percy Liang
发表: ACL 2021
arXiv: https://arxiv.org/abs/2101.00190

基本信息

摘要

微调是利用大型预训练语言模型进行下游任务的事实上的方法。

然而,微调会修改所有语言模型参数,因此需要为每个任务存储一个完整副本。

在本文中,我们提出了Prefix-tuning,这是一种轻量级的自然语言生成任务微调替代方案,它保持语言模型参数冻结,并优化一系列连续的任务特定向量,我们称之为Prefix。

Prefix-tuning从语言模型的提示中汲取灵感,允许后续标记将此Prefix视为“虚拟token”。

我们将Prefix-tuning应用于GPT-2进行表格到文本生成,以及应用于BART进行摘要。

我们表明,通过仅修改0.1%的参数,Prefix-tuning在全数据设置中获得了可比的性能,在低数据设置中优于微调,并且更好地推广到训练期间未见过的主题示例。

Fine-tuning (top) updates all LM parameters (the red Transformer box) and requires storing a full model copy for each task

全量微调(上方)更新所有LM参数(红色Transformer框)并需要为每个任务存储完整模型副本。我们提出Prefix-tuning(下方),冻结LM参数,仅优化Prefix(红色Prefix块)

Prefix-Tuning

Prefix-Tuning

实验

Metrics (higher is better, except for TER) for table-to-text generation on E2E (left), WebNLG (middle) and DART (right)

性能指标(除TER外,数值越高越好)用于E2E(左侧)、WebNLG(中间)和DART(右侧)的表格到文本生成。

(Left) qualitative examples in lowdata settings. (Right) prefix-tuning (orange) outperforms fine-tuning (blue) in low-data regimes in addition to requiring many fewer parameters.

(左)低数据环境中的定性示例。(右)前缀调整(橙色)在低数据机制中优于微调(蓝色),并且需要更少的参数。

Performance of methods on the XSUM summarization dataset

XSUM摘要数据集上方法的性能。

Extrapolation performance on XSUM

XSUM上的外推性能。

Prefix length vs. performance on summerization (left) and table-to-text (right)

XSUM上的外推性能。前缀长度与摘要(左)和表格到文本(右)的性能对比。

Intrinsic evaluation of Embedding-only and Infixing

内嵌式和插入式的内在评估。

Initializing the prefix with activations of real words significantly outperforms random initialization, in low-data settings

初始化前缀时,使用真实单词的激活效果显著优于随机初始化,尤其是在低数据集环境下。

Data efficiency curves: percentage of training set vs. performance on table-to-text (E2E)

数据效率曲线:训练集百分比与表格到文本(端到端)性能对比。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/11445.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

大数据机器学习算法与计算机视觉应用04:多项式

The Algorithm Magic of Polynomial PolynomialsThe Root of PolynomialA Delete ChannelPolynomials for Finding Maximum Matchings Polynomials 多项式 一个 d d d 次多项式可以用一个 d 1 d1 d1 元组 c i {c_i} ci​ 表达。在这种情况下,两个多项式相加的…

万字长文解读深度学习——生成对抗网络GAN

🌺历史文章列表🌺 深度学习——优化算法、激活函数、归一化、正则化深度学习——权重初始化、评估指标、梯度消失和梯度爆炸深度学习——前向传播与反向传播、神经网络(前馈神经网络与反馈神经网络)、常见算法概要汇总万字长文解读…

万字长文解读深度学习——训练(DeepSpeed、Accelerate)、优化(蒸馏、剪枝、量化)、部署细节

🌺历史文章列表🌺 深度学习——优化算法、激活函数、归一化、正则化深度学习——权重初始化、评估指标、梯度消失和梯度爆炸深度学习——前向传播与反向传播、神经网络(前馈神经网络与反馈神经网络)、常见算法概要汇总万字长文解读…

简易入手《SOM神经网络》的本质与原理

原创文章,转载请说明来自《老饼讲解神经网络》:www.bbbdata.com 关于《老饼讲解神经网络》: 本网结构化讲解神经网络的知识,原理和代码。 重现matlab神经网络工具箱的算法,是学习神经网络的好助手。 目录 一、入门原理解说 01.…

Python爬虫快速获取JD商品详情:代码示例与技巧解析

在当今这个信息爆炸的时代,数据成为了一种宝贵的资源。对于电商行业来说,获取商品详情信息是进行市场分析、价格比较、库存管理等重要环节的基础。本文将通过一个Python爬虫示例,展示如何快速获取(JD)商品的详情信息。…

大数据-218 Prometheus 插件 exporter 与 pushgateway 配置使用 监控服务 使用场景

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

【数字图像处理+MATLAB】将图像转换为二值图像(Binary Image):使用 imbinarize 函数进行二值化运算(Binarize)

引言 二值图像是一种特殊类型的数字图像,其中每个像素只有两种可能的强度值或颜色值。这两种值通常表示为黑色和白色,或者0和1。 二值化是一个常见的图像处理步骤,它将灰度或彩色图像转换为二值图像。在二值化过程中,会设定一个…

智能电销机器人的操作流程

对于电销行业的人来说,有了智能电销机器人,简直是太省心了! 智能外呼机器人,是一款基于人工智能语音外呼系统, 它可以代替人工自动拨打电话,自动筛选客户,自动推送意向客户到你的微信上 &#x…

CSDN做样板,教我们如何为新网站引流

CSDN为我们做了个很好的例子,详细请看下图 亮点分析: 1. 未采用硬广在网站上进行引流。减少了给用户在直觉上的造成的反感; 2. 在GitHub的转跳页面中,植入额外的关联网站链接。虽然对用户解决问题没啥鸟用,但是人家能…

电脑局域网内让其他电脑通过IP访问配置

依次点击桌面左下角“开始菜单”>“所有应用”>“Windows系统”>“控制面板”,如图所示 在控制面板界面,选择“查看方式”为“大图标”,然后点击打开window防火墙,如图所示 然后点击“高级设置”,如图所示 在…

网络安全——下载并在kali虚拟机上启动Cobalt Strike

目录 一、下载 二、上传文件到kali虚拟机 三、启动服务端 四、启动客户端 一、下载 CobaltStrike4.8汉化版带插件-CSDN博客 下载并解压后 二、上传文件到kali虚拟机 1、打开并运行kali虚拟机,查看kali的ip地址 2、打开xshell,新建连接,连…

[Win11]集成化综合漏洞扫描系统[更新]

前言 之前是为了方便外包仔在客户现场漏扫所以才集成的这个系统 优点:倒腾一下格式可以直接在客户的Vmware ESXI上面上面部署,同时个人版Vmware也可以拿来直接用。 由Linux版本改为了Windows版(有很多不会用) 因为前两个更新的很频繁,所以…

【SSL-RL】自监督强化学习:随机潜在演员评论家 (SLAC)算法

📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅…

详解MySQL安装

目录 Ubantu 1. 使⽤apt安装MySQL 2.查看MySQL状态 3. MySQL 安装安全设置 4.设置密码 卸载MySQL Centos 1. 确认当前的系统版本 2.下载MySQL源 3.安装MySQL 4.启动mysqld 5.查看MySQL状态 6.设置开机自启动 7.查看MySQL密码,并登录 8.修改密码 Ubant…

【MATLAB源码-第213期】基于matlab的16QAM调制解调系统软硬判决对比仿真,输出误码率曲线对比图。

操作环境: MATLAB 2022a 1、算法描述 一、16QAM调制原理 在16QAM(16 Quadrature Amplitude Modulation)调制中,一个符号表示4个比特的数据。这种调制方式结合了幅度调制和相位调制,能够在相同的频谱资源下传输更多的…

Renesas R7FA8D1BH (Cortex®-M85) Data Flash程序功能实现

目录 概述 1 Data Flash空间 2 FSP配置参数 3 源代码介绍 3.1 源代码 3.2 中断函数 3.3 源代码文件 4 测试 4.1 测试实现 4.2 测试 概述 本文主要介绍使用FSP提供的库函数操作Renesas R7FA8D1BH (Cortex-M85) Data Flash的方法,笔者使用FSP配置参数&#x…

计算机组成原理知识点汇总,零基础入门到精通,收藏这篇就够了

计算机发展历程 计算机硬件的发展 计算机的四代变化 1946年世界上第一台电子数字计算机(Electronic Numerical Integrator And Computer, ENIAC) 1)第一代计算机(1946-1957)电子管时代。特点:逻辑元件采…

动态规划——01背包问题

目录 零、背包问题 一、01背包 二、分割等和子集 三、目标和 四、最后一块石头的重量II 零、背包问题 背包问题(Knapsack problem)是一种组合优化的NP完全问题。 问题可以描述为:给定一组物品,每种物品都有自己的重量和价格,在限定的总…

30.2 不得不谈的lsm:分层结构和lsm数据结构

本节重点介绍 : LSM树核心特点LSM树的核心结构 MemTableImmutable MemTableSSTable LSM树的Compact策略 size-tiered 策略leveled策略 LSM树(Log-Structured-Merge-Tree) LSM树的名字往往会给初识者一个错误的印象,事实上,LSM树并不像B树、红黑树一样…

宏观经济学笔记

【拯救者】宏观经济学速成 国民生产总值GNP: GNP 衡量一国(地区)成员在一定时期内运用生产要素所生产的全部最终产品和服务的市场价值。凡是本国国民所 创造的收入,不管生产要素是否在国内,都计入本国GNP中。 GDP本国居民在本国创造的价值外国居民在本国…