翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构

  1. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一
  2. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二
  3. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
  4. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四
  5. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习五
  6. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六
    在这里插入图片描述

在本章的最后一课,我想更详细地讨论softmax函数,因为当我们探索注意力机制时,它会重新成为焦点。
在这里插入图片描述

如果你想要一串数字成为概率分布,
在这里插入图片描述

例如预测可能出现的下一个词的概率,那么这些数字中的每一个都必须在0和1之间,并且加起来等于1。
在这里插入图片描述

然而,如果你正在练习深度学习,而且你做的每一步可能看起来都像是矩阵和向量的乘法,那么你得到的结果可能不满足这个条件。
在这里插入图片描述

这些值可能是负数
在这里插入图片描述

或者远大于1,
在这里插入图片描述

加起来几乎肯定不等于1。
在这里插入图片描述

Softmax是一种标准方法,可以将任何一组数字转换为有效的分布,使得最大值非常接近1,较小的值非常接近0。
理解这一点就足够了。
在这里插入图片描述

但如果你很好奇,这里是它的工作原理:首先对每个值做指数e运算,这样你就得到一组正数,然后你对所有正数求和,
在这里插入图片描述

并用这个和去除以每个数,这样你就把它们归一化为一个加起来等于1的列表。
在这里插入图片描述

你会注意到,如果输入中的一个值明显大于其他值,那么在输出中,与该值对应的项将主导分布,在采样时几乎肯定会选择最大的输入值。
在这里插入图片描述

但这种方法比直接选择最大值更加微妙,因为当其他值也接近最大值时,它们在整体分布中也会获得重要的权重,而且随着你改变输入,一切都在连续变化。
在这里插入图片描述

在某些情况下,例如当ChatGPT使用这个分布来生成下一个词时,
在这里插入图片描述

它可以通过在指数的分母中添加一个常数t来为函数增加一些趣味性。
在这里插入图片描述

我们称之为"温度",因为它在某种程度上类似于热力学方程中温度的作用。
在这里插入图片描述

效果是,当t值较大时,较小的值会获得更多的权重,使分布略微更加均匀。
在这里插入图片描述

如果t值较小,较大的值会更加明显,在极端情况下,如果t设置为0,那么所有的权重都会集中在最大值上。

在这里插入图片描述

例如,我将使用GPT-3生成一个故事,种子文本是"从前有一个A",但我将为每个测试使用不同的温度。
温度为0意味着它总是选择最可预测的词,你得到的结果变成了一个老套的金发女孩的故事。
在这里插入图片描述

较高的温度给了它选择不太可能出现的词的机会,但这也伴随着风险。
在这种情况下,故事以一个关于韩国年轻网络艺术家的原创故事开始,但很快就变得毫无意义。
在这里插入图片描述

严格来说,API实际上并不允许你选择大于2的温度。
这个限制没有数学基础,我猜这只是一个人为的限制,以防止他们的工具产生过于荒谬的结果。
在这里插入图片描述

所以,如果你很好奇,这个动画是这样工作的:我选择了GPT-3生成概率最高的前20个tokens,这看起来是他们能给我的最多的了。
在这里插入图片描述

然后,我根据1/5的指数来调整这些概率。

在这里插入图片描述

我要向你介绍另一个技术术语,在这个上下文中,我们通常称这个函数的输出分量为概率,

在这里插入图片描述

而人们通常称输入为logits,有些人说logits,有些人说logits,我选择说logits。
在这里插入图片描述

例如,当你输入一段文本时,所有这些词向量都会流经网络,
在这里插入图片描述

并与unembedding matrix相乘。
在这里插入图片描述

机器学习专家会将这个原始的、未经归一化的输出分量称为下一个词预测的logits。

在这里插入图片描述
在这里插入图片描述

本章的主要目标是为理解注意力机制奠定基础,就像电影《The Kid》中的基本技能一样。

在这里插入图片描述

你看,如果你对词嵌入、softmax、点积如何衡量相似性
在这里插入图片描述

在这里插入图片描述

以及大多数计算看起来像是填充可调参数的矩阵乘法有深入的理解,
在这里插入图片描述

那么你应该更容易掌握注意力机制,这是现代AI浪潮中的一项关键技术。
在这里插入图片描述

在这里插入图片描述

参考

https://youtu.be/wjZofJX0v4M?si=DujTHghH5dYM3KpZ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1409787.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

用FPGA+DAC输出“心”形波

1.前言 之前在做信号处理的时候整了一下活,用FPGADAC(数模转换器),输出了一个爱心形状的波形,今天整理资料的时候偶然发现了他,现在把他分享出来。当时将DAC的输出接在示波器上显示如下图所示: …

雅思备考经验(个人向)

IELTS备考经验(个人向) 备考时长约1个月, 首考6.5(6), 虽然没考到小分6.5, 我也接受了, 过段时间再考吧. 机考or纸笔 雅思有机考也有传统的纸笔考试形式, 个人更推荐机考, 原因如下: 机考口语和笔试一般都在同一天, 而纸笔的口语和笔试一般不在同一天, 有时候可能会差一个…

工业三废数据集(工业烟粉尘排放量、工业二氧化硫排放量、工业废水排放量)2006-2021年

01、数据介绍 工业三废是指工业生产过程中排出的废气、废水和废渣 工业二氧化硫排放量指企业在燃料燃烧和生产工艺过程中排入大气的二氧化硫数量。 工业烟粉尘排放量是指企业在生产工艺过程中排放的烟尘和粉尘等颗粒物重量。 工业废水排放量是指企业在生产过程中产生的废水…

GEE必须会教程—植被覆盖度(FVC)计算(代码分享)

植被覆盖度(FVC)的计算是遥感上非常重要的一个研究领域,因事务繁忙,今天小编先带来FVC的全文代码,给大家试试,后期会出一期专栏进行代码的详细介绍: 今天福利满满,直接上代码&#…

信息技术内涵及意义

一、信息技术及其演进趋势 (一)信息技术概况概念 信息技术(Information Technology,IT)指“应用在信息加工和处理中的科学、技术与工程的训练方法与管理技巧;上述方法和技巧的应用;计算机及其…

【氮化镓】GaN器件在航天器高可靠正向转换器中应用

文章是发表在《IEEE Journal of Emerging and Selected Topics in Power Electronics》2022年10月第10卷第5期上的一篇关于GaN(氮化镓)器件在航天器高可靠性正向转换器中应用的研究。文章的作者是匹兹堡大学电气与计算机工程系的Aidan Phillips, Thomas Cook和Brandon M. Gra…

【C语言视角】数据结构之~二叉树

前言:总所周知~数据结构的二叉树对于初学者来说是一个十分难理解的知识点。接下来,请阅读本人对二叉树拙劣的理解~ 目录 1.二叉树概念及结构 和性质 二叉树的结构 二叉树的存储结构 2.二叉树顺序结构 3.二叉树链式结构的实现 二叉树层序遍历 1.二叉树…

Flask路由的使用

Flask 是一个轻量级的 Python Web 框架,其简洁的设计使得构建 Web 应用变得轻而易举。其中,路由是 Flask 中至关重要的一部分,它定义了 URL 与视图函数之间的映射关系,决定了用户请求的处理方式。在本文中,我们将深入探…

服务运营 | 精选:用药难?用药贵?运筹学与统计学视角下的药物研发与管理

作者设计了一个多阶段博弈论模型来针对罕见病的不同补贴方案,分析政府、联盟、制药商和患者之间的相互作用。 制药商补贴为 α C \alpha C αC,其中 C C C是研发成本, α ∈ [ 0 , 1 ) \alpha \in [0,1) α∈[0,1)是政府总成本的比例。患者补…

ASP.NET淘宝店主交易管理系统的设计与实现

摘 要 淘宝店主交易管理系统主要采用了ASPACCESS的B/S设计模式,通过网络之间的数据交换来实现客户、商品、交易的管理和对客户、商品、交易统计工作,从而提高淘宝店主在管理网店过程中的工作效率和质量。 系统分为基本资料模块,统计资料模…

系统调用 int 86 的过程

该图借鉴与 Linux系统调用全过程详解-高性能服务器开发,向作者致敬。

Vue 之 在当前页面的实现分页效果

目录 场景实现 场景 假设,我们现在有这么一个需求: 上述图片的空白内容是活动的,由下面的两个按钮控制上一页、下一页;我们应该可以怎么去实现? 实现 思路: 其实这个问题,我们仿照其他的UI框…

关于远程桌面与3389端口的深度解析

当我们谈论远程桌面和3389端口时,我们实际上是在探讨Windows操作系统的一个核心功能,该功能允许用户通过网络从任何地点远程控制和管理计算机。而3389端口,正是这一功能所依赖的通信端口。 一、远程桌面的工作原理 远程桌面协议(R…

AppWeb 身份验证绕过漏洞 (CVE-2018-8715)

一、docker的相关操作(默认安装了docker-compose) 在相应的文件夹位置打开终端后进行如下操作 运行此靶场 sudo docker-compose up -d 查看启动环境 sudo docker ps 关闭此靶场环境 sudo docker-compose down 二、漏洞描述 AppWeb 是一个嵌入式 Web 服…

数组克隆/复制

数组的复制/克隆 1.浅克隆2.深克隆3.使用System.ArrayCopy()方法4.使用Arrays.copyOf()方法5.使用Arrays.copyOfRange()方法6.使用Object.clone()方法 1.浅克隆 将原来数组的地址赋值给新数组,两个数组名指向了同一个数组,修改其中一个中的元素&#xff…

jvm面试题30问

什么是JVM的跨平台? 什么是JVM的语言无关性? 什么是JVM的解释执行 什么是JIT? JIT:在Java编程语言和环境中,即时编译器(JIT compiler,just-in-time compiler)是一个把Java的字节码(…

【精选文献】JAG|基于时序Sentinel-1 SAR影像小农耕作区烟草空间分布制图

目录 文章简介 01 文章摘要 02 研究背景、目标及创新点 03 研究区域与数据集 04 研究方法 05 研究结果 06 研究讨论 07 研究结论 08 文章引用 文章简介 论文名称:Mapping tobacco planting areas in smallholder farmlands using Phenological-Spatial-Te…

【自用】在ipad上安装.ipa文件

借助爱思助手在ipad上安装.ipa文件 爱思助手官网(www.i4.cn) 对于不能上架 App Store 的应用,可以使用证书签名或使用 Apple ID 签名后正常安装到设备。准备好证书或 Apple ID以及需要签名的 IPA 文件,使用爱思助手就可以快速完成…

54.HarmonyOS鸿蒙系统 App(ArkTS)tcp socket套接字网络连接

54.HarmonyOS鸿蒙系统 App(ArkTS)tcp socket套接字网络连接 import socket from ohos.net.socket; import process from ohos.process; import wifiManager from ohos.wifiManager;import common from ohos.app.ability.common;let tcp socket.constructTCPSocketInstance();…

[数据结构]———交换排序

目录 ​编辑 ​编辑 1.交换排序 第一个定义了一个名为Swap的函数 第二个三数取中 2.冒泡排序 代码解析 冒泡排序的特性总结: 3.快速排序 1. hoare版本 2. 挖坑法 代码解析 3. 前后指针版本 代码解析 1.交换排序 基本思想:所谓交换&#xff0…