【深度学习】— 多层感知机介绍、 隐藏层、从线性到非线性、线性模型的局限性

【深度学习】— 多层感知机介绍

  • 4.1 多层感知机
    • 4.1.1 隐藏层
      • 线性模型的局限性
      • 引入隐藏层
  • 4.2 从线性到非线性
      • 线性组合的局限性
      • 引入非线性
      • 堆叠更多隐藏层

4.1 多层感知机

在第 3 节中,我们介绍了 softmax 回归,并实现了其从零开始的实现和基于高级 API 的实现,训练了分类器来识别 10 类服装图像。在此过程中,我们学习了如何处理数据、将输出转换为概率分布、并应用适当的损失函数来最小化损失。现在,我们将深入探索深度神经网络,这是本书的核心模型之一。

4.1.1 隐藏层

在 3.1.1 节中,我们介绍了仿射变换,它是一种带有偏置项的线性变换。回想一下 softmax 回归的模型架构,它通过单个仿射变换将输入直接映射到输出,再进行 softmax 操作。如果标签确实与输入相关,这种方法是足够的。但仿射变换的线性假设过于强烈。

线性模型的局限性

线性模型假设输入特征与输出之间的关系是单调的,例如收入增加会增加偿还贷款的概率,但这种关系不是线性的。处理这个问题的一种方法是对数据进行预处理,比如使用收入的对数作为特征。

然而,对于某些问题,线性模型的假设会完全失败。例如,分类图像中的猫和狗时,某个像素的强度并不能单独决定类别。图像的像素需要依赖上下文,像素之间的复杂交互使得线性模型难以处理。

引入隐藏层

为了解决线性模型的局限性,我们可以在网络中加入隐藏层,使其能够处理更复杂的函数关系。最简单的方法是堆叠多个全连接层,每一层的输出作为下一层的输入,最终生成输出。这种架构称为多层感知机(multilayer perceptron,MLP)。

下图展示了一个单隐藏层的多层感知机:
图4.1.1: 一个单隐藏层的多层感知机,具有5个隐藏单元
图4.1.1: 一个单隐藏层的多层感知机,具有5个隐藏单元

这个 MLP 有 4 个输入,3 个输出,隐藏层有 5 个隐藏单元。输入层不涉及计算,网络的计算只发生在隐藏层和输出层。这种网络共有 2 层,每层都是全连接的,每个输入都会影响隐藏层中的每个神经元,而隐藏层中的每个神经元又会影响输出层中的每个神经元。

然而,如 3.4.3 节所述,具有全连接层的 MLP 可能有大量参数,这会带来高计算成本。即使不改变输入或输出的大小,也需要在参数节约和模型效果之间进行权衡。

4.2 从线性到非线性

与之前的章节类似,我们使用矩阵 X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} XRn×d 表示包含 n n n 个样本的小批量数据,其中每个样本有 d d d 个输入特征。对于具有 h h h 个隐藏单元的单隐藏层多层感知机(MLP),隐藏层的输出可以用 H ∈ R n × h \mathbf{H} \in \mathbb{R}^{n \times h} HRn×h 表示,称为隐藏表示(hidden representations)。隐藏层的权重和偏置分别为 W ( 1 ) ∈ R d × h \mathbf{W}^{(1)} \in \mathbb{R}^{d \times h} W(1)Rd×h b ( 1 ) ∈ R 1 × h \mathbf{b}^{(1)} \in \mathbb{R}^{1 \times h} b(1)R1×h,输出层的权重和偏置分别为 W ( 2 ) ∈ R h × q \mathbf{W}^{(2)} \in \mathbb{R}^{h \times q} W(2)Rh×q b ( 2 ) ∈ R 1 × q \mathbf{b}^{(2)} \in \mathbb{R}^{1 \times q} b(2)R1×q

单隐藏层多层感知机的输出 O ∈ R n × q \mathbf{O} \in \mathbb{R}^{n \times q} ORn×q 的计算如下:

在这里插入图片描述

线性组合的局限性

引入隐藏层后,模型需要跟踪和更新更多的参数。但这种设置并没有带来好处。原因在于隐藏单元是输入的仿射变换,而输出层也是对隐藏层的仿射变换。仿射变换的仿射变换仍然是仿射变换,这与原先的线性模型没有本质区别。

我们可以证明:对于任意权重值,可以将隐藏层合并为一个等价的单层模型,具有参数 W = W ( 1 ) W ( 2 ) \mathbf{W} = \mathbf{W}^{(1)}\mathbf{W}^{(2)} W=W(1)W(2) 和偏置 b = b ( 1 ) W ( 2 ) + b ( 2 ) \mathbf{b} = \mathbf{b}^{(1)}\mathbf{W}^{(2)} + \mathbf{b}^{(2)} b=b(1)W(2)+b(2),公式为:

在这里插入图片描述

引入非线性

为了让多层感知机的架构真正有效,我们需要在每个隐藏单元的仿射变换之后应用非线性激活函数(activation function) σ \sigma σ。激活函数的输出称为活性值(activations)。有了激活函数后,多层感知机就不再是简单的线性模型:

在这里插入图片描述

激活函数 σ \sigma σ 逐行作用于其输入,并且通常按元素操作,即它可以独立地计算每个活性值,无需查看其他隐藏单元的值。这样,非线性变换可以增强模型的表达能力。

堆叠更多隐藏层

为了构建更强大的模型,我们可以继续堆叠更多的隐藏层。例如:

H ( 1 ) = σ 1 ( X W ( 1 ) + b ( 1 ) ) , \mathbf{H}^{(1)} = \sigma_1(\mathbf{X}\mathbf{W}^{(1)} + \mathbf{b}^{(1)}), H(1)=σ1(XW(1)+b(1)),
H ( 2 ) = σ 2 ( H ( 1 ) W ( 2 ) + b ( 2 ) ) , \mathbf{H}^{(2)} = \sigma_2(\mathbf{H}^{(1)}\mathbf{W}^{(2)} + \mathbf{b}^{(2)}), H(2)=σ2(H(1)W(2)+b(2)),

每一层都可以增强模型的表达能力,使其能够捕捉到更复杂的函数关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1555280.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

MFC多媒体定时器实例(源码下载)

用MFC多媒体定时器做一个每1秒钟加一次的计时器,点开始计时按钮开始计时,点关闭计时按钮关闭计时。 1、在库文件Med_timeDlg.h文件中添加代码 class CMed_timeDlg : public CDialog { // Construction public:CMed_timeDlg(CWnd* pParent NULL); // st…

EEPROM读写实验——FPGA学习笔记18

一、EEPROM简介 Electrically Erasable Progammable Read Only Memory:是指带电可擦可编程只读存储器,是一种常用的非易失性存储器(掉电数据不丢失) EEPROM发展历史 我们这次实验所用的AT24C64存储容量为64Kbit,内部分成256页&am…

成都睿明智科技有限公司真实可靠吗?

在这个日新月异的电商时代,抖音作为短视频与直播电商的佼佼者,正以前所未有的速度重塑着消费者的购物习惯。而在这片充满机遇与挑战的蓝海中,成都睿明智科技有限公司以其独到的眼光和专业的服务,成为了众多商家信赖的合作伙伴。今…

《python语言程序设计》2018版第8章19题几何Rectangle2D类(中)-同志们我要起飞了

前言 昨天的原始绘制两个矩形的代码段draw_rec2原始draw_rec2运行结果我们不是上面往右转90.我怎么往左转90不对吗??? ☺️结果利用已建立完的Rectangle2D类来实现Rectangle2D类的代码可以找上集看,今天是锻炼的一天好几个倒立体式解锁了.祝大家愉快 经过昨天晚上的努力我终…

97. UE5 GAS RPG 实现闪电链技能(二)

书接上回,如果没有查看上一篇文章的同学推荐先看上一章,我们接着实现闪电链技能。 在上一章最后,我们实现了闪电链的第一条链,能够正确显示特效,接下来,我们先实现它的音效和一些bug修复。 我们在多端网络里…

cnn突破四(生成卷积核与固定核对比)

cnn突破三中生成四个卷积核,训练6万次,91分,再训练6万次,95分,不是很满意,但又找不到问题点,所以就想了个办法,使用三个固定核,加上三层bpnet神经网络,看看效…

双十一狂欢派对 五款市面上获得好评的好物

一年一度的双十一购物狂欢派对即将到来,这一天不仅是广大消费者的福利日,也是各大品牌展示实力的战场。随着市场的不断发展与消费者需求的多样化,双十一已经不仅仅是降价促销的代名词,更是品质与创新的竞技场。在琳琅满目的商品中…

产品经理产出的原型设计 - 需求文档应该怎么制作?

需求文档,产品经理最终产出的文档,也是产品设计最终的表述形式。本次分享呢,就是介绍如何写好一份需求文档。 所有元件均可复用,可作为管理端原型设计模板,按照实际项目需求进行功能拓展。有需要的话可分享源文件。 …

ChatGPT Canvas:交互式对话编辑器

自两年前 ChatGPT 发布以来,主流 AI 均以对话形式进行交互。传统的对话式界面可以直观看到反馈结果,但在需要深度编辑和协作的项目中就略显局限。为了解决此问题,几个月前 Claude 就发布过 Artifacts 功能,用来拓展原有对话。而现…

django华业社区电子政务管理系统-计算机毕业设计源码33448

目录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5本章小结 3 系统总体设…

【Java】Java面试题笔试

[赠送]面试视频指导简历面试题 Java面试笔试题题库华为 java笔试面试题2014.files 就业相关java 面试题 面试题库 视频笔记 java笔试题大集合及答案 java面试书籍源码 java算法大全源码包8张图解 java.docx25个经典的Spring面试问答.docx 25个经典的Spring面试问答.docx 100家大…

【hot100-java】【删除链表的倒数第 N 个结点】

链表篇 思路: 先走一遍记录链表长度 再走到对应的点,然后删除 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { this.val val; }* ListNode…

【LLM】OpenAI o1模型和相关技术

Note OpenAI o1 模型中推理过程的工作原理 1、o1模型引入了reasoning tokens。这些token用于"思考",帮助模型分解对提示的理解,并考虑生成回应的多种方法。2、在生成推理token后,模型会产生一个可见的完成token作为答案&#xff0…

Redis:zset类型

Redis:zset类型 zset命令ZADDZCARDZCOUNTZRANGEZREVRANGEZRANGEBYSCOREZREVRANGEBYSCOREZPOPMAXBZPOPMAXZPOPMINBZPOPMINZRANKZREVRANKZSCOREZREMZREMRANGEBYRANKZREMRANGEBYSCOREZINCRBY 集合间操作ZINRERSTOREZUNIONSTORE 内部编码ziplistskiplist 在Redis中&…

【AIGC】ChatGPT提示词Prompt助力自媒体内容创作升级

博客主页: [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯高效仿写专家级文章提示词使用方法 💯CSDN博主账号分析提示词使用方法 💯自媒体爆款文案优化助手提示词使用方法 💯小结 &#x1f4af…

02基础篇:667的大题题型与应对策略

通过本节,你将学习到: 667分析题的考查方向与基本题型667分析题的两种解决策略 667分析题的三大基本题型 首先,通过回顾667科目分析题的真题(2021-2024年),我根据题目特点将其归纳为三个主要类别。这样的…

【JavaWeb】javaweb目录结构简介【转】

以上图说明: bbs目录代表一个web应用bbs目录下的html,jsp文件可以直接被浏览器访问WEB-INF目录下的资源是不能直接被浏览器访问的web.xml文件是web程序的主要配置文件所有的classes文件都放在classes目录下jar文件放在lib目录下

Linux Cent7 已安装MySQL5.7.X,再安装MYSQL8.4.2

一、 下载安装 检查Linux系统的glibc版本rpm -qa | grep glibc结果:glibc-common-2.17-260.el7_6.6.x86_64 glibc-2.17-260.el7_6.6.x86_64 glibc-headers-2.17-260.el7_6.6.x86_64 glibc-devel-2.17-260.el7_6.6.x86_64访问MySQL官网,下载对应版本数据…

华为 HCIP-Datacom H12-821 题库 (32)

🐣博客最下方微信公众号回复题库,领取题库和教学资源 🐤诚挚欢迎IT交流有兴趣的公众号回复交流群 🦘公众号会持续更新网络小知识😼 1.当一个运行 MSTP 协议的交换设备端口收到一个配置BPDU 时,会与设备保存的全局配…

CF D. Minimize the Difference

原题链接:Problem - D - Codeforces 题意:给你长度为n的数组,可以无限次的让i位置的数-1,让i1的位置的数1。问最大值-最小值的最小值是多少? 思路:可以观察出,操作的真正意义是让i位置的数减少…