李宏毅机器学习第一课(结尾附作业模型详细分析)

机器学习就是让机器找一个函数f,这个函数f是通过计算机找出来的

如果参数少的话,我们可以使用暴搜,但是如果参数特别多的话,我们就要使用Gradient Descent

Regression (输出的是一个scalar数值)

Classification (在设定好的选项,两个或者多个,中做出选择)

Structured Learning (画一张图,写一段文字,让机器学会创造)

机器人寻找一个函数式子有三个步骤

一:function with unknow parameters

我们需要基于domain knowledge 来猜测确定一个函式,这个函数就是model

feature x 是我们已经知道的数据 , weight w、 bias b 是未知的参数 , label 是一个正确的数值

hyper parameters是我们在机器学习的时候,我们自己设置的参数

y = b + wx

二:Difine Loss

本质上也是一个function ,输入是上面b和w,输出的值代表输入的b和w好还是不好

label是真实的数据

我们根据y = b + wx来预测数据,和label之间的差距取一个绝对值

然后吧每一组数据都计算y^ ,然后加总求一下平均值

97aeecd1cf5c40be87a0c7e747d961fe.png

e = |y - y^| 如果用这种方式来计算的话, L is mean absolute err (MAE)

044cca21d75a44929e4439c2904847a9.png

具体用哪一种函数来衡量这一组参数的好坏,取决于对问题的本质的理解

Error Surface 是等高线图,是尝试了多个w和b之后的结果

三:Optimization

是找一个最好的w和b,叫做w*和b* ,用到的方法是Gradient Descent,

435523ff130242c5b09eef6be2c34d20.png

假设现在只有一个参数

22c91689f1fe48808959ff8056ef1b2e.png

假设现在有两个参数,和之前一个参数其实一样的

4d58029418c649449dff577d06a2f8e5.png

上面三个步骤,是在做机器学习的训练

我们之后还需要做预测

训练的数据和预测的数据做一个对比,发现后者的loss比前者的loss大,这说明,我们在预测已经存在的数据的效果比较好,但是预测未知的数据效果比较差

我们需要修改模型,对模型的修改,往往来自于对问题本质的理解,我们修改了模型,让分别考虑前七天,前28天,前56天等等

15e27d7d22354b8abd4b8d7a1a402b1e.png

 

model bias

上面的所有模型都是Linear model ,也许Linear模型过于简单,我们可以修改w,修改b,但是模型始终都是一条直线,我们始终无法实现红色的这种模型

c22c054994084982bdd36a0aeb86407d.png

Linear models本质是一条线性直线,但是很多问题不是Linear models,Linear models 有很大的限制,来自于model的限制叫做model bias

piecewise Linear Curves

我们可能是想要piecewise Linear Curves (分段线性曲线:一种由多个线性部分组成的曲线,每个部分都是线性的,但整体上可能不是线性的),我们其实可以通过下面的方式达到这种效果,我们可以是所有一系列 下面蓝色的function

6da9eea75c2e45c1ba7d63d33e6218dd.png

再也许piecewise Linear 也无法满足我们模型的需求了,我们想要的是曲线,如下图所示

ba6cfbfa6cfd41fa94f312d84df95eb6.png

piecewise Linear Curves 足够多,可以逼近曲线,此时所有的 piecewise Linear 虽然是直线,但是已经达到了曲线的效果

那这个蓝色的function (Hard Sigmod)是什么呢? 如何把蓝色的function写出来呢?

其实就是用sigmoid函数来逼近蓝色的function

ec71e0b6b90944c5bcc377c19452d212.png

我们需要各种各样的蓝色的function,那我们可以通过调整b和w来实现

64c0fd4ce7a54bb2af3d5920ed6a8540.png

所以,我们需要一个红色的function,就可以通过下面的方式来实现,同时我们既然实现了红色的function,我们可以实现和红色类似的曲线(Continuous)

d4f20080c53842dc8af669554b1410ad.png

所以,我们解决了model bias的问题

2a1c62c957b142ff9e191fa13cfa753c.png

如何计算这个式子呢?

d5464df4bcf340458affa33d6dd8cb0f.png

用线性代数的表示方式表示如下:

输出=w1​⋅x1​+w2​⋅x2​+…+w8​⋅x8​+偏置项

b0c7c7229315406ab61990dabfd0d4a8.png

最后总的表示一下

9095a4ae47794bb68553a7f453611b83.png

这里面,除了x是feature,其他都是未知的参数,我们使用线性代数的方式来统一表示

f13a8b176b8a4d489909391d49720974.png

模型定义解决了,接下来是第二步定义Loss function,跟之前是一模一样的

55101e00f09f4c2582a0b480d968394c.png

第三部optimization ,也是一模一样

da07221500d944bfad722b7033ca38ab.png

d79c75bd6e7d420b9219e80de1fb508d.png

Batch 、 Epoch

我们在之前计算loss的时候,是把所有的data都参与进去,但是现在的话,我们是把data分成 L 笔,每一笔就是一个batch ,每个batch都计算loss,每次根据计算出来的loss然后对当前参数进行微分,一直把所有的batch完成,这就是一个epoch,一个epoch中会update N / B = L次参数

44bacbc439624b2598038b481e6513a2.png

我们刚才是使用sigmoid函数来模拟蓝色的function ( hard sigmoid ),多个hard sigmoid 叠加, 从而实现红色的function

但是 这个蓝色的function ,也可以不用sigmoid函数模拟,我们可以使用 两个Rectified Linear来实现蓝色的function

c1ec5c32ed9c4c11b0046af595cb9b3e.png

92fbb5a774b545569f14eea18f8e23c2.png

Activation Function : Relu和sigmoid

ReLU和sigmoid那个好呢? 后续会讲解

我们使用1000个Relu函数之后,就可以实现很复杂的函数,效果会有改善

Deep Learning

深度学习,我们计算出来的a,我们再把a重新放入函数中,再计算很多次

a782da4425884509b16ddf83df908b94.png

Overfitting 

Better on training data, worse on unseen data

 

作业一的模型

self.layers = nn.Sequential(# 这个地方函数都是有参数的, 只是没有写出来# y[0] = weight[0][0] * x[0] + weight[0][1] * x[1] + ... + weight[0][input_dim - 1] * x[input_dim - 1] + bias[0]# y[1] = weight[1][0] * x[0] + weight[1][1] * x[1] + ... + weight[1][input_dim - 1] * x[input_dim - 1] + bias[1]# ...# y[15] = weight[15][0] * x[0] + weight[15][1] * x[1] + ... + weight[15][input_dim - 1] * x[input_dim - 1] + bias[15]# 类似于视频中YouTube观看人数预测,如果考虑七天,input_dim就是7,如果考虑28天,input_dim就是28nn.Linear(input_dim, 16),  # 这个是一个线性层# 对于每个输出维度y[i](其中 i是从0到15的索引),ReLU激活函数将执行以下操作:# y[i] = max(0, y[i])nn.ReLU(),  # 激活函数,我们可以对上面的结果进行Relu操作nn.Linear(16, 8),nn.ReLU(),# 具体地,线性映射通过一个权重矩阵和一个偏置项来实现,将每个输入维度与相应的权重相乘,然后将结果相加,再加上偏置项。nn.Linear(8, 1)  # 因为我们最终是要预测一个数字结果,所以这个地方要是一维的# 视频上面预测Youtube人数,就是nn.Linear(3,1),视频上面直接就是输出的一维结果)

nn.Linear(input_dim, 16),为什么要输出16维度的结果?

input_dim就对应视频中的考虑7天,28天,56天等等

16 代表输出的是一个16维度的结果  ,这个就是我们自己设置了

Linear 里面有很多的weight参数和一个bias参数,这些我们看不到,但是pytroch帮我们做好了,机器学习就是在找这些参数。

chatgpt回复:是的,你可以将模型中的16更改为32,以增加隐藏层的维度。这将增加模型的复杂性,并有可能提高其性能,尤其是在处理更复杂的数据或任务时。但请注意,增加隐藏层维度也会增加模型的计算复杂度,因此你可能需要更多的数据来训练模型,以避免过拟合。

你可以像这样更改模型的隐藏层维度:

self.layers = nn.Sequential( nn.Linear(input_dim, 32), # 将16更改为32 nn.ReLU(), nn.Linear(32, 8), # 这里也需要相应地更改输入和输出维度 nn.ReLU(),nn.Linear(8, 1))

记得根据你的数据和任务来调整模型的参数,以获得最佳性能。如果你的数据集较小,你还可以考虑使用正则化技巧来防止过拟合。

 

隐藏层的维度通常是根据你的具体问题和数据来确定的,而不是一个固定的数值。选择隐藏层维度通常是深度学习模型设计中的一个超参数,需要进行调优。

 

 

Relu函数起到了什么作用?

后面就一个ReLU函数,引入非线性,这一个Relu函数,能作用于Linear的多个输出,对每个维度的输出都做sigmoid,也就是说,每个维度上面都会进行非线形的操作。738644842de44534b2d18820fa86b512.png

 

nn.Linear(16, 8)  和 nn.ReLU()的作用?

深度学习,deep learning ,能让效果变好,为什么?不要问,反正能变好

nn.Linear(8, 1) 的作用?

我们最后是要输出一个发病率数字,所以需要把最后的多个维度的输入变成一个维度的输出

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/144614.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

QT配置MySQL数据库 ninja: build stopped: subcommand failed

QT配置MySQL数据库 我当前的软件版本:QT Creator 10.0.2 (community),MingW 6.4.3 (QT6),MySQL 8.0。 MySQL不配置支持的数据库有QList("QSQLITE", "QODBC", "QPSQL"),这个时候是不支持MYSQL数据…

数据集笔记:2015上海地铁一卡通数据

数据地址:上海地铁数据_免费高速下载|百度网盘-分享无限制 (baidu.com) 数据介绍 上海2015年几天的地铁一卡通出入站信息 卡号、交易日期、交易时间、公交线路/地铁站点中文名称、行业名称(公交、地铁、出租、轮渡、PR停车场)、交易金额、交易性质(非优惠、优惠、…

PHP生成二维码带图标代码实例

PHP生成二维码带图标代码实例(PHP QR Code二维码生成类库) public static function png($text, $outfilefalse, $levelQR_ECLEVEL_L, $size3, $margin4, $saveandprintfalse) { $enc QRencode::factory($level, $size, $margin); return $enc->…

token登录的实现

token登录的实现 我这种token只是简单的实现token,就是后端利用UUID 生成简单随机码,利用随机码作为在Redis中的键,然后存储的用户信息作为值,在每次合理请求的时候对token的有效时间进行刷新(利用拦截器)&…

第P7周—咖啡豆识别(1)

数据集及wen件目录介绍: 数据集:工作台 - Heywhale.com 一、前期工作 1.1 数据详情 import torch import torch.nn as nn import torchvision.transforms as transforms import torchvision from torchvision import transforms, datasets import os,…

笔试强训Day7

T1&#xff1a;合法括号序列判断 链接&#xff1a;合法括号序列判断__牛客网 给定一个字符串A和其长度n&#xff0c;请返回一个bool值代表它是否为一个合法的括号串&#xff08;只能由括号组成&#xff09;。 经典括号匹配问题&#xff0c;考察栈的使用 #include<iostre…

Pytest+Allure+Excel接口自动化测试框架实战

1. Allure 简介 简介 Allure 框架是一个灵活的、轻量级的、支持多语言的测试报告工具&#xff0c;它不仅以 Web 的方式展示了简介的测试结果&#xff0c;而且允许参与开发过程的每个人可以从日常执行的测试中&#xff0c;最大限度地提取有用信息。 Allure 是由 Java 语言开发的…

常识判断 --- 科技常识

目录 力与热 光和声 航空成就 垃圾分类 百科知识 血型 二十四节气歌 春雨惊春清谷天 夏满忙夏暑相连 秋处露秋寒霜降 冬雪雪冬小大寒 力与热 光和声 航空成就 垃圾分类 百科知识 血型

【Ambari】银河麒麟V10 ARM64架构_安装Ambari2.7.6HDP3.3.1问题总结

&#x1f341; 博主 "开着拖拉机回家"带您 Go to New World.✨&#x1f341; &#x1f984; 个人主页——&#x1f390;开着拖拉机回家_大数据运维-CSDN博客 &#x1f390;✨&#x1f341; &#x1fa81;&#x1f341; 希望本文能够给您带来一定的帮助&#x1f338;文…

NFT Insider#109:The Sandbox推出了首个足球小将 NFT 作品集,YGG Web3 游戏峰会即将开启!

引言&#xff1a;NFT Insider由NFT收藏组织WHALE Members、BeepCrypto联合出品&#xff0c;浓缩每周NFT新闻&#xff0c;为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据&#xff0c;艺术新闻类&#xff0c;游戏新闻类&#xff0c;虚拟世界类&#…

API 设计/开发/测试工具:Apifox与怎么通过拦截器

目录 一、测试接口如何创建&#xff1f; 二、如何添加body和header&#xff1f; 三、如果项目设置的有拦截器&#xff1f; 四、拦截器概念&#xff1a; 4.1使用拦截器概念 4.2 先写一个配置类WebMvcConfig.java 4.3 AuthInitInterceptor拦截器中实现 一、测试接口如何创建…

数据结构:简单记录顺序表、链表、栈、队列

初学者很容易认为顺序表、链表、栈、队列是四种并列的数据结构&#xff0c;其实仔细想想并不是。 注意区分&#xff1a; 顺序表和链表是指数据的存储结构&#xff0c;是线性表的一种&#xff0c;顺序表一般指的就是数组&#xff0c;数据存储的逻辑顺序和物理顺序都是连续的&a…

【图像处理】SIFT角点特征提取原理

一、说明 提起在OpenCV中的特征点提取&#xff0c;可以列出Harris&#xff0c;可以使用SIFT算法或SURF算法来检测图像中的角特征点。本篇围绕sift的特征点提取&#xff0c;只是管中窥豹&#xff0c;而更多的特征点算法有&#xff1a; Harris & Stephens / Shi–Tomasi 角点…

支付宝电脑网站支付,异步通知

一&#xff1a;异步通知是支付宝回调商户的服务器&#xff0c;所以这个地址需要通过外网访问&#xff0c;在真实项目中都会有对应的服务器&#xff0c;但是在测试中只有使用内网穿透工具 推荐使用NATAPP-内网穿透 基于ngrok的国内高速内网映射工具 配置好内网穿透之后不要忘记…

CIP或者EtherNET/IP中的PATH是什么含义?

目录 SegmentPATH举例 最近在学习EtherNET/IP&#xff0c;PATH不太明白&#xff0c;翻了翻规范&#xff0c;在这里记个笔记。下面的叙述可能是中英混合&#xff0c;有一些是规范中的原文我直接搬过来的。我翻译的不准确。 Segment PATH是CIP Segment中的一个分类。要了解PATH…

PHP8的继承和多态-PHP8知识详解

我们在前面的时候讲过《面向对象编程的特点》时&#xff0c;面向对象编程具有3大特点&#xff1a;封装性、继承性和多态性。 继承和多态的根本作用就是完成代码的重用。下面就来讲解php8的继承和多态。 1继承 子类可以继承父类的所有成员变量和成员方法&#xff0c;包括构造方…

数据集笔记: Porto

数据来源&#xff1a;Taxi Trajectory Data_数据集-阿里云天池 (aliyun.com) 1 数据介绍 葡萄牙波尔图市运行的所有442辆出租车的全年轨迹&#xff08;从2013年7月1日至2014年6月30日&#xff09; 2 读取数据 import pandas as pdtrapd.read_csv(C:/Users/16000/Download…

【EasyExcel】excel表格的导入和导出

【EasyExcel】excel表格的导入和导出 【一】EasyExcel简介【二】EasyExcel使用【1】EasyExcel相关依赖【2】写Excel&#xff08;1&#xff09;最简单的写(方式一)&#xff08;2&#xff09;最简单的写(方式二)&#xff08;3&#xff09;排除模型中的属性字段&#xff08;4&…

Springboot对MVC、tomcat扩展配置

Springboot在web层的开发基本都是采用Springmvc框架技术&#xff0c;但是Springmvc中的某些配置在boot是没有的&#xff0c;我们就应该根据自己的需求进行对mvc扩展配置 Springboot1.x版本如何配置 通过注解Configuration一个类&#xff0c;继承webmvcconfigureradapter&#…

Bootstrap的弹性盒子布局学习笔记

Bootstrap的弹性盒子布局学习笔记 目录 01-综述02-利用类d-flex与类d-inline-flex将容器定义为弹性盒子03-对弹性容器的的元素在水平方向上进行排列顺序设置03-对弹性容器的的元素在垂直方向上进行排列顺序设置04-弹性盒子内所有元素在主轴方向上的对齐方式05-1-弹性盒子内各行…