机器学习—训练细节

首先回忆如何训练一个逻辑回归模型,建立一个Logistic回归模型是:你将指定如何计算输出给定输入特征x和参数w和b,在逻辑回归函数预测f(x)=g,它是应用于w*x+b的Z状结肠函数,所以如果z=np.dot(w,x)+b,f_x=1/(1+np.exp(-z)),所以第一步,指定什么是Logistic回归的输入输出函数,这取决于输入x和模型的参数,第二步是训练Logistic回归模型,是指定损失函数和成本函数,损失函数说的是逻辑回归x的输出f和地面真值标签,训练集中的实际标签是Y,那么在单个训练例子上的损失是loss=-y*np.log(f_x)-(1_y)*np.log(1-f_x),这是一个衡量Logistic回归在单个训练示例上做得有多好的指标,给定损失函数的这个定义,然后定义成本函数,成本函数是参数w和b的函数,这只是所有m训练的平均值,在M训练示例上计算损失函数的示例,从X1Y1到XmYm,我们使用的损失函数是学习算法输出的函数,地面真值标签是在单个训练示例上计算的,而成本函数J是在整个训练集上计算的损失函数的平均值,这是在建立逻辑回归时所做的第二步,逻辑回归模型的最后一步是使用算法,特别是梯度下降最小化WB的代价函数J,使其最小化为参数w和b的函数,用梯度下降法最小化成本j作为参数的函数,其中对w和b进行更新。所以有了这三个步骤步骤一:指定如何计算输出,给定输出x和参数,步骤二:成本细节,步骤三:最小化成本函数,同样的步骤是我们如何在张量流中训练神经网络时所用到的。

这三个步骤是如何训练神经网络的?

第一步是指定如何计算输出,给定输入x和参数w和b,使用代码指定神经网络,这实际上足以指定前向传播所需的计算或者对于推理算法

第二步是编译模型,告诉它你想用什么损失,下边是用来指定这个损失函数的代码,即二元交叉熵损失函数,一旦指定了这个损失,在这个训练集上取平均值,给出了神经网络的成本函数。

第三步是调用一个函数,试图最小化成本,作为神经网络参数的函数。

下边是详细的介绍

第一步指出如何计算输出,给定输入X和参数w和b,此代码段指定神经网络的整个体系结构,第一个隐藏层有25个隐藏单元,然后是15,然后是一个输出单元,我们用Z状结肠的激活值,所以基于这个代码段,我们也知道参数是什么,第一层w[1]b[1],第二层参数和第三层参数分别是w[2]b[2]w[3]b[3],所以这个代码段指定了神经网络的整个架构,因此告诉TensorFlow它所需要的一切,为了将输入X作为函数计算,为了计算输出f(X3),作为输入X的函数,这里的参数我们写了WlBl。

继续第二步的第二步,必须指定损失函数是什么,这也将定义我们用来训练神经网络的成本函数,对于mnist零,一位数分类问题是一个二进制分类问题,到目前为止,最常用的损失函数是这个,它实际上是和我们所得到的相同的损失函数,对于Logistic回归是L(f(x),y),Y是地面真相标签,有时也称为目标标签,x的y和f现在是神经网络的输出,所以用张量流的术语来说,这个损失函数就称为二元交叉熵,语法是让TensorFlow编译神经网络,使用此损失函数,TensorFlow知道你想要最小化的成本是平均值,取所有M训练样本损失的平均值,并优化这个成本函数,将导致神经网络与二进制分类数据拟合,如果你想解决回归问题而不是分类问题,可以告诉TendorFlow使用不同的损失函数编译您的模型,例如,如果你有回归问题,如果你想最小化误差的平方损失,这是误差损失的平方,如果你的学习算法用一个目标输出f(x),或者是Y的基本真值标签,这是误差平方的一半,然后可以在TensorFlow中使用这个损失函数,更直观的命名为均方误差损失函数,然后张量流会试图最小化均方误差,在这个表达式中,用大写的J(W,B)来表示成本函数,成本函数是神经网络中所有参数的函数,所以你可以把W,B看作包括整个神经网络中的所有的W,B参数,所以如果你优化关于w和b的成本函数,会试图优化关于神经网络中的所有参数以及上面的,f(x)写成神经网络的输出,也可以写成Fw,b(x),如果想强调神经网络的输出,作为x的函数,取决于神经网络的所有参数和所有层,这就是损失函数和成本函数,在张量流中,这被称为二元交叉熵损失函数,从统计学上看,上面的这个函数叫做交叉熵损失函数,这就是交叉熵的意思,二进制这个词只是强调或指出这是二进制分类问题,因为这个图像要么是零要么是一。

最后,要求TendorFlow最小化成本函数,你可能还记得第一道菜的梯度下降算法,如果你使用梯度下降来训练神经网络的参数,然后你将重复对每一层l和每一个单位j,根据Wj更新如下,关于wb的费用函数j的那个函数,对于参数b也是如此,在做了100次梯度下降之后,能得到一个很好的参数值,所以为了使用梯度下降,需要计算的关键是这些偏导数项,神经网络训练的标准是使用一种叫做反向传播的算法,为了计算这些偏导数项,TensorFlow可以完成这些事,它在这个名为FIT的函数中实现了反向传播,所以所要做的是调用模型点拟合x y是你的训练集,并告诉它这样做一百次迭代或一百个时代,张量流可以使用比梯度下降更快一点的算法。

​​​​​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/9319.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

图片翻译之尺码表批量翻译

最近在为客户解决问题的过程中,小编发现了一个令人惊叹的应用场景——电商平台可以通过OpenAI 批量翻译图片格式的尺码表,且翻译内容能够准确地呈现为多种语言! 这不仅让我感叹 AI 效率的强大,也让我对电商行业的竞争压力感到震撼…

深入了解决策树:机器学习中的经典算法

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

C语言实现数据结构之堆

文章目录 堆一. 树概念及结构1. 树的概念2. 树的相关概念3. 树的表示4. 树在实际中的运用(表示文件系统的目录树结构) 二. 二叉树概念及结构1. 概念2. 特殊的二叉树3. 二叉树的性质4. 二叉树的存储结构 三. 二叉树的顺序结构及实现1. 二叉树的顺序结构2.…

如何关闭 Ubuntu22.04 LTS 的更新提醒

引言 众所周知,Ubuntu 的软件更新和版本更新提醒是又多又烦,如果不小心更新到了最新的 Ubuntu 还可能面临各种各样的问题,这里提供一个解决方法 步骤 首先按照下面步骤打开 Software & Updates 然后按照下面步骤依次点击 最后关闭即可…

CS61b part5

8.1 The Desire for Generality 今天我们将会讨论一个全新的主题,称为继承。为了铺垫,让我们考虑在过去几节课中构建的SList类和AList类。我们看到它们实际上具有完全相同的操作,它们都允许我们添加元素、获取元素、移除元素以及获取大小&am…

隆盛策略正规股票杠杠交易市场A股,盘中突变…

突然跌了。 查查配分析A股市场今天大幅高开,上证指数一度重返3500点之上,临近午盘,该指数翻绿。TMT赛道掀起涨停潮,成为上午A股市场最大亮点之一。 另外,多只近期强势股继续走强,有股票在短短9个交易日的时间股价自低位涨了约3倍。 隆盛策略以其专业的服务和较低的管理费用在…

学生公寓人走断电控制系统的设计要求

石家庄光大远通电气有限公司学生公寓人走断电系统技术背景用电器待机能耗往往是一种不易被发现的“隐藏的浪费”,如果将一户家庭的空调、洗衣机、电视、微波炉、电饭煲五类电器进行计算,待机功率在12W到15W,待机能耗0.2度到0.33度电。每年能耗…

解决yum命令报错“Could not resolve host: mirrorlist.centos.org

这个主要是yum源出了问题或者服务器网络有问题,检查网络排除网络问题后,可更换源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.k wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.huaweicloud.com/repository…

TikTok Spark Ads火花广告是什么?如何设置?

TikTok的广告类型多样、功能各异,如果你需要投放精准度更高、效果更持久、更能吸引用户点击和参与的广告,那么Spark Ads会是一个相当不错的选择。 一、什么是TikTok Spark Ads 1.概念 Spark Ads是直接使用真实的自然流量视频及其功能来进行宣传的一种原…

微软日志丢失事件敲响安全警钟

NEWS | 事件回顾 最近,全球最大的软件公司之一——微软,遭遇了一场罕见的日志丢失危机。据报告,从9月2日至9月19日,持续长达两周的时间里,微软的多项核心云服务,包括身份验证平台Microsoft Entra、安全信息…

「QT」几何数据类 之 QRectF 浮点型矩形类

✨博客主页何曾参静谧的博客📌文章专栏「QT」QT5程序设计📚全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasolid…

Android音频进阶之PCM设备创建(九十三)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【原创干货持续更新中……】🚀 优质视频课程:AAOS车载系统+…

【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection

论文链接:https://arxiv.org/abs/2409.12421 这个论文研究 Camouflaged Object Detection (COD)问题,作者认为,使用 pretrained foundation model 可以改进COD的准确率,但是当前的 adaptor 大多学习空间特…

大数据-208 数据挖掘 机器学习理论 - 岭回归 和 Lasso 算法 原理

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

Spark Streaming

流处理和批处理 spark streaming底层原理 滑动窗口 window窗口操作二 过车数据案例

关于圆周率-3

最后一个问题,欧拉公式, 到底要说明的是什么。从欧拉函数的四个特殊值可以看出, 可见这个函数的作用是将角度映射回它原来的数值。在螺旋楼梯的例子中,我们用虚数单位的倍数搭建楼梯,并构造角度,角度是一系…

npm : 无法加载文件 C:\Program Files\nodejs\npm.ps1,因为在此系统上禁止运行脚本。

npm : 无法加载文件 C:\Program Files\nodejs\npm.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_Exe cution_Policies。 所在位置 行:1 字符: 1 npm install ~~~ CategoryInf…

WPF+MVVM案例实战与特效(二十六)- 3D粒子方块波浪墙效果实现

文章目录 1、案例效果2、案例实现1、文件创建2. 功能代码实现3、粒子功能应用1、前端布局与样式2、代码解释2、 后端功能代码1、案例效果 2、案例实现 1、文件创建 打开 Wpf_Examples 项目、Models 文件夹下创建 3D粒子模型类 ParticleCubeWaveModel.cs 文件。在Tools 文件夹…

NVR设备ONVIF接入平台EasyCVR私有化部署视频平台如何安装欧拉OpenEuler 20.3 MySQL

在当今数字化时代,安防视频监控系统已成为保障公共安全和个人财产安全的重要工具。NVR设备ONVIF接入平台EasyCVR作为一款功能强大的智能视频监控管理平台,它不仅提供了视频远程监控、录像、存储与回放等基础功能,还涵盖了视频转码、视频快照、…