一起对话式学习-机器学习02——机器学习方法三要素

【一】核方法

        首先补充一下核方法,这应是机器学习分类中的内容。

        什么是核方法呢?听起来很高级,但理解很简单:

        官方定义:核方法是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和非监督学习。      

        理解:在分类问题中很多情况下并不能用线性(二维中是一条线,三维则是一个平面,当然还有更高维)去划分,而是非线性的。核方法则可以利用核函数将输入映射到一个特征空间中,使其映射后的样本点变得可分。

        如我们常见的几种模型:核函数支持向量机、核PCA、核K-means等。

【二】 机器学习方法三要素

机器学习方法=模型+策略+算法

可以理解为:机器学习模型在一定优化策略下使用相应求解算法来达到最优化目标。 

 1.模型 

        这里只介绍监督学习的两种:决策函数与条件概率分布,即非概率模型与概率模型。

        给出二者形式就明了了:

Y=f(X)

        这是一个决策函数,就是我们平时的一个x关于y的函数,给定x,如果已知全部参数,则模型确定输出y。当然,在模型中,这样的函数很可能不止一个,而是一个集合,自变量x可能也有很多,关系可能错综复杂。

P=P(Y|X) 

        这是一个条件概率分布,就是我们平时的概率密度函数,在已知X的情况下,确定Y的相应概率分布,只不过要注意,这个分布通常由参数\theta决定,具体可以参照01贝叶斯学习 。同样,在模型中,这样的函数很可能不止一个,而是一个集合。

2.策略

        所谓策略就是以什么准则进行学习以及选取最优模型。

        我们给出损失函数与风险函数:

有以下几种损失函数

(图片来自 此,侵删)

        就是在训练完后进行测试时,用来度量预测结果和真实值之间的差异。还有其他更复杂的损失函数,具体模型最优选取不同。

        接下是风险函数,很简单,就是损失函数的期望,模型平均意义下的损失。

R=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}) )

        其中,模型关于训练集的平均损失称为经验风险或经验损失。根据大数定律,当数据集样本数量N趋于无穷,经验风险就是期望风险,所以我们可以用训练集下的经验风险来代替所有数据下的期望风险。

        为什么不能直接计算期望风险呢?因为你不可能知道每次实例X下的输出Y,不然什么都知道还预测什么?

        但是我们知道,用样本代替总体(大数定律) 的思想很好,但总归是有误差,所以仅仅依靠经验风险来评估是不科学的,为此,我们提出结构风险

R=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}) )+\lambda J(f))       

        可以看到,其实就是将经验期望后加了一项,这项称之为正则化项或惩罚项,为的就是防止过拟合(由于模型捕捉了训练集上的过多细节导致的模型过于复杂化)。其中\lambda系数决定了惩罚力度。

        所以,我们最终要做的就是将经验风险最小化与结构风险最小化。

3.算法

        经过模型和策略的选定,实际上机器学习问题到这里就变成了最优化问题——求解经验风险最小化与结构风险最小化。

        这部分可以阅读最优化问题的相关书籍或观看视频深入了解。


 Over!!! 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/141981.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

如何解决“json schema validation error ”错误? -- HarmonyOS自学6

一. 问题描述 DevEco Studio工程关闭后,再重新打开时,出现了如下错误提示: json schema validation error 原因: index.visual或其他visual文件中的left等字段的值为负数时,不能以”-0.x“开头,否则就会…

堆+堆排序+topK问题

目录 堆: 1、堆的概念 2、堆的结构 3、堆的实现 3.1、建堆 3.1.1、向上调整建堆(用于堆的插入) 3.1.2、向下调整建堆 3.2、堆的删除 3.3、堆的代码实现 3.3.1、Heap.h 3.3.2、Heap.c 堆排序:(O(N*log(N))) 1、排序如何…

yjs06——numpy的介绍与优势(1)

1.numpy是什么? numpy是python的一个科学计算库,用于快速处理 任意维度的数据; numpy的存储单元/基本数据类型是 ndarray(多维数组) 2.多维数组的建立: import numpy as np np.array([ [1,2,3], [4,5,6…

ZYNQ7010_7020_硬件LVDS设计

ZYNQ7010_7020_硬件LVDS设计 ZYNQ7010_7020_硬件LVDS设计 1.版本说明2.概述3.目标4.硬件设计5.IO SERDES 1.版本说明 日期作者版本说明20240916风释雪初始版本 2.概述 当我们使用ZYNQ7010/15/20的时候,本身BANK只支持HR,不支持HP, 如图: …

Flink有界流实现(1)

flink实现有界流需要使用StreamExecutionEnvironment类,并且最后需要使用env.execute() 方法,有界和无界的算子有时候会有不同的 复杂的写法 package org.example.test; import org.apache.flink.api.java.functions.KeySelector; import org.apache.fl…

Redis的缓存穿透、缓存雪崩、缓存击穿怎么解决

Redis在实际使用中是会遇到很多问题的,例如今天说到的缓存穿透、缓存雪崩、缓存击穿。 缓存穿透: 缓存穿透是指客户端请求的数据在redis缓存和数据中都不存在,这样缓存永远都不会生效,这些请求都会打到数据库当中,对…

【CTF MISC】XCTF GFSJ1088 [中等] QR1 Writeup(图像处理+QR Code识别)

[中等] QR1 一张空白的图片? 解法 一张空白图片。 用 Photoshop 打开,放大,发现很多小黑点。 将图片复制到新文档,用魔棒工具选择白色部分。 Ctrl Shift i 反选。编辑,描边,黑色,10px&#…

java面向对象:构造方法

给出javabean类代码 package google.test5;public class Student {private String name;private int age;public Student(){System.out.println("看看我打印了嘛?");}public Student(String name, int age){this.name name;this.age age;}public void …

2024 年高教社杯全国大学生数学建模竞赛 B 题 生产过程中的决策问题 第二问chatGPT4的回答,matlab和python代码

持续更新中,2024年所有 数学建模比赛思路代码都会发布到专栏内,只需要订阅一次。 5号6号半价,会结合历年优秀论文、人工智能深度学习算法、chatgpt。会定期发布思路、代码和论文。思路和论文基本拿不到国奖,想要获得国奖的同学不要购买。适合基础差的学生,只适合冲击省奖。…

PMP--一模--解题--61-70

文章目录 14.敏捷61、 [单选] 作为估算活动持续时间过程的一部分,项目经理促成了与产品负责人和Scrum团队的冲刺计划会议。项目经理将用户故事分解为较小的任务项,以小时为单位估算所需时间,并根据团队的能力确定冲刺待办事项列表。尽管计划周…

您使用过哪些AI集成工具提升工作效率

您使用过哪些AI集成工具提升工作效率 随着AI技术的飞速发展,个人开始寻求高效的方法来构建和管理定制化模型,以简化复杂的开发过程,提高工作效率。说起用AI集成工具来提高工作效率,个人作为开发者,确实在使用AI代码辅助…

引用和指针的区别(面试概念性题型)

个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目:C知识点的补充_Jason_from_China的博客-CSDN博客 概念概述 内存占用: 引用:引用一个变量时,实际上并…

.ipynb 图解介绍,轻松入门,提升效率

目录 01 使用jupyter遇到的问题1.1 Python requires ipykernel installed or requires an update 1.1.1 查询所有内核 1.1.2 选择对应的Python版本 02 理解jupyter规则 2.1 系统命令 01 使用jupyter遇到的问题 1.1 Python requires ipykernel installed or requires an up…

IP 协议分析《实验报告》

目录 一、 实验目的 二、实验设备和环境 三、实验记录 1、实验环境搭建 2、IP 协议分析 1.设置抓包接口 2.IP 报文分析 3.报文长度计算 4.生存时间 TTL 5.分析总结 3、IP分片 1.IP 分片简介 2.捕获分组 3.结果分析 一、 实验目的 1、掌握 IP 协议数据报格式&…

CPLEX+Yalmip+MATLAB2022a配置

来源:yalmipcplex12.10文件及安装教程-CSDN博客https://blog.csdn.net/qq_41944352/article/details/126421198 安装包 来源:yalmipcplex12.10文件及安装教程-CSDN博客 Cplex 需下载: Microsoft Visual C 2015 Redistributable 添加路径&a…

跨界融合,GIS如何赋能游戏商业——以《黑神话:悟空》为例

在数字化时代,地理信息系统(GIS)技术正以其独特的空间分析和可视化能力,为游戏产业带来革命性的变革。《黑神话:悟空》作为中国首款3A级别的动作角色扮演游戏,不仅在游戏设计和技术上取得了突破&#xff0c…

【Hot100】LeetCode—4. 寻找两个正序数组的中位数

目录 1- 思路题目识别二分 2- 实现⭐4. 寻找两个正序数组的中位数——题解思路 3- ACM 实现 原题链接:4. 寻找两个正序数组的中位数 1- 思路 题目识别 识别1 :给定两个数组 nums1 和 nums2 ,找出数组的中位数 二分 思路 将寻找中位数 —…

Java和西门子S7-1200通讯调试记录

这是很久以前做的一个项目,工业现场一个agv,主要作用的清扫摇床(一种选矿设备),选用的S7-1200的CPU。工作原理是agv上面放一个机械臂,机械臂上面装一个扫把,到固定位置以后,执行清扫…

结合人工智能,大数据,物联网等主流技术实现业务流程的闭环整合的名厨亮灶开源了

明厨亮灶视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。AI技术可以24小时…

Beyond Compare 标准版与专业版 区别

Beyond Compare 的标准版是一个功能齐全的比较工具,而不是一个精简的“精简版”。标准版具有全屏编辑、完全 Unicode 支持、语法高亮等等。 但是,Pro 版增加了以下高级功能: 3 路合并 将独立更改与共同上级进行比较,以便为文件夹…