Datawhale X 南瓜书 task01学习笔记

机器学习三观

机器学习工程领先理论

what:什么是机器学习?

  • 机器学习定义:研究关于“学习算法”(一类能从数据中学习出其背后潜在规律的算法)的一门学科
  • PS:深度学习指的是:神经网络那一类学习算法,因此是机器学习的子集
  • 把深度学习单列出来的原因:机器学习演变到现在,神经网络算法的效果是最好的,机器学习的其他算法能做的事,神经网络也能做,所以就把深度学习单列出来了

why:为什么要学习机器学习?

  • 从事机器学习理论的研究:研究新的算法,神经网络和深度学习的可解释性
  • 从事机器学习系统的开发

(以上2种情况比较偏基础和底层)

  • 将机器学习中的算法迁移应用到自己的研究领域
  • 从事AI应用方向的研究:自然语言处理(NLP):eg:chatGPT;计算机视觉(CV):eg: 人脸识别,目标检测;推荐系统等

how:怎样学机器学习?

  • 从事纯机器学习理论的研究:
  • 本课程讲的所有内容都要听懂
  • 进一步可阅读周志华老师的《机器学习理论导引》
  • 机器学习还很年轻,当前正处于工程领先理论阶段,还有很多未解之谜
  • 从事机器学习系统的开发:在跑算法的系统框架中选算法,训练模型,然后部署
  • 进阶学习:https://ucbrise.github.io/cs294-ai-sys-sp22https://openmlsys.github.io
  • 将机器学习中的算法迁移应用到自己的研究领域
  • 从事AI应用方向的研究:
  • 自然语言处理(NLP)、
  • 计算机视觉(CV)、
  • 推荐系统等。

    机器学习引入

  • 假设空间:假设=》函数,则假设空间=》函数空间 
  • 假设的表示一旦确定,假设空间及其规模大小就确定了


基本术语 

  • 算法“概念:指从数据中学得“模型"的具体方法,例如后续章节中将会讲述的线性回归、对决策树等
  • 算法和模型的关系:“算法“产出的结果称为“模型",通常是具体的函数或者可抽象地看作为函数,例如一元线性回归算法产出的模型節为形如f(x)= ux +b的一元一次函数。
  • 不过由于严格区分这两者的意义不大,因此多数文献和资料会将其混用,当遇到这两个概念时,其具体指代根据上下文判断即可。
  • 样本(“示例”)概念:是关于一个事件或对象的描述。eg:一个“色泽青绿,根蒂蜷缩,敲声清脆“的西瓜用向量来表示即为=(青绿;蜷缩;清脆)
  • “特征“(“属性”)概念:向量中的各个维度
  • 向量中的元素用分号";“分隔时表示此向量为列向量,用逗号"“分隔时表示为行向量解释一下“特征工程'
  • 标记概念:机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律
  • 标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为(x,y)一条西瓜样本:x=(青绿;蜷缩;清脆),y=好瓜  ;  一条房价样本:=(1所),y=1万/m2
  • 样本空间(“输入空间“)(“属性空间"):由于样本采用的是标明各个特征取值的"特征向量“来进行表示,根据线性代数的知识可知,有向量便会有向量所在的空间,因此称表示样本的特征向量所在的空间为样本空间,通常用花式大写的表示
  • 标记空间(输出空间)概念:标记所在的空间,数学表示为花式大写的y
  • 根据标记的取值类型不同,可将机器学习任务分为以下两类:
  • 分类:当标记取值为离散型时,称此类任务为"分类"。例如学习西瓜是好瓜还是坏瓜、
  • “分类”的类型
  1. “二分类”:当分类的类别只有两个时,称此类任务为“二分类”  eg:习猫的图片是白猫还是黑猫等。,通常称其中一个为“正类",另一个为“反类“或“负类”;
  2. “多分类":当分类的类别超过两个时,称此类任务为“多分类"。由于标记也属于样本的一部分,通常也需要参与运算,因此也需要将其数值化,例如对于二分类任务,通常将正类记为1,反类记为0,即)={0,1}。这只是一般默认的做法,具体标记该如何数值化可根据具体机器学习算法进行相应地调整,例如第6章的支持向量机算法则采用的是={-1,+1)
  • “回归":当标记取值为连续型时,称此类任务为“回归’,例如学习预测西瓜的成熟度、学习预测未来的房价等。由于是连续型,因此标记的所有可能取值无法直接罗列,通常只有取值范围,回归任务的标记取值范围通常是整个实数域R,即y=R。
  • 数据集:数据集通常用集合来表示,令集合D ={1,2,...,m}表示包含m个样本的数据集,一般同一份数据集中的每个样本都含有相同个数的特征,假设此数据集中的每个样本都含有d个特征,则第个样本的数学表示为d维向量Cil;i2;...;wid)其中;;表示样本必;在第j个属性上的取值。
  • 模型:机器学习的一般流程如下:首先收集若干样本(假设此时有100个),然后将其分为训练样本(80个)和测试样本(20个),其中80个训练样本构成的集合称为“训练集",20个测试样本构成的集合称为“测试集",接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。
  • 真相(真实):执行以上模型的流程时,表示我们已经默认样本的背后是存在某种潜在的规律,我们称这种潜在的规律为“真相“或者"真实”,例如样本是一堆好西瓜和坏西瓜时,我们默认的便是好西瓜和坏西瓜背后必然存在某种规律能将其区分开。
  • 假设概念:当我们应用某个机器学习算法来学习时,产出得到的模型便是该算法所找到的它自己认为的规律,由于该规律通常并不一定就是所谓的真相,所以也将其称为“假设"。
  • 通常机器学习算法都有可配置的参数,同一个机器学习算法,使用不同的参数配置或者不同的训练集,训练得到的模型通常都不同。
  • 泛化概念:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确与否才是衡量一个模型好坏的关键,我们称此为“泛化"能力。
  • 分布概念:此处的"分布“指的是概率论中的概率分布,通常假设样本空间服从一个未知“分布”D,而我们收集到的每个样本都是独立地从该分布中采样得到,即“独立同分布"。通常收集到的样本越多,越能从样本中反推出D的信息,即越接近真相。
  • 数据决定模型效果的上限:其中数据是指从数据量和特征工程两个角度考虑。从数据量的角度来说,通常数据量越大模型效果越好,因为数据量大即表示累计的经验多,因此模型学习到的经验也多,自然表现效果越好。例如以上举例中如果训练集中含有相同颜色但根蒂不蜷缩的坏瓜,模型a学到真相的概率则也会增大;从特征工程的角度来说,通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好,因为此时模型更易学得样本之间潜在的规律。例如学习区分亚洲人和非洲人时,此时样本即为人,在进行特征工程时,如果收集到每个样本的肤色特征,则其他特征例如年龄、身高和体重等便可省略,因为只需靠肤色这一个特征就足以区分亚洲人和非洲人。
  • 算法则是让模型无限逼近上限:是指当数据相关的工作已准备充分时,接下来便可用各种可适用的算法从数据中学习其潜在的规律进而得到模型,不同的算法学习得到的模型效果自然有高低之分,效果越好则越逼近上限,即逼近真相。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143051.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

idea连接docker 自动化部署

进入Linux服务器 vim /lib/systemd/system/docker.service将 ExecStart/usr/bin/dockerd -H fd:// --containerd/run/containerd/containerd.sock 替换为 ExecStart/usr/bin/dockerd -H tcp://0.0.0.0:2375 -H unix://var/run/docker.sock新建文件 Dockerfile配置Dockerfile文…

Linux下rpm方式部署mysql(国产化生产环境无联网服务器部署实操)

请放心观看,已在正式环境部署验证,流程无问题! 所用系统为国产化麒麟银河 aarch64系统,部署时间2024年9月份! #查看服务器信息 #涉及生产服务器,所以输出信息隐藏了一部分[rootecs-xxxxx hdata]# uname -…

Java 中常用的排序算法

Java 中常用的排序算法有很多,每种算法的时间复杂度和适用场景都不同。以下是几种常见的排序算法及其 Java 实现和讲解: 1. 冒泡排序 (Bubble Sort) 算法思路: 重复地遍历数组,每次比较相邻两个元素。如果前一个比后一个大&…

性能测试笔记

一、性能测试介绍 1.概述 性能测试时通过工具/代码模拟正常/峰值/异常的负载条件,对系统的各项性能指标进行测试和评估的过程 本阶段的学习范围是服务端的性能测试,不包括客户端性能 测试目的 评估当前系统能力,如:新出的手机都…

新书速览|NestJS全栈开发解析:快速上手与实践

《NestJS全栈开发解析:快速上手与实践》 本书内容 《NestJS全栈开发解析:快速上手与实践》旨在帮助读者快速掌握NestJS(简称Nest)开发,并应用于实战项目。本书共10章,首先介绍基本概念,为读者打下坚实的知识基础。接着…

chapter15-泛型——(泛型语法)——day20

目录 554-泛型引入 555-泛型入门 556-泛型入门 557-泛型应用实例 558/9-泛型使用细节 560-泛型课堂练习 554-泛型引入 555-泛型入门 556-泛型入门 泛型先泛再型 557-泛型应用实例 泛型一旦指定了,编译器就会按照指定来约束传入类型 558/9-泛型使用细节 560-泛…

算法训练——day15数组交集(是否去重)

349. 两个数组的交集 给定两个数组 nums1 和 nums2 ,返回 它们的 交集。输出结果中的每个元素一定是 唯一 的。我们可以 不考虑输出结果的顺序 示例 1: 输入:nums1 [1,2,2,1], nums2 [2,2] 输出:[2]示例 2: 输入…

Java SE基础知识详解:源于技术书籍的深度解读

写在前面 ⭐️在无数次的复习巩固中,我逐渐意识到一个问题:面对同样的面试题目,不同的资料来源往往给出了五花八门的解释,这不仅增加了学习的难度,还容易导致概念上的混淆。特别是当这些信息来自不同博主的文章或是视…

【C语言零基础入门篇 - 9】:文件操作

文章目录 文件操作文件的简介指向指针的文件文件的打开方式字符的读取和存储数据的读取和存储 文件操作 文件的简介 一、什么是文件? 文件有不同的类型,主要有两种文件: (1)程序文件。(2)数据…

python基础(1)pyenv安装和对Django使用

pyenv安装 pyenv主要针对类 Unix 系统(如 Linux、macOS)用户,pyenv-win 是专为 Windows 开发的 pyenv 版本,允许您在不使用 WSL 的情况下管理多个 Python 版本和虚拟环境。 建议Git Bash: Powershell或Git Bash&…

攻防实战-nacos新洞如何反弹和注入内存马

攻防实战-nacos新洞如何反弹和注入内存马 起因 ‍‍‍‍hw中,遇到2个nacos还在测试nacos的yaml漏洞时候,突然有人发了0day.不过网上的师傅好像都没有继续下一步. 本地搭建了windows和linux先本地测试了一下. 测试 ‍‍总体分为两步,第一步 http://ip/nacos/v1/cs/ops/data/…

基于windows下docker安装HDDM并运行

安装主要教程 如何安装HDDM(基于windows下 docker 和 linux) | 传鹏的实验室 (chuan-peng-lab.netlify.app) 安装时遇到的问题 1.下载完docker安装包,安装提示不适合本电脑 解决办法: 第一步:开启CPU虚拟化 Windows电脑如何开启CPU虚拟化…

【C51】独立按键控制LED灯

1.简介 在单片机应用系统中,常常使用轻触按键组成键盘。轻触按键具有自动回弹的特点,即按下按键,两个触点接通,放开按键,两个触点断开。轻触按键的外形及电路符号如图,通常轻触按键有4个引脚,4个…

Flink系列知识之:Checkpoint原理

Flink系列知识之:Checkpoint原理 在介绍checkpoint的执行流程之前,需要先明白Flink中状态的存储机制,因为状态对于检查点的持续备份至关重要。 State Backends分类 下图显示了Flink中三个内置的状态存储种类。MemoryStateBackend和FsState…

RTMP协议在无人机巡检中的应用场景

为什么要用无人机巡检 好多开发者对无人机巡检技术方案,相对陌生,实际上,无人机巡检就是利用无人机对特定区域或设施进行定期或不定期的检查。这种巡检方式相比传统的人工巡检具有显著的优势,包括速度快、覆盖广、风险低、准确性…

出厂非澎湃OS手机解BL锁

脚本作者:酷安mlgmxyysd 脚本项目链接:https://github.com/MlgmXyysd/Xiaomi-HyperOS-BootLoader-Bypass/ 参考 B站作者:蓝空穹 https://www.bilibili.com/read/cv33210124/ 其他参考:云墨清风、水墨青竹、Magisk中文网 决定解BL…

【每日刷题】Day124

【每日刷题】Day124 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. LCR 079. 子集 - 力扣(LeetCode) 2. 1863. 找出所有子集的异或总和再求和 …

滑动窗口(6)_找到字符串中所有字母异位词

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 滑动窗口(6)_找到字符串中所有字母异位词 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记,欢迎大家在评论区交流讨论&#x1f4…

Jetbrains开发工具使用通义灵码

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、安装二、使用步骤1.模型选择2.存在的问题 总结 前言 之前用过tabnine等AI工具,tabnine还行,有免费版,但是效果有限&…

element-ui 日期选择器设置禁用日期

element-ui 日期选择器设置禁用日期 效果图如下: 2024-09-01 到2024-09-18之间的日期都不可选 2024-01-01之前的日期都不可选 官方文档中 picker-options 相关的介绍 实现功能: ​ 某仓库有限制最大可放置资产数量,且资产出借和存放都有…