一、机器学习定义
定义一
1959年Arthur Samuel提出机器学习的定义:
Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed.
译文:机器学习是这样的领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式的编程获得的。
什么是显著式?
人为的告诉计算机,菊花是黄色的,玫瑰是红色的。
非显著式的编程
如果我们只给计算机一堆菊花和玫瑰的图片,编写程序让计算机自己去总结菊花和玫瑰的区别。
计算机通过大量的图片,从一大堆可能的规律中挑出最能区分菊花和玫瑰的一些规律,从而完成对菊花和玫瑰的识别。
举例
需求:让机器人到教室外面的咖啡机去我们冲一杯咖啡。
显著式的编程:
我们必须帮计算机规划所处环境,每一步怎么走都要规划的一清二楚。
非显著式的编程:
我们可以规定机器人可以采取一系列的行为,例如向左转,向右转等。
规定在特定的环境下,机器人做这些行为所带来的收益,把这个成为收益函数(Reward Function)。
例如,机器人采取的某个行为撞到了墙上,规定这时候的收益函数值为负。如果机器人采取某个行为取到了咖啡,那么程序就要奖励一下这个行为,规定这时候的收益函数值为正。
只要程序编的足够好,计算机是可能找到一个最大化收益函数的行为模式。
结论:非显著式的编程能够让计算机通过数据和经验自动的学习完成我们交给的任务。
定义二
1998年Tom Mitshell在《Machine Learning》中的定义:
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
译文:一个计算机程序被称为可以学习,是指它能针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。
举例
以菊花和玫瑰为例。
任务T:编写程序识别菊花和玫瑰
经验E:一大堆菊花和玫瑰的图片
性能指标P:不同的机器学习算法会有不同
识别率(Recognition Rate):让更多的菊花被识别为菊花,更多的玫瑰被识别为玫瑰
根据Tom Mitshell的定义,机器学习就是针对识别菊花和玫瑰这样的任务构造某种算法。这种算法的特点是,当训练的菊花和玫瑰的图片越来越多的时候,也就是经验E越来越多的时候,识别率越来越高。
二、机器学习的分类
机器学习算法可以分为监督学习和强化学习,但这个划分并不绝对。
监督学习(Supervised Learning)
一些输入计算机训练数据(所有的经验E都是由人工采集并输入进计算机的)同时加上标签的机器学习。
对于监督学习,可以根据数据标签的存在与否分为三类:
-
传统的监督学习(Traditional Supervised Learning)
每一个训练数据都有对应的标签。
如支持向量机(Support Victor Motion)、人工神经网络(Neural Networks)、深度神经网络(Deep Neural Networks)。
-
非监督学习(Unsupervised Learning)
所有的训练数据都没有对应的标签。
如图,左边的图像,⭕代表一类,❌代表一类。右边的图像总,假设有这些训练的数据,但不知道这些训练数据的标签。所以就需要假设同一类的训练数据在空间中的距离更近。
如聚类(Classtery)、EM算法(Expectation-Maximization algorithm)、主成分分析(Principle Component Analysis)
-
半监督学习(Seme Supervised Learning)
训练数据中一部分有标签,另一部分没标签。
利用少量的标注数据和大量没有标注过的数据一起训练。
如图,左边的图中,如果只有两个标注过的训练样本,我们并不知道如何进行分类。但是如果我们增加一些没有标签的训练样本,如右图所示,那么我们可能设计算法更准确的实现分类。
另一种分类方法是基于标签的固有属性。
-
分类(Classification)
标签是离散的值。
如识别一张人脸是一堆人脸中的哪一个。
-
回归(Regression)
标签是连续的值。
如预测房价,预测股票的价格等。
强化学习(Reinforcement Learning)
经验E是由计算机与环境相互的互动获得的。
计算机产生行为同时获得这个行为的结果,程序只需要定义这些行为的收益函数,对行为进行奖励和惩罚。同时需要设计算法,让计算机自动的通过改变自己的行为模式去最大化收益函数,完成学习的过程。
三、机器学习算法的过程
拿到数据之后,构建机器学习算法的第一步是观察数据,总结规律。如果我们总结对数据没有感性的认识,我们就很难设计出好的算法,也很难估计算法可能达到的性能极限。
错误做法:认为只要收集足够多的数据,从网上随便下载一个开源的算法模型,直接将数据丢到算法模型当中去训练,就可能获得很好的结果。
如图,可能被观察到的区别,总结起来包括如下三个方面:
- 平均来说,白细胞的面积比红细胞更大。
- 平均来说,白细胞没有红细胞那么圆。
- 白细胞内部的纹理比红细胞要粗糙一些。
机器学习的第一步
特征提取(Feature Extraction)
特征提取是指通过训练样本获得对机器学习任务有帮助的多个维度的特征数据。
首先特征的提取和特征选择,不同的任务提取特征的方式有不同。基于特征构建算法。不同的算法会对特征空间做不同的划分,获得不同的结果。
例如,支持向量机(Support Victor Motion)
支持向量机有三至内核:线性内核、多项式内核、高斯镜像奇函数核。