一、统计学习
1、定义
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
统计学习也称为统计机器学习(statistical machine learning)。
2、对象
统计学习研究的对象是数据(data)
数据是计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。
数据的基本假设是同类数据具有一定的统计规律性。
可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
在统计学习中,以变量或变量组表示数据。
数据分为由连续变量和离散变量表示的类型。
3、目的
用于对数据(特别是未知数据)进行预测和分析。
4、方法
监督学习
无监督学习
强化学习
部分监督学习
主动学习
5、三要素
统计学习方法包括模型的假设空间、 模型选择的准则以及模型学习的算法。 称其为统计学习方法的三要素, 简称为模型(model)、 策略(strategy)和算法(algorithm)。
给定的、 有限的、 用于学习的训练数据(training data)集合出发, 假设数据是独立同分布产生的,并且假设要学习的模型属于某个函数的集合, 称为假设空间(hypothesis space);
应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型, 使它对已知的训练数据及未知的测试数据(test data)在给定的评价准则下有最优的预测;
最优模型的选取由算法实现。
6、步骤
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间, 即学习模型的集合;
(3)确定模型选择的准则, 即学习的策略;
(4)实现求解最优模型的算法, 即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析
二、机器学习
1、定义与概念
机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论
部分定义:
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究”。
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
2、机器学习与数据挖掘
机器学习是数据挖掘的重要工具。数据挖掘试图从海量数据中找出有用的知识。
数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。
机器学习不仅仅可以用在数据挖掘上,增强学习与自动控制等等子领域甚至与数据挖掘关系不大。
大体上数据挖掘可以视为机器学习和数据库的交叉,主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
3、机器学习与统计学习
一般来说
统计学研究形式化和推导,强调低维空间问题的统计推导
机器学习更容忍一些新方法,强调高维预测问题
而总体而言,统计学习和机器学习内容是高度一致的,大部分时候提及机器学习同样可以指代统计学习,至少在理论部分如此。