机器学习（1）sklearn的介绍和六个主要模块、估计器、模型持久化

文章目录

1.sklearn介绍
2.sklearn的模块
3.监督学习和无监督学习
- - 1. 监督学习 (Supervised Learning)
  - - 例子
  - 2. 无监督学习 (Unsupervised Learning)
  - - 例子
4.估计器
- - 估计器的主要特性和方法包括：
  - 估计器的类型：
  - 示例：使用 scikit-learn 中的估计器
5.模型持久化（sklearn使用joblib，pytorch使用pt/pth）
- - 示例代码
6.监督学习和无监督学习的算法
- - 监督学习算法：
  - 无监督学习算法：

1.sklearn介绍

sklearn中文网址
sklearn英文网址

2.sklearn的模块

在sklearn主页放置了主要的六个模块分别是Classification（分类）、Regression（回归）、Clustering（聚类）、Dimensionality Reduction（降维）、Model selection（模型评估）、Preprocessing（数据预处理）
在这里插入图片描述

除此之外，还有一些模块如

1.树模型模块 (sklearn.tree)：
决策树分类器（DecisionTreeClassifier）
决策树回归器（DecisionTreeRegressor）
随机森林分类器（RandomForestClassifier）
随机森林回归器（RandomForestRegressor）
梯度提升树分类器（GradientBoostingClassifier）
梯度提升树回归器（GradientBoostingRegressor）
2.集成学习模块 (sklearn.ensemble)：
AdaBoost 分类器（AdaBoostClassifier）
AdaBoost 回归器（AdaBoostRegressor）
堆叠分类器（StackingClassifier）
堆叠回归器（StackingRegressor）
3.支持向量机模块 (sklearn.svm)：
支持向量分类器（SVC）
支持向量回归器（SVR）
单类分类器（OneClassSVM）
4.神经网络模块 (sklearn.neural_network)：
多层感知器分类器（MLPClassifier）
多层感知器回归器（MLPRegressor）
5.模型持久化模块 (sklearn.base)：
模型保存和加载（joblib、dump、load）

具体可以参考官网的examples网页，左侧的就是支持的模块，可以点进去查看使用方法。
https://scikit-learn.org/stable/auto_examples/index.html
在这里插入图片描述

3.监督学习和无监督学习

机器学习中的问题类型通常根据数据的特性、学习任务的目标以及用于训练模型的数据标签的可用性来分类。以下是您提到的四类问题的详细解释：

1. 监督学习 (Supervised Learning)

监督学习是一种机器学习方法，其中模型从标记的训练数据学习，每个训练样本都包括输入和相应的输出标签。监督学习的目标是学习一个映射规则，使得模型能够根据新的输入预测输出。它进一步分为两类主要任务：

分类 (Classification)：预测离散标签。
回归 (Regression)：预测连续值。

例子

分类：邮件分类（垃圾邮件检测）、疾病诊断、图像识别。
回归：房价预测、股票价格预测、天气预测。

2. 无监督学习 (Unsupervised Learning)

无监督学习涉及无标签数据，模型必须自行发现输入数据中的结构。无监督学习通常用于聚类、关联规则学习和降维。这种类型的学习对于探索数据和发现数据中的隐藏模式非常有用。

例子

聚类：市场细分、社交网络分析、图像压缩。
关联规则学习：购物篮分析、推荐系统。
降维：PCA（主成分分析）、t-SNE（t-分布随机邻域嵌入）。

4.估计器

在机器学习中，估计器（Estimator）是一个通用术语，指的是任何可以从数据中学习并做出预测的算法或模型。在 scikit-learn 这样的机器学习库中，估计器通常是一个实现了特定接口的类，这个接口包括至少两个方法：fit() 和 predict()。估计器的目标是捕捉数据中的模式，并能够对新数据做出预测或决策。

估计器的主要特性和方法包括：

fit(X, y)：
- 这是训练模型的主要方法。它接受输入数据 X 和目标变量 y，并根据这些数据来训练估计器。在训练过程中，估计器会调整其内部参数以最好地拟合数据。
predict(X)：
- 一旦估计器被训练，predict() 方法用于对新数据 X 进行预测。它使用 fit() 方法训练得到的模型参数来预测数据的输出。
score(X, y) (可选)：
- 许多估计器还实现了 score() 方法，它返回一个分数，表示模型在给定数据 X 和 y 上的性能。对于分类任务，这通常是准确率；对于回归任务，可能是均方误差或其他指标。
get_params() 和 set_params()：
- 这些方法允许用户获取或设置估计器的参数。这在超参数调整和模型配置中非常有用。

估计器的类型：

分类器（Classifiers）：
- 用于分类任务的估计器，如逻辑回归、支持向量机、决策树等。
回归器（Regressors）：
- 用于预测连续值的估计器，如线性回归、岭回归等。
聚类器（Clusterers）：
- 用于将数据分组的估计器，如 K-Means、层次聚类等。
降维器（Dimensionality Reducers）：
- 用于减少数据维度的估计器，如主成分分析（PCA）、t-SNE等。

示例：使用 scikit-learn 中的估计器

from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression# 创建数据
X, y = make_regression(n_samples=100, n_features=1, noise=20)# 创建估计器实例
model = LinearRegression()# 训练模型
model.fit(X, y)# 进行预测
predictions = model.predict(X)# 评估模型
score = model.score(X, y)
print("模型得分:", score)

在这个例子中，LinearRegression 是一个估计器，用于解决回归问题。它通过 fit() 方法学习数据，并通过 predict() 方法进行预测。

估计器是机器学习中的核心概念，为算法的实现和使用提供了一个统一和灵活的框架。

5.模型持久化（sklearn使用joblib，pytorch使用pt/pth）

模型持久化是指将训练好的机器学习模型保存到磁盘上，以便将来可以重新加载和使用，而无需重新训练。在Python中，有几个常用的库可以用来进行模型持久化：

pickle：
- pickle 是Python的标准库，可以序列化和反序列化Python对象结构。
- 产生 .pkl 文件。
joblib：
- joblib 是一个专为Python中大型数组和模型持久化设计的库，常用于机器学习任务。
- 特别适合用于包含大量数值数据的对象，如NumPy数组和scikit-learn模型。
- 产生 .joblib 文件。
PyTorch torch.save：
- PyTorch提供了 torch.save 函数来保存模型或模型的状态字典。
- 产生 .pt 或 .pth 文件。
TensorFlow tf.keras.models.save：
- TensorFlow和Keras提供了 save 方法来保存模型。
- 可以保存为HDF5文件（.h5）或SavedModel格式（包含 .pb 和变量的目录）。
h5py：
- h5py 是用于与HDF5文件交互的Python库，Keras等深度学习框架使用它来保存模型。
- 产生 .h5 文件。
joblib 和 pickle 比较：
- joblib 在处理大数组时通常比 pickle 更高效，因为它采用了更高效的压缩和存储机制。
- joblib 也更适合持久化包含大量数值数据的模型，如机器学习模型。

示例代码

使用 joblib 保存和加载模型：

from sklearn.linear_model import LinearRegression
from joblib import dump, load# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)# 保存模型
dump(model, 'model.joblib')# 加载模型
model = load('model.joblib')

使用 pickle 保存和加载模型：

import pickle# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)# 保存模型
with open('model.pkl', 'wb') as file:pickle.dump(model, file)# 加载模型
with open('model.pkl', 'rb') as file:model = pickle.load(file)