评估机器学习回归模型的性能和准确度

回归是一种常用的预测模型，用于预测一个连续因变量和一个或多个自变量之间的关系。

那么，最后评估回归模型的性能和准确度非常重要，可以帮助我们判断模型是否有效并进行改进。

接下来，和大家分享如何评估回归模型的性能和准确度。

一、评估指标

1.1 均方误差（MSE）

均方误差（Mean Squared Error, MSE）衡量的是预测值与真实值之间的平均平方差异。MSE越小，模型的预测精度越高。由于平方误差将偏差放大，因此MSE对异常值（Outliers）比较敏感。

$MSE=\frac{1}{n}\sum_{i=1}^{n}\left ( y_{i}-\hat{y}_{i} \right )^{2}$

$y_{i}$ 是第 $i$ 个样本的真实值。 $\hat{y}_{i}$ 是第 $i$ 个样本的预测值。 $n$ 是样本总数。

from sklearn.metrics import mean_squared_error# y_true 是真实值数组，y_pred 是预测值数组
mse = mean_squared_error(y_true, y_pred)
print("Mean Squared Error (MSE):", mse)

1.2 均方根误差（RMSE）

均方根误差（Root Mean Squared Error, RMSE）是MSE的平方根，具有与原数据相同的量纲（单位），因此更容易解释。它同样对异常值敏感。

$RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}\left ( y_{i}-\hat{y}_{i} \right )^{2}}$

import numpy as nprmse = np.sqrt(mean_squared_error(y_true, y_pred))
print("Root Mean Squared Error (RMSE):", rmse)

1.3 平均绝对误差（MAE）

平均绝对误差（Mean Absolute Error, MAE）衡量的是预测值与真实值之间的平均绝对差异。相比MSE和RMSE，MAE对异常值不那么敏感。

$MAE=\frac{1}{n}\sum_{i=1}^{n} \left | y_{i}-\hat{y}_{i} \right |$

from sklearn.metrics import mean_absolute_errormae = mean_absolute_error(y_true, y_pred)
print("Mean Absolute Error (MAE):", mae)

1.4. 决定系数（R²）

决定系数（R²）衡量的是模型解释数据变异的比例。其取值范围在0到1之间，值越接近1，模型解释能力越强。如果R²为0，表示模型没有解释任何数据变异；如果R²为1，表示模型完美地解释了数据变异。

$R^{2}=\frac{\sum_{i=1}^{n}\left ( y_{i}-\hat{y}_{i} \right )^{2}}{\sum_{i=1}^{n}\left ( y_{i}-\bar{y}_{i} \right )^{2}}$

$\bar{y}_{i}$ 是真实值的平均值。

from sklearn.metrics import r2_scorer2 = r2_score(y_true, y_pred)
print("R² (Coefficient of Determination):", r2)

二、评估图

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression# 生成示例数据
np.random.seed(0)
X = 2 * np.random.rand(1000, 1)
y = 4 + 3 * X + np.random.randn(1000, 1)# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)# 训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)# 预测
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

2.1 真实值与预测值的散点图

我们可以通过散点图比较真实值与预测值，直观展示模型的预测效果。

plt.scatter(X_test, y_test, color='black', label='Actual Values')
plt.scatter(X_test, y_test_pred, color='blue', label='Predicted Values')
plt.plot(X_test, y_test_pred, color='red', linewidth=2, label='Regression Line')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Actual vs Predicted Values')
plt.legend()
plt.show()

2.2 预测误差的分布图

预测误差（真实值与预测值的差异）的分布图可以帮助我们了解模型误差的分布情况。

errors = y_test - y_test_predplt.hist(errors, bins=20, edgecolor='black')
plt.xlabel('Prediction Error')
plt.ylabel('Frequency')
plt.title('Distribution of Prediction Errors')
plt.show()

2.3 学习曲线

习曲线展示了训练误差和验证误差随训练集大小的变化情况，有助于我们诊断模型是否存在欠拟合或过拟合问题。

from sklearn.model_selection import learning_curvetrain_sizes, train_scores, test_scores = learning_curve(model, X, y, cv=5, scoring='neg_mean_squared_error')train_scores_mean = -train_scores.mean(axis=1)
test_scores_mean = -test_scores.mean(axis=1)plt.plot(train_sizes, train_scores_mean, label='Training error')
plt.plot(train_sizes, test_scores_mean, label='Validation error')
plt.ylabel('MSE')
plt.xlabel('Training set size')
plt.title('Learning Curves')
plt.legend()
plt.show()

以上是详细介绍如何评估回归模型的性能和准确度，包括各个评估指标的原理、公式推导以及在Python中的实现。

参考：

机器学习模型评估的方法总结（回归、分类模型的评估）_分类模型评估方法-CSDN博客

模型评估指标总结（预测指标、分类指标、回归指标）_常见模型误差评价指标-CSDN博客

机器学习笔记：回归模型评估指标——MAE、MSE、RMSE、MAPE、R2等 - Hider1214 - 博客园

持续更新中。。。