Python从0到100(六十):机器学习-模型选择与交叉验证

1、为什么需要交叉验证

交叉验证目的:为了让被评估的模型更加准确可信
在机器学习中,模型的性能评估至关重要。如果仅使用训练数据进行模型训练,然后直接在测试集上进行评估,可能会出现模型对训练数据过拟合的问题。过拟合的模型在训练集上表现良好,但在未知数据上泛化能力较差。为了解决这个问题,我们需要交叉验证来更准确地评估模型的泛化能力。

1.1 提高模型泛化能力

通过交叉验证,我们可以确保模型在多个不同的数据子集上都能保持较好的性能,从而提高模型的泛化能力。

1.2 数据利用更充分

交叉验证使得数据被更充分地利用,每一部分数据都既用于训练也用于验证,提高了评估结果的可靠性。

2、什么是交叉验证(cross validation)

交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。

2.1 分析

我们之前知道数据分为训练集和测试集,但是为了让从训练得到模型结果更加准确。做以下处理

  • 训练集:训练集+验证集
  • 测试集:测试集
    在这里插入图片描述
    问题:那么这个只是对于参数得出更好的结果,那么怎么选择或者调优参数呢?

2.2 交叉验证的类型

  • 留一法交叉验证(LOOCV):每次留下一个样本作为验证集,其余作为训练集,适用于数据量非常小的情况。
  • k折交叉验证:将数据集分为k份,每次取一份作为验证集,其余k-1份作为训练集,重复k次。
  • 分层交叉验证:在分割数据时保持原始数据中各类别比例的交叉验证方法。

3、超参数搜索-网格搜索(Grid Search)

通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

3.1 模型选择与调优

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)

  • 对估计器的指定参数值进行详尽搜索
  • estimator:估计器对象
  • param_grid:估计器参数(dict){“n_neighbors”:[1,3,5]}
  • cv:指定几折交叉验证
  • fit:输入训练数据
  • score:准确率
  • 结果分析:
    最佳参数:best_params_
    print(“最佳参数:\n”, estimator.best_params_)
    最佳结果:best_score_
    print(“最佳结果:\n”, estimator.best_score_)
    最佳估计器:best_estimator_
    print(“最佳估计器:\n”, estimator.best_estimator_)
    交叉验证结果:cv_results_
    print(“交叉验证结果:\n”, estimator.cv_results_)

3.2鸢尾花案例增加K值调优

def knn_iris_gscv():"""用KNN算法对鸢尾花进行分类,添加网格搜索和交叉验证:return:"""# 1)获取数据iris = load_iris()# 2)划分数据集x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)# 3)特征工程:标准化transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 4)KNN算法预估器estimator = KNeighborsClassifier()# 加入网格搜索与交叉验证# 参数准备param_dict = {"n_neighbors": [1, 3, 5, 7, 9, 11]}estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10)estimator.fit(x_train, y_train)# 5)模型评估# 方法1:直接比对真实值和预测值y_predict = estimator.predict(x_test)print("y_predict:\n", y_predict)print("直接比对真实值和预测值:\n", y_test == y_predict)# 方法2:计算准确率score

4、交叉验证的优势与局限性

4.1 优势

  • 降低过拟合风险:通过多次交叉验证,模型在多个子集上的表现平均化,减少了偶然性,提高了模型的泛化能力。
  • 数据高效利用:相比于简单的训练集测试集划分,交叉验证能够更高效地利用有限的数据进行模型训练和评估。
  • 模型稳定性评估:交叉验证可以给出模型在不同数据子集上的性能表现,有助于评估模型的稳定性。

4.2 局限性

  • 计算成本高:尤其是对于大数据集和复杂模型,交叉验证需要多次训练和验证,计算成本较高。
  • 不适用于时间序列数据:交叉验证通常假设数据是独立同分布的,而时间序列数据具有时间依赖性,直接应用交叉验证可能会导致数据泄露。
  • 可能不适合不平衡数据集:在类别不平衡的情况下,交叉验证可能会使得某些类别在验证集中出现频率过低,影响模型评估的准确性。

5、交叉验证的实践步骤

5.1 数据预处理

在进行交叉验证之前,需要对数据进行预处理,包括数据清洗、特征选择、特征缩放等步骤,以确保数据质量。

5.2 数据划分

根据交叉验证的类型,将数据集划分为训练集和验证集。对于k折交叉验证,通常将数据集等分为k份。

5.3 模型训练与验证

对于每一折数据,使用相应的训练集训练模型,然后在验证集上进行验证,记录模型性能。

5.4 参数调优

结合网格搜索等技术,对模型的超参数进行搜索和调优,选择在交叉验证中表现最好的参数组合。

5.5 模型评估

在所有交叉验证完成后,使用最优参数组合重新训练模型,并在独立的测试集上进行最终评估。

6、案例分析:鸢尾花数据集上的KNN算法调优

6.1 数据加载与划分

使用sklearn库中的鸢尾花数据集,首先加载数据,然后进行数据划分。

6.2 特征工程

对特征进行标准化处理,以消除不同量纲的影响。

6.3 KNN模型训练与交叉验证

设置不同的K值进行网格搜索,并结合交叉验证来评估每个K值的性能。

6.4 结果分析

输出最佳K值、对应的模型准确率、以及交叉验证的详细结果。

6.5 代码实现

以下是使用Python和sklearn实现KNN算法在鸢尾花数据集上进行交叉验证和网格搜索的完整代码:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
def knn_iris_gscv():# 1)获取数据iris = load_iris()# 2)划分数据集x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)# 3)特征工程:标准化scaler = StandardScaler()x_train = scaler.fit_transform(x_train)x_test = scaler.transform(x_test)# 4)KNN算法预估器knn = KNeighborsClassifier()# 5)网格搜索与交叉验证param_grid = {'n_neighbors': list(range(1, 11))}grid_search = GridSearchCV(knn, param_grid, cv=5)grid_search.fit(x_train, y_train)# 6)输出结果print("最佳参数:", grid_search.best_params_)print("最佳准确率:", grid_search.best_score_)print("测试集准确率:", grid_search.score(x_test, y_test))return None
knn_iris_gscv()

7、总结

交叉验证是评估机器学习模型性能的重要手段,它通过多次训练和验证来提高模型评估的准确性和可靠性。结合网格搜索,可以有效地进行超参数调优,从而获得更好的模型性能。在实际应用中,应根据数据特性和需求选择合适的交叉验证方法和参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1551779.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

python7_标识符

标识符 关键字 说明 1和java一样,python也有关键字,不允许以以下字段作为方法名和类名 2标识符是区分大小写的,例如A和a是不一样的 3标识符第一个数字必须是字母或者下划线,之后可以是字母、数字、下划线 4以双下划线开头或者结…

828华为云征文|华为云 Flexus X 实例初体验

一直想有自己的一款的服务器,为了更好的进行家庭娱乐,甚至偶尔可以满足个人搭建开发环境的需求,直到接触到了华为云 Flexus X 云服务器。Flexus 云服务器 X 实例是面向中小企业和开发者打造的轻量级云服务器。提供快速应用部署和简易的管理能…

第二届两岸新经济产业发展研讨会闭幕,爱迪斯通董事长发表演讲

9月29日,第二届两岸新经济产业发展研讨会在福州高新区圆满落幕。此次研讨会由清华大学两岸发展研究院主办,福州市招商行动领导小组办公室、福州高新区承办,汇聚了两岸的专家学者及企业家代表近200人,共同探讨新质生产力的发展与两…

3.4K Star,你的下一个商店

Hi,骚年,我是大 G,公众号「GitHub 指北」会推荐 GitHub 上有趣有用的项目,一分钟 get 一个优秀的开源项目,挖掘开源的价值,欢迎关注。 在当今电商高速发展的时代,商家和开发者都在寻找更加灵活…

【论文导读】Graphusion (LLM + KGC)

序言 第一次论文出现在 《Leveraging Large Language Models for Concept Graph Recovery and Question Answering in NLP Education》 论文地址:https://arxiv.org/abs/2402.14293 七月份的时候应该是又改进了一次。但是又发了一篇新的地址:《Graphu…

Java应用程序的服务器有哪些?

1.Tomcat、Jetty 和 JBoss 区别? Apache Tomcat、Jetty 和 JBoss都是用于部署Java应用程序的服务器,它们都支持Servlet、JSP和其他Java EE(现在称为Jakarta EE)技术。尽管它们有一些相似的功能,但它们之间还是存在一些…

golang小项目1-家庭收支记账系统

项目地址:golang小项目 参考资料:尚硅谷golang教程P229 家庭收支记账系统 1. 系统简介 1.1 项目背景 在现代社会中,家庭的财务管理显得尤为重要。随着生活成本的不断上升,家庭需要有效地记录和分析收支情况,以确保…

网上租赁系统开发:SpringBoot实践与应用

第2章 关键技术简介 2.1 Java技术 Java是一种非常常用的编程语言,在全球编程语言排行版上总是前三。在方兴未艾的计算机技术发展历程中,Java的身影无处不在,并且拥有旺盛的生命力。Java的跨平台能力十分强大,只需一次编译&#xf…

OpenGL ES 着色器(5)

OpenGL ES 着色器(5) 简述 着色器是在GPU上运行的程序,它会对每一个点都执行一次程序,并且计算出每个像素需要渲染的颜色,我们主要关注着色器的怎么传递数据,在OpenGL ES中,着色器传递数据分几种场景,一种…

简单线性回归分析-基于R语言

本题中&#xff0c;在不含截距的简单线性回归中&#xff0c;用零假设对统计量进行假设检验。首先&#xff0c;我们使用下面方法生成预测变量x和响应变量y。 set.seed(1) x <- rnorm(100) y <- 2*xrnorm(100) &#xff08;a&#xff09;不含截距的线性回归模型构建。 &…

一篇文章快速学会docker容器技术

目录 一、Docker简介及部署方法 1.1Docker简介 1.1.1什么是docker 1.1.2 docker在企业中的应用场景 1.1.3 docker与虚拟化的对比 1.1.4 docker的优势 二 、部署docker 2.1 容器工作方法 2.2 部署第一个容器 2.2.1 配置软件仓库 2.2.2 安装docker-ce并启动服务 2.2.…

B2B商城交易解决方案:赋能企业有效重塑采购与销售新生态

在电商零售领域&#xff0c;商城系统始终是企业搭建商城的关键利器。 伴随着电商行业的蓬勃发展&#xff0c;各类新模式层出不穷&#xff0c;各种商城系统也应运而生&#xff0c;其中B2B商城更是最为常见的一种。 近年来&#xff0c;得益于电子商务的迅猛发展&#xff0c;B2B商…

宿州儿童自闭症寄宿制学校:培养孩子独立能力的专业机构

在探索自闭症儿童教育的广阔领域里&#xff0c;宿州儿童自闭症寄宿制学校以其专业的教育模式和显著的成效&#xff0c;为众多家庭带来了希望。然而&#xff0c;当我们把目光投向中国南方的繁华都市——广州&#xff0c;会发现另一所同样在自闭症儿童教育领域深耕多年、成果显著…

python如何判断图片路径是否存在

1、在向文件夹中保存数据前&#xff0c;先判断该文件夹(路径)是否存在。 save_path /root/.../image/result if not os.path.exists(save_path):os.makedirs(save_path) 本来路径里只有到image文件夹的&#xff0c;执行完后会自动在image下创建result文件夹。 2、在打开某些图…

一款好用的图像处理软件:Photoshop

Photoshop 常被简称为PS&#xff0c;是图像处理领域里最常用也是很重要的一个工具。在平面广告设计、印刷出版等各领域有有着重要的作用。利用Photoshop图像处理软件&#xff0c;可以设计制作报纸、杂志、书籍、招贴广告、海报、建筑效果图、网页等各种精美的作品&#xff0c;普…

Thinkphp/Laravel基于Vue的重庆旅游网站交互设计与实现

目录 系统介绍具体实现截图技术栈和环境说明开发技术简介解决的思路性能/安全/负载方面数据访问方式PHP核心代码部分展示代码目录结构解析系统测试详细视频演示获取源码方式 系统介绍 本系统的设计与实现共包含12个表:分别是关于我们信息表&#xff0c;配置文件信息表&#xf…

车辆重识别(改进的去噪扩散概率模型)论文阅读2024/9/29

所谓改进的去噪扩散概率模型主要改进在哪些方面&#xff1a; ①对数似然值的改进 通过对噪声的那个方差和T进行调参&#xff0c;来实现改进。 ②学习 这个参数也就是后验概率的方差。通过数据分析&#xff0c;发现在T非常大的情况下对样本质量几乎没有影响&#xff0c;也就是说…

智慧应急指挥平台1+6+N体系建设方案

1. 智慧应急指挥平台概述 智慧应急指挥平台是一个综合性的应急响应体系&#xff0c;旨在通过高效的信息整合和通信技术&#xff0c;提升应急管理的智能化水平。该平台采用“16N”的体系结构&#xff0c;集成了智慧城市、智慧园区、智慧矿山等多个智慧应用&#xff0c;并依托三…

ONVIF、GB28181技术特点和使用场景分析

技术背景 好多开发者希望搞明白ONVIF和GB28181的区别和各自适合的场景&#xff0c;为什么大牛直播SDK只做了GB28181接入端&#xff0c;没有做ONVIF&#xff1f;本文就二者差别&#xff0c;做个大概的介绍。 ONVIF ONVIF&#xff08;Open Network Video Interface Forum&…

16.安卓逆向-frida基础-HOOK类方法2

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a;图灵Python学院 本人写的内容纯属胡编乱造&#xff0c;全都是合成造假&#xff0c;仅仅只是为了娱乐&#xff0c;请不要盲目相信。 工…