XGBoost模型中参数stratify的作用

XGBoost模型中参数stratify的作用

news/2024/10/6 8:44:13/文章来源:https://blog.csdn.net/LiuRuiaby35646/article/details/140251995

目录

1.参数stratify的作用
2.代码演示
3. 为什么XGBoost从分类模型转成回归模型，这个参数要去掉呢?

1.参数stratify的作用

在使用XGBoost进行分类任务时，数据集通常会被分成训练集和测试集。为了确保训练集和测试集中的类分布与原始数据集中的类分布一致，可以使用 train_test_split 函数中的 stratify 参数。
当数据集的类分布不均衡时，直接进行随机分割可能会导致训练集和测试集中类的比例不一致，从而影响模型的性能和评估结果。使用 stratify 参数可以确保分割后的训练集和测试集中的每个类的比例与原始数据集中相同。

2.代码演示

import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score# 加载示例数据集
data = load_iris()
X = data.data
y = data.target# 使用 stratify 参数进行分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)# 转换为 DMatrix 格式
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)# 设置 XGBoost 参数
params = {'objective': 'multi:softmax','num_class': 3,'eval_metric': 'mlogloss'
}# 训练模型
bst = xgb.train(params, dtrain, num_boost_round=10)# 进行预测
y_pred = bst.predict(dtest)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

使用 train_test_split 函数，并通过 stratify=y 参数确保训练集和测试集中每个类的比例与原始数据集相同。

3. 为什么XGBoost从分类模型转成回归模型，这个参数要去掉呢?

在使用 XGBoost 进行分类和回归任务时，需要设置不同的参数来指定模型的类型。stratify 参数是用于数据集分割中的参数，它与模型的类型（分类或回归）无关。通常，在分类任务中使用 stratify 参数是为了保证训练集和测试集中各个类别的比例与原始数据集一致。

然而，当从分类任务切换到回归任务时，标签 y 是连续值而不是离散的类别，因此 stratify 参数就不再适用了，因为 stratify 只能用于分类任务中的类别平衡。在回归任务中，当进行数据集划分时，只需指定 test_size 和 random_state 即可。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/1474597.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

相关文章

数学系C++（六七）

数学系C++（六七）

目录 * &指针与地址 void指针指针可以等于： const 指向常量的指针 const int *px 常指针 int * const px 指向常量的常指针const 类型标识符 * const 指针名指针加减： 指针恒等式函数指针【待续】指针型函数： 指向函数的…

阅读更多...

52-5 内网代理2 - LCX端口转发（不推荐使用LCX）

52-5 内网代理2 - LCX端口转发（不推荐使用LCX）

环境搭建：本地开3台虚拟机：kali（必须）、windows2012与2008 （可换成其他windows虚拟机） kali - 网络配置成桥接模式 windows2012 - 设置两个网卡，NAT与桥接模式注意：windows2012要关闭防火墙，要不然其他主机ping不通关闭防火墙后再开启远程桌面连接 windwos20…

阅读更多...

$拉曼光谱入门：3.拉曼光谱的特征参数与定量定性分析策略$

拉曼光谱入门：3.拉曼光谱的特征参数与定量定性分析策略

1.特征参数 1.1 退偏振率退偏振率（p）是一个衡量拉曼散射光偏振状态的参数，它描述了拉曼散射光的偏振方向与入射光偏振方向之间的关系。退偏振率定义为垂直偏振方向的拉曼散射强度与平行偏振方向的拉曼散射强度之比。退偏振率（p&…

阅读更多...

Hi6602 恒压恒流SSR电源方案

Hi6602 恒压恒流SSR电源方案

Hi6602是一款针对离线式反激电源设计的高性能PWM控制器。Hi6602内集成有通用的原边恒流控制技术，可支持断续模式和连续模式工作，适用于恒流输出的隔离型电源应用中。Hi6602内部具有高精度65kHz开关频率振荡器，且带有抖频功能可优化EMI性能。H…

阅读更多...

【全面介绍下如何使用Zoom视频会议软件！】

【全面介绍下如何使用Zoom视频会议软件！】

🎥博主：程序员不想YY啊 💫CSDN优质创作者，CSDN实力新星，CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益，如有不足之处，欢迎在评论区提出…

阅读更多...

WEB自动化框架封装MySQL连接及sql断言教程

WEB自动化框架封装MySQL连接及sql断言教程

为了在Web自动化测试中连接MySQL数据库并进行SQL断言，您可以按照以下步骤： 安装MySQL Connector/Python驱动程序，并导入它。使用Connector/Python创建一个连接对象，指定所需的主机名、用户名、密码和数据库名。创建一个游标对…

阅读更多...

系统级别的原生弹窗窗口

系统级别的原生弹窗窗口

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>原生的弹出窗口dialog</title><style>…

阅读更多...

相见恨晚的《新程序员》 AI 专辑

相见恨晚的《新程序员》 AI 专辑

声明：本文并不什么“软文”，是我的真实感受分享。本人和《新程序员》无任何利益关系，读者购买专栏我不会获得任何分成。一、前言前不久有位朋友送我一本 CSDN 出品的《新程序员 006：人工智能新十年》的杂志。说实话&#x…

阅读更多...

Axure教程：App侧边抽屉菜单交互制作

Axure教程：App侧边抽屉菜单交互制作

今天给大家示范一下抽屉菜单在Axure中的做法。在抽屉式菜单中，要实现两个交互效果，分别是： 交互一抽屉菜单中1、2级菜单项的伸缩效果实现逻辑：设置动态面板的切换状态及“推动/拉动原件”实现交互二菜单项的选中状态切换 …

阅读更多...

Nuxt3 的生命周期和钩子函数（十）

Nuxt3 的生命周期和钩子函数（十）

title: Nuxt3 的生命周期和钩子函数（十） date: 2024/6/30 updated: 2024/6/30 author: cmdragon excerpt: 摘要：本文详细介绍了Nuxt3框架中的五个webpack钩子函数：webpack:configResolved用于在webpack配置解析后读取和修改配置…

阅读更多...

秋招力扣刷题——从前序与中序遍历序列构造二叉树

秋招力扣刷题——从前序与中序遍历序列构造二叉树

一、题目要求给定两个整数数组 preorder 和 inorder ，其中 preorder 是二叉树的先序遍历， inorder 是同一棵树的中序遍历，请构造二叉树并返回其根节点。二、解法思路根据二叉树的遍历结构重构二叉树，至少两种遍历方式结合&…

阅读更多...

批量爬取B站网络视频信息

批量爬取B站网络视频信息

使用XPath爬取B站视频链接等相关信息分析B站html框架获取内容完整代码对于B站，目前网上的爬虫大多都是使用通过解析服务器的响应来爬取想要的内容，下面我们通过使用XPath来爬取B站上一些想要的信息此次任务我们需要对B站搜索到的关键字，并…

阅读更多...

苍穹外卖--sky-take-out（四）10-12

苍穹外卖--sky-take-out（四）10-12

苍穹外卖--sky-take-out（一） 苍穹外卖--sky-take-out（一）-CSDN博客编辑https://blog.csdn.net/kussm_/article/details/138614737?spm1001.2014.3001.5501https://blog.csdn.net/kussm_/article/details/138614737?spm1001.2…

阅读更多...

创维汽车开展年中总结会：创新创造·勇开拓智慧经营·攀高峰

创维汽车开展年中总结会：创新创造·勇开拓智慧经营·攀高峰

2024年7月3日，回顾上半年的工作成果，总结经验教训，明确下半年的发展方向和重点任务，创维汽车于山西省晋中市榆次区山西联合创维体验中心开展年中总结会。创维集团、创维汽车创始人黄宏生；开沃集团联合创始人、首席执…

阅读更多...

昇思25天学习打卡营第12天|FCN图像语义分割

昇思25天学习打卡营第12天|FCN图像语义分割

文章目录昇思MindSpore应用实践基于MindSpore的FCN图像语义分割1、FCN 图像分割简介2、构建 FCN 模型3、数据预处理4、模型训练自定义评价指标 Metrics 5、模型推理结果 Reference 昇思MindSpore应用实践本系列文章主要用于记录昇思25天学习打卡营的学习心得。基于MindSpo…

阅读更多...

MySQL Binlog详解：提升数据库可靠性的核心技术

MySQL Binlog详解：提升数据库可靠性的核心技术

文章目录 1. 引言1.1 什么是MySQL Bin Log？1.2 Bin Log的作用和应用场景 2. Bin Log的基本概念2.1 Bin Log的工作原理2.2 Bin Log的三种格式 3. 配置与管理Bin Log3.1 启用Bin Log3.2 配置Bin Log参数3.3 管理Bin Log文件3.4 查看Bin Log内容3.5 使用mysqlbinlog工具…

阅读更多...

Oracle连接失败，ORA-12514, TNS:listener does not currently know of service requested in connect descripto

Oracle连接失败，ORA-12514, TNS:listener does not currently know of service requested in connect descripto

问题描述在Window上搭建Oracle数据库，安装后启动，使用Dbeaver连接时无法连接，报错：Listener refused the connection with the following error: ORA-12514, TNS:listener does not currently know of service requested in connect descriptor Listener refused the c…

阅读更多...

MySQL 中的 DDL、DML、DQL 和 DCL

MySQL 中的 DDL、DML、DQL 和 DCL

文章目录 1. 数据定义语言（DDL）2. 数据操作语言（DML）3. 数据查询语言（DQL）4. 数据控制语言（DCL）总结在 MySQL 数据库管理系统中，SQL 语句可以根据其功能分为不同的类别&…

阅读更多...

Git管理源代码、git简介，工作区、暂存区和仓库区，git远程仓库github，创建远程仓库、配置SSH，克隆项目

Git管理源代码、git简介，工作区、暂存区和仓库区，git远程仓库github，创建远程仓库、配置SSH，克隆项目

学习目标能够说出git的作用和管理源代码的特点能够如何创建git仓库并添加忽略文件能够使用add、commit、push、pull等命令实现源代码管理能够使用github远程仓库托管源代码能够说出代码冲突原因和解决办法能够说出 git 标签的作用能够使用使用git实现分支创建，合并…

阅读更多...

Git注释规范

Git注释规范

主打一个有用代码的提交规范参考如下： init:初始化项目feat:新功能（feature）fix:修补bugdocs:文档（documentation）style:格式（不影响代码运行的变动）refactor:重构（即不是新增功能…

阅读更多...

最新文章