【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】

请添加图片描述


👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉公众号👈:测试开发自动化【获取源码+商业合作】
👉荣__誉👈:阿里云博客专家博主、51CTO技术博主
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。


【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】


目录

  • 【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
  • 一、设计要求
  • 二、设计思路
  • 三、模型预测
    • 绘制审计风险总数的分布


一、设计要求

要求完成以下功能:
1.能够导入包,能够读取数据集文件audit_risk和customer上运用决策树算法进行分类预测。
2.能够将指定的信息从文件中删除。
3.能够可视化数据并将结果显示在屏幕上。
4.能够数据预处理。
5.能够数据划分、模型训练、效果评估。
6.能够进行预测病显示预测结果。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


二、设计思路

  1. 导入所需的库和读取数据
    首先,导入需要使用的Python库,包括pandas、numpy、scikit-learn、matplotlib和seaborn。接着,使用pandas读取客户信息数据集(customer.csv)和审计风险数据集(audit_risk.csv),并将其加载到数据框中。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import classification_report, confusion_matrix, accuracy_scoreimport matplotlib.pyplot as pltimport seaborn as snscustomer_df = pd.read_csv('customer.csv')audit_risk_df = pd.read_csv('audit_risk.csv')

数据预处理
数据预处理是数据分析和机器学习中非常关键的一步。首先,检查数据集中是否存在缺失值,并使用前向填充法填充缺失值,以保证数据的完整性。接着,将客户数据中的婚姻状况和性别字段转换为数值型,以便模型能够正确处理这些分类变量。最后,确保审计风险数据集中所有特征均为数值类型,填充转换后的缺失值。

   # 检查缺失值print("客户数据缺失值:\n", customer_df.isnull().sum())print("审计风险数据缺失值:\n", audit_risk_df.isnull().sum())# 填充缺失值()customer_df.fillna(method='ffill', inplace=True)# 将分类变量转换为数值变量customer_df['marital_status'] = customer_df['marital_status'].map({'M': 1, 'S': 0})# 确保所有数据都是数值类型for column in audit_risk_df.columns:# 略。。。。 略。。。。# 略。。。。 略。。。。# 略。。。。 略。。。。# 略。。。。 略。。。。# 填充转换后的缺失值audit_risk_df.fillna(method='ffill', inplace=True)

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

  1. 数据划分和模型训练
    将审计风险数据集分为特征和标签两部分。特征包括除“Risk”外的所有列,标签为“Risk”列。然后,将数据集划分为训练集和测试集,以70%的数据作为训练集,30%的数据作为测试集。使用决策树分类算法对训练集数据进行模型训练。
   # 选择特征和标签features = audit_risk_df.drop(columns=['Risk'])labels = audit_risk_df['Risk']# 数据划分X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)# 构建决策树模型# 略。。。。 略。。。。# 预测y_pred = clf.predict(X_test)

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

  1. 效果评估
    使用测试集数据对训练好的模型进行预测,并生成混淆矩阵、分类报告和准确率等评估指标。通过这些评估指标,可以了解模型的预测效果和性能。
   # 显示评估结果print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))print("分类报告:\n", classification_report(y_test, y_pred))print("准确率:", accuracy_score(y_test, y_pred))

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


三、模型预测

对数据和模型结果进行可视化展示,包括特征重要性图、混淆矩阵热图和审计风险总数分布图。这些图表可以帮助我们更直观地了解数据和模型的表现。

   # 绘制特征重要性plt.figure(figsize=(12, 8))feature_importances = pd.Series(clf.feature_importances_, index=features.columns)feature_importances.nlargest(10).plot(kind='barh')plt.title('特征重要性')plt.show()

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   # 绘制混淆矩阵plt.figure(figsize=(8, 6))conf_matrix = confusion_matrix(y_test, y_pred)sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')plt.title('混淆矩阵')plt.xlabel('预测值')plt.ylabel('实际值')plt.show()

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

绘制审计风险总数的分布

在这里插入图片描述

根据用户指定的条件删除数据中的特定记录,并保存修改后的数据。以下示例代码删除年收入在$10K以下的客户,并将修改后的数据保存到新的文件中。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈

   # 删除指定信息def delete_info(df, condition):return df.drop(df[condition].index)# 删除年收入在$10K以下的客户customer_df = delete_info(customer_df, customer_df['yearly_income'] == '$10K - $30K')# 略。。。。 略。。。。# 保存修改后的数据customer_df.to_csv('customer_modified.csv', index=False)

预测新数据
对新数据进行预测,并展示预测结果。以下代码使用测试集的前五行数据作为新数据示例,进行预测并展示预测结果。预测结果被保存到文件中,以便用户查看和分析。

   # 进行预测并显示预测结果new_data = X_test.iloc[:5]  # 这里使用测试集的前5行数据作为新数据示例predictions = clf.predict(new_data)print("新数据的预测结果:\n", predictions)# 将结果保存到文件result_df = pd.DataFrame(new_data)result_df['Prediction'] = predictions# 略。。。。 略。。。。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 决策树 ” 获取。👈👈👈


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1474427.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

仿写Spring IOC

文章目录 IOC思路手写代码思路一些杂七杂八(可跳过) IOC思路 手写代码思路 手写代码的思路: 自定义一个MyAnnotationConfigApplicationContext,构造器中传入要扫描的包。获取这个包下的所有类。遍历这些类,找出添加了Component注…

智慧水利的变革之路:如何通过大数据、物联网和人工智能构建高效、智能、可持续的水利管理新模式

目录 一、引言:智慧水利的时代背景与意义 二、大数据:水利管理的数据基石 (一)数据收集与整合 (二)数据分析与挖掘 三、物联网:水利管理的感知神经 (一)智能感知与监…

14-22 剑和远方2 - 深度神经网络中的学习机制

概论 在第一部分中,我们深入探讨了人工智能的兴衰简史以及推动人工智能发展的努力。我们研究了一个简单的感知器,以了解其组件以及简单的 ANN 如何处理数据和权重层。在简单的 ANN 中,不会对数据执行特定操作。ANN 中的激活函数是一个线性函…

【面试八股文】java基础知识

引言 本文是java面试时的一些常见知识点总结归纳和一些拓展,笔者在学习这些内容时,特地整理记录下来,以供大家学习共勉。 一、数据类型 1.1 为什么要设计封装类,Integer和int区别是什么? 使用封装类的目的 对象化:…

MPC学习资料汇总

模型预测控制MPC学习资料汇总 需要的私信我~ 需要的私信我~ 需要的私信我~ 【01】课件内容 包含本号所有MPC课程的课件,以及相关MATLAB文档。 【02】课件源代码 本号所有MPC课程的源代码。 【03】MPC仿真案例 三个MPC大型仿真案例: 1)…

纯前端低代码开发脚手架 - daelui/molecule

daelui/molecule低代码开发脚手架:分子组件开发、预览、打包 页面代码示例、大屏代码示例预览 可开发页面组件 可开发大屏组件 项目git地址:https://gitee.com/daelui/molecule 在线预览:http://www.daelui.com/daelui/molecule/app/index.…

Codeforces Round 955 E. Number of k-good subarrays【分治、记忆化】

E. Number of k-good subarrays 题意 定义 b i t ( x ) bit(x) bit(x) 为 x x x 的二进制表示下 1 1 1 的数量 一个数组的子段被称为 k − g o o d k-good k−good 的当且仅当:对于这个子段内的每个数 x x x,都有 b i t ( x ) ≤ k bit(x) \leq k…

ubuntu24.04按关键字卸载不需要的apt包

使用的时候发现一个imagemagic无法正常读取文件,试图卸载 man apt经过尝试后,发现list的一个神奇关键字,用来显示已安装的软件包 sudo apt list --installed | grep image按image关键字过滤: 之后按软件名卸载即可 sudo apt pu…

30多款简洁个人博客网站网页模板演示学习

30多款个人博客个人网站divcss,html在线预览,静态页面模板免费下载.这些简洁和优雅的博客网页模板,为那些想成为创建博客的个人或媒体提供灵感设计。网页模板可以记录旅游、生活方式、食品或摄影博客等网站。 http://www.bokequ.com/blog/1/ http://www.bokequ.com/blog/2/ htt…

vue事件处理v-on或@

事件处理v-on或 我们可以使用v-on指令(简写)来监听DOM事件,并在事件触发时执行对应的Javascript。用法:v-on:click"methodName"或click"hander" 事件处理器的值可以是: 内敛事件处理器&#xff1…

无人机有哪些关键技术?

一、控制技术 无人机的核心还是在控制上,飞控系统的可靠性、稳定性及可扩展性是其中重要的指标。可靠性上,除了器件选型之外,目前主要靠多余度来增加;稳定性主要体现在多场景下仍能保持良好的工作状态,主要靠算法来进…

轻松创建对象——简单工厂模式(Java实现)

1. 引言 大家好,又见面了!在上一篇文章中,我们通过Python示例介绍了简单工厂模式,今天,我们继续深入这个话题,用Java来实现简单工厂模式。 2. 什么是简单工厂模式 简单工厂模式(Simple Facto…

6、Redis系统-数据结构-04-Hash

四、哈希表(Hashtable) 哈希表是一种高效的键值对数据结构,通过散列函数将键映射到表中的位置,实现快速的插入、删除和查找操作。Redis 广泛使用哈希表来实现 Hash 对象和数据库的键值存储。以下将从结构设计、哈希冲突与链式哈希…

力扣考研经典题 反转链表

核心思想 头插法: 不断的将cur指针所指向的节点放到头节点之前,然后头节点指向cur节点,因为最后返回的是head.next 。 解题思路 1.如果头节点是空的,或者是只有一个节点,只需要返回head节点即可。 if (head null …

ELFK简介

👨‍🎓博主简介 🏅CSDN博客专家   🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入&#xff01…

下载linux的吐槽

本来这几天放假了,想下一个linux玩一玩 教程(我就是根据这个教程进行下载的,但是呢在进行修改BIOS 模式的 地方遇见了困难,也许是电脑修过的原因,我狂按F12 以及 FnF12都没有BIOS设置,只有一个让我选择用w…

吉时利KEITHLEY KI-488驱动和说明

吉时利KEITHLEY KI-488驱动和说明

HCIE之IPV6三大动态协议ISIS BGP (十五)

IPV6 1、三大动态路由协议ipv61.1、ISIS1.1.1、ISIS多拓扑实验(需要详细看下lsdb verbose)1.2、ISIS TLV简单总结 1.2、BGP 2、IPv6 隧道技术2.1、ipv6手工隧道2.1.1、ipv6 gre手工隧道2.1.1.1、 ipv6、ipv4基础配置(省略)2.1.1.2…

多语言版在线出租车预订完整源码+用户应用程序+管理员 Laravel 面板+ 司机应用程序最新版源码

源码带PHP后台客户端源码 Flutter 是 Google 开发的一款开源移动应用开发 SDK。它用于开发 Android 和 iOS 应用,也是为 Google Fuchsia 创建应用的主要方法。Flutter 小部件整合了所有关键的平台差异,例如滚动、导航、图标和字体,可在 iOS 和…

【Linux】进程的概念 + 查看进程

前言: 在前面我们学习了Liunx的基本指令和权限相关知识,还有基本工具的使用,有了以上的基础知识我们本章将正式接触Linux操作系统。 目录 1.冯诺依曼体系结构1.1 内存存在的意义1.2 程序加载到内存的含义1.3 程序的预加载: 2 .认识…