系统聚类的分类数确定——聚合系数法

 breast_cancer数据集分析——乳腺癌诊断

#读取乳腺癌数据
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target

 

.. _breast_cancer_dataset:Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------**Data Set Characteristics:**:Number of Instances: 569:Number of Attributes: 30 numeric, predictive attributes and the class:Attribute Information:- radius (mean of distances from center to points on the perimeter)- texture (standard deviation of gray-scale values)- perimeter- area- smoothness (local variation in radius lengths)- compactness (perimeter^2 / area - 1.0)- concavity (severity of concave portions of the contour)- concave points (number of concave portions of the contour)- symmetry- fractal dimension ("coastline approximation" - 1)The mean, standard error, and "worst" or largest (mean of the threeworst/largest values) of these features were computed for each image,resulting in 30 features.  For instance, field 0 is Mean Radius, field10 is Radius SE, field 20 is Worst Radius.- class:- WDBC-Malignant- WDBC-Benign:Summary Statistics:===================================== ====== ======Min    Max
===================================== ====== ======
radius (mean):                        6.981  28.11
texture (mean):                       9.71   39.28
perimeter (mean):                     43.79  188.5
area (mean):                          143.5  2501.0
smoothness (mean):                    0.053  0.163
compactness (mean):                   0.019  0.345
concavity (mean):                     0.0    0.427
concave points (mean):                0.0    0.201
symmetry (mean):                      0.106  0.304
fractal dimension (mean):             0.05   0.097
radius (standard error):              0.112  2.873
texture (standard error):             0.36   4.885
perimeter (standard error):           0.757  21.98
area (standard error):                6.802  542.2
smoothness (standard error):          0.002  0.031
compactness (standard error):         0.002  0.135
concavity (standard error):           0.0    0.396
concave points (standard error):      0.0    0.053
symmetry (standard error):            0.008  0.079
fractal dimension (standard error):   0.001  0.03
radius (worst):                       7.93   36.04
texture (worst):                      12.02  49.54
perimeter (worst):                    50.41  251.2
area (worst):                         185.2  4254.0
smoothness (worst):                   0.071  0.223
compactness (worst):                  0.027  1.058
concavity (worst):                    0.0    1.252
concave points (worst):               0.0    0.291
symmetry (worst):                     0.156  0.664
fractal dimension (worst):            0.055  0.208
===================================== ====== ======:Missing Attribute Values: None:Class Distribution: 212 - Malignant, 357 - Benign:Creator:  Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian:Donor: Nick Street:Date: November, 1995This is a copy of UCI ML Breast Cancer Wisconsin (Diagnostic) datasets.
https://goo.gl/U2Uwz2Features are computed from a digitized image of a fine needle
aspirate (FNA) of a breast mass.  They describe
characteristics of the cell nuclei present in the image.Separating plane described above was obtained using
Multisurface Method-Tree (MSM-T) [K. P. Bennett, "Decision Tree
Construction Via Linear Programming." Proceedings of the 4th
Midwest Artificial Intelligence and Cognitive Science Society,
pp. 97-101, 1992], a classification method which uses linear
programming to construct a decision tree.  Relevant features
were selected using an exhaustive search in the space of 1-4
features and 1-3 separating planes.The actual linear program used to obtain the separating plane
in the 3-dimensional space is that described in:
[K. P. Bennett and O. L. Mangasarian: "Robust Linear
Programming Discrimination of Two Linearly Inseparable Sets",
Optimization Methods and Software 1, 1992, 23-34].This database is also available through the UW CS ftp server:ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/.. dropdown:: References- W.N. Street, W.H. Wolberg and O.L. Mangasarian. Nuclear feature extractionfor breast tumor diagnosis. IS&T/SPIE 1993 International Symposium onElectronic Imaging: Science and Technology, volume 1905, pages 861-870,San Jose, CA, 1993.- O.L. Mangasarian, W.N. Street and W.H. Wolberg. Breast cancer diagnosis andprognosis via linear programming. Operations Research, 43(4), pages 570-577,July-August 1995.- W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniquesto diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994)163-171.
.. 乳腺癌数据集:威斯康星州乳腺癌(诊断)数据集
--------------------------------------------**数据集特征:**:实例数: 569属性数 30 个数字、预测属性和类:属性信息:- 半径(从中心到周边各点距离的平均值)- 纹理(灰度值的标准偏差)- 周长- 面积- 平滑度(半径长度的局部变化)- 紧凑性(周长^2 / 面积 - 1.0)- 凹度(轮廓凹陷部分的严重程度)- 凹点(轮廓凹陷部分的数量)- 对称性- 分形维度(“海岸线近似值” - 1)平均值、标准误差和 “最差 ”或最大值(三个最差/最大值的平均值计算出每幅图像的这些特征的平均值、标准误差和 “最差 ”或最大值(三个最差/最大值的平均值)、得出 30 个特征值。 例如,字段 0 是平均半径,字段10 为半径 SE,字段 20 为最差半径。- 类别- WDBC-恶性- WDBC-良性:统计摘要:===================================== ====== ======最小值 最大值
===================================== ====== ======
半径(平均值):                        6.981 28.11
纹理(平均值):                         9.71 39.28
周长(平均值):                        43.79 188.5
面积(平均值):                        143.5 2501.0
平滑度(平均值):                      0.053 0.163
密实度(平均值):                      0.019 0.345
凹度(平均值):                          0.0 0.427
凹点(平均值):                          0.0 0.201
对称性(平均值):                      0.106 0.304
分形维度(平均值):                     0.05 0.097
半径(标准误差):                      0.112 2.873          
纹理(标准误差):                       0.36 4.885      
周长(标准误差):                      0.757 21.98   
面积(标准误差):                      6.802 542.2               
平滑度(标准误差):                    0.002 0.031
紧凑性(标准误差):                    0.002 0.135      
凹度(标准误差):                        0.0 0.396      
凹点(标准误差):                        0.0 0.053    
对称性(标准误差):                    0.008 0.079         
分形维度(标准误差):                  0.001 0.03  
半径(最差):                          7.93 36.04
纹理(最差):                         12.02 49.54
周长(最差):                         50.41 251.2
面积(最差):                         185.2 4254.0
平滑度(最差):                       0.071 0.223
紧凑性(最差):                       0.027 1.058
凹度(最差):                           0.0 1.252
凹点(最差):                           0.0 0.291
对称性(最差):                       0.156 0.664
分形维度(最差):                     0.055 0.208
===================================== ====== ======:缺失属性值: 无:类别分布:212 - 恶性,357 - 良性:Creator:  William H. Wolberg 博士、W. Nick Street、Olvi L. Mangasarian:Donor: 尼克-斯切特:Date: 1995 年 11 月这是 UCI ML 乳腺癌威斯康星(诊断)数据集的副本。
https://goo.gl/U2Uwz2根据乳腺肿块的细针穿刺(FNA)数字化图像计算特征。
乳腺肿块的细针抽吸(FNA)的数字化图像计算得出的。 它们描述了
图像中细胞核的特征。上述分离平面是通过
多面方法树(MSM-T)[K. P. Bennett,“通过线性规划构建决策树”。
通过线性规划构建决策树"。第四届
中西部人工智能与认知科学学会论文集》、
pp. 97-101, 1992],这是一种使用线性规划来构建决策树的分类方法。
编程来构建决策树的分类方法。 相关特征
在 1-4 个特征和 1-3 个分离平面的空间内进行穷举搜索,选出相关特征。
特征和 1-3 个分离平面的空间中进行穷举搜索,选出相关特征。实际用于获取三维空间中分离平面的线性规划
在三维空间中的分离平面的实际线性编程方法见以下文献:
[K. P. Bennett 和 O. L. Mangasarian:
"Robust Linear Robust Linear Programming Discrimination of Two Linearly Inseparable Sets"、
Optimization Methods and Software 1, 1992, 23-34]。该数据库也可通过华盛顿大学计算机科学与技术系的 ftp 服务器获取:ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/.下拉菜单:: 参考文献- W.N. Street、W.H. Wolberg 和 O.L. Mangasarian. 核特征提取用于乳腺肿瘤诊断。IS&T/SPIE 1993 国际电子成像研讨会。电子成像: 科学与技术》,第 1905 卷,第 861-870 页、加利福尼亚州圣何塞,1993 年。- O.L. Mangasarian、W.N. Street 和 W.H. Wolberg。乳腺癌诊断和通过线性规划的预后。运筹学》,43(4),第 570-577 页、1995年7月-8月。- W.H. Wolberg、W.N. Street 和 O.L. Mangasarian。机器学习技术从细针抽吸物诊断乳腺癌。癌症通讯 77 (1994)163-171.

威斯康星州乳腺癌数据集简介

from sklearn import datasets# 加载威斯康星州乳腺癌数据集
cancer_data = datasets.load_breast_cancer()# 特征数据
X = cancer_data.data# 目标变量
y = cancer_data.target


威斯康星州乳腺癌数据集是scikit-learn(sklearn)库中一个常用的内置数据集,用于分类任务。该数据集包含了从乳腺癌患者收集的肿瘤特征的测量值,以及相应的良性(benign)或恶性(malignant)标签。以下是对该数据集的简单介绍:

  • 数据集名称:威斯康星州乳腺癌数据集(Breast Cancer Wisconsin Dataset)

  • 数据集来源:数据集最初由威斯康星州医院的Dr. William H. Wolberg收集。

  • 数据集特征:数据集包含30个数值型特征,这些特征描述了乳腺肿瘤的不同测量值,如肿瘤的半径、纹理、对称性等。

  • 目标变量:数据集的目标变量是二分类的,代表肿瘤的良性(benign)或恶性(malignant)状态。良性表示肿瘤是非恶性的,恶性表示肿瘤是恶性的。

  • 样本数量:数据集包含569个样本,其中良性样本357个,恶性样本212个。

  • 数据集用途:该数据集被广泛用于分类任务、特征选择、模型评估等机器学习任务和实验中。

在使用sklearn库时,可以通过调用datasets.load_breast_cancer()函数加载威斯康星州乳腺癌数据集。加载后的数据集包含两个主要部分:data和target。data存储特征数据,target存储目标变量(标签)数据。

#读取乳腺癌数据
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target
#显示数据集
print(data.DESCR)
#显示数据dataframe结果
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df.head()
#写入csv文件
df.to_csv('breast_cancer.csv', index=False)

聚合系数法确定最优聚类数。

#使用聚合系数确定最佳聚类数
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
sil = []
for i in range(2,11):model = AgglomerativeClustering(n_clusters=i)y_pred = model.fit_predict(X)sil.append(silhouette_score(X, y_pred))
plt.plot(range(2,11), sil)
plt.show()

 

谱系图绘制 


#根据最佳聚类数绘制树状图
from scipy.cluster.hierarchy import dendrogram, ward
model = AgglomerativeClustering(n_clusters=2)y_pred = model.fit_predict(X)
linkage_array = ward(X)
dendrogram(linkage_array)
ax = plt.gca()
ax.set_xlabel("Sample index")
ax.set_ylabel("Cluster distance")
bounds = ax.get_ybound()
ax.plot(bounds, [40, 40], '--', c='k')
ax.plot(bounds, [5, 5], '--', c='k')
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/10396.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

jsp+sevlet+mysql实现用户登陆和增删改查功能

jspsevletmysql实现用户登陆和增删改查功能 一、系统介绍二、功能展示1.用户登陆2.用户列表3.查询用户信息4.添加用户信息5.修改用户信息6.删除用户信息 四、其它1.其他系统实现 一、系统介绍 系统主要功能: 用户登陆、添加用户、查询用户、修改用户、删除用户 二…

一文了解Java序列化

Java 序列化(Serialization)是将对象的状态转换为字节流,以便将对象的状态保存到文件中或通过网络传输的过程。反序列化(Deserialization)则是将字节流恢复为原始对象。Java 序列化主要通过 Serializable 接口实现。 为…

斗破QT编程入门系列之前言:认识Qt:获取与安装(四星斗师)

本系列是在学习完C之后,然后通过Qt构建界面来,赋予枯燥的代码新的样貌,这样我们才能开发出更人性化的程序,同时会进一步提高初学者对编程的兴趣,大家加油,斗破Qt来了。 斗破Qt目录: 斗破Qt编程…

Spring Boot - 扩展点 EnvironmentPostProcessor源码分析及真实案例

文章目录 概述EnvironmentPostProcessor 作用EnvironmentPostProcessor 实现和注册创建类并实现接口注册到 Spring Boot常见应用场景 源码分析1. EnvironmentPostProcessor 接口定义2. 扩展点加载流程3. 加载 EnvironmentPostProcessor 实现类4. EnvironmentPostProcessor 执行…

封装的数字滚动组件的实现代码

效果: 学习啦: Vue 是一个渐进式框架,鼓励通过组件化来构建应用,其组件化优势: 代码复用:不同的视图和功能被封装成独立的组件,便于复用。易于维护:每个组件职责单一、耦合度低&…

Unity跨平台基本原理

目录 前言 ​编辑 Mono Unity和Mono的关系 Unity跨平台必备概念 Mono利用 Mono主要构成部分 基于Mono跨平台的优缺点 IL2CPP Mono和IL2CPP的区别 Mono IL2CPP Mono和IL2CPP的使用建议 安装IL2CPP IL2CPP打包存在的问题 类型裁剪 泛型问题 前言 Unity跨平台的基…

计算机网络(3)

UDP是面向无连接的通信协议,UDP数据包括目的端口号和源端口号信息,由于 不需要连接,所以可以实现广播发送; 传输控制层 UDP协议(用户数据报协议) UDP通信时不需要接收方确认,属于不可靠的传输&a…

2024年11月8日上海帆软用户大会

2024年11月8日上海帆软用户大会 2024年11月8日,上海成功举办了帆软用户大会,主题为“数字聚力,绽放新机”。大会汇聚了众多行业专家和企业代表,共同探讨数字化转型和商业智能领域的最新趋势和实践。 大会亮点: 专家…

PySimpleGUI和Pymysql

PySimpleGUI 库 PySimpleGUI 是一个用于简化 GUI 编程的 Python 包,它封装了多种底层 GUI 框架(如 tkinter、Qt、WxPython 等),提供了简单易用的 API。PySimpleGUI 包含了大量的控件(也称为小部件或组件)&…

Qt Event事件系统小探1

目录 Qt Event System From qt.doc 如何传递事件 事件类型 事件处理程序 事件过滤器 发送事件 事件的产生和派发 处理我们的事件 来一段好玩的代码 扩展:QWidget如何处理我们的事件? 扩展2:实现一个变色的Label Qt Event System Fr…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于凸多面体仿射变换的用户侧灵活性资源多元聚合方法》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

vue3组合式API下封装hooks使用生命周期,在await之后调用hooks会有警告

起因:想封装一个hooks实现echarts图表随屏幕大小resize并且组件销毁时移除监听。结果在组件里面调用这个hooks,有个告警提示 [Vue warn]: onBeforeUnmount is called when there is no active component instance to be associated with. Lifecycle inje…

使用Python实现图像的手绘风格效果

使用Python实现图像的手绘风格效果 一、引言二、代码详细解释与示例三、完整框架流程四、运行五、结论附:完整代码 一、引言 在数字图像处理领域,模拟手绘风格是一项有趣且具有挑战性的任务。手绘风格图像通常具有独特的纹理和深浅变化,给人…

window中借助nginx配置vite+vue项目的反向代理步骤

在官网下载好nginx的安装包后,解压后 CMD打开 start nginx 是启动命令 nginx -s stop 停止服务 nginx -s reload 如果重写了nginx.conf文件,要执行这条命令 正常情况下 成功启动和成功停止服务长这样 错误情况&解决 如果nginx -s stop失败 ngi…

花指令例子

如图所示: 指令EB FF的汇编代码为jmp -1,CPU执行到地址处0x6c80c0的指令EB FF时(jmp -1),EIP为6c80c2, 执行后,EIP为0x6c80c1。但是反汇编器无法自动识别该指令。

关于我的编程语言——C/C++——第八篇

(叠甲:如有侵权请联系,内容都是自己学习的总结,一定不全面,仅当互相交流(轻点骂)我也只是站在巨人肩膀上的一个小卡拉米,已老实,求放过) 什么是C C语言是结…

博客园美化

1、主题介绍 使用的 SimpleMemory 这款主题 github官网 2、设置主题并申请 js 代码权限 3、主题设置 博客侧边栏公告 <script type"text/javascript">window.cnblogsConfig {info: {blogIcon: https://ts1.cn.mm.bing.net/th/id/R-C.85775e482741cb7ab7f…

SpringBoot基础系列学习(二):配置详解

文章目录 一丶依赖二丶配置文件三丶获取配置文件中的信息1.PropertySource("classpath:application2.properties")2. ConfigurationProperties(prefix "baicaizhi1")3. Value4. 使用EnviromentgBean获取5. 使用ResourceBundle获取 一丶依赖 <dependen…

初识Electron 进程通信

概述 Electron chromium nodejs native API&#xff0c;也就是将node环境和浏览器环境整合到了一起&#xff0c;这样就构成了桌面端&#xff08;chromium负责渲染、node负责操作系统API等&#xff09; 流程模型 预加载脚本&#xff1a;运行在浏览器环境下&#xff0c;但是…

建网站怎么建?只需几个步骤

在这个网络飞速发展的时代&#xff0c;越来越多的人都渴望拥有自己的网站。然而&#xff0c;对于大多数新手来说&#xff0c;如何建立自己的网站可能充满了挑战。本文将为您详细介绍建网站的关键步骤&#xff0c;让您能够轻松搭建自己的网站。 选择适合的建站工具 虽然市面上有…