【pyspark学习从入门到精通24】机器学习库_7

目录

聚类

在出生数据集中寻找簇

主题挖掘

回归


聚类

聚类是机器学习中另一个重要的部分:在现实世界中,我们并不总是有目标特征的奢侈条件,因此我们需要回归到无监督学习的范式,在那里我们尝试在数据中发现模式。

在出生数据集中寻找簇

在这个例子中,我们将使用 k-means 模型在出生数据中寻找相似性:

import pyspark.ml.clustering as clus
kmeans = clus.KMeans(k = 5, featuresCol='features')
pipeline = Pipeline(stages=[assembler,featuresCreator, kmeans]
)
model = pipeline.fit(births_train)

估计模型后,让我们看看我们是否能找到不同簇之间的一些差异:

test = model.transform(births_test)
test \.groupBy('prediction') \.agg({'*': 'count', 'MOTHER_HEIGHT_IN': 'avg'}).collect()

前面的代码产生了以下输出:

嗯,MOTHER_HEIGHT_IN 在第 2 个簇中显著不同。仔细研究结果(这里我们显然不会这么做)可能会揭示更多的差异,并允许我们更好地理解数据。

主题挖掘

聚类模型不仅限于数值数据。在自然语言处理领域,像主题提取这样的问题依赖于聚类来检测具有相似主题的文档。我们将经历这样一个例子。

首先,让我们创建我们的数据集。数据由互联网上随机选择的段落组成:其中三个涉及自然和国家公园的主题,其余三个涵盖技术。

text_data = spark.createDataFrame([['''To make a computer do anything, you have to write a computer program. To write a computer program, you have to tell the computer, step by step, exactly what you want it to do. The computer then "executes" the program, following each step mechanically, to accomplish the end goal. When you are telling the computer what to do, you also get to choose how it's going to do it. That's where computer algorithms come in. The algorithm is the basic technique used to get the job done. Let's follow an example to help get an understanding of the algorithm concept.'''],(...),['''Australia has over 500 national parks. Over 28 million hectares of land is designated as national parkland, accounting for almost four per cent of Australia's land areas. In addition, a further six per cent of Australia is protected and includes state forests, nature parks and conservation reserves.National parks are usually large areas of land that are protected because they have unspoilt landscapes and a diverse number of native plants and animals. This means that commercial activities such as farming are prohibited and human activity is strictly monitored.''']
], ['documents'])

首先,我们将再次使用 RegexTokenizer 和 StopWordsRemover 模型:

tokenizer = ft.RegexTokenizer(inputCol='documents', outputCol='input_arr', pattern='\s+|[,.\"]')
stopwords = ft.StopWordsRemover(inputCol=tokenizer.getOutputCol(), outputCol='input_stop')

接下来是我们管道中的 CountVectorizer:一个计算文档中单词数量并返回计数向量的模型。向量的长度等于所有文档中所有不同单词的总数,这可以在以下片段中看到:

stringIndexer = ft.CountVectorizer(inputCol=stopwords.getOutputCol(), outputCol="input_indexed")
tokenized = stopwords \.transform(tokenizer\.transform(text_data))stringIndexer \.fit(tokenized)\.transform(tokenized)\.select('input_indexed')\.take(2)

前面的代码将产生以下输出:

如你所见,文本中有 262 个不同的单词,现在每个文档由每个单词出现次数的计数表示。

现在轮到开始预测主题了。为此,我们将使用 LDA 模型——潜在狄利克雷分配模型:

clustering = clus.LDA(k=2, optimizer='online', featuresCol=stringIndexer.getOutputCol())

k 参数指定我们期望看到的主题数量,优化器参数可以是 'online' 或 'em'(后者代表期望最大化算法)。

将这些谜题拼凑在一起,到目前为止,这是我们最长的管道:

pipeline = ml.Pipeline(stages=[tokenizer, stopwords,stringIndexer, clustering]
)

我们是否正确地发现了主题?嗯,让我们看看:

topics = pipeline \.fit(text_data) \.transform(text_data)
topics.select('topicDistribution').collect()

这是我们得到的:

看起来我们的方法正确地发现了所有的主题!不过,不要习惯看到这么好的结果:遗憾的是,现实世界的数据很少是这样的。

回归

我们不能在没有构建回归模型的情况下结束机器学习库的一章。

在这一部分,我们将尝试预测 MOTHER_WEIGHT_GAIN,给定这里描述的一些特征;这些特征包含在这里列出的特征中:

features = ['MOTHER_AGE_YEARS','MOTHER_HEIGHT_IN','MOTHER_PRE_WEIGHT','DIABETES_PRE','DIABETES_GEST','HYP_TENS_PRE', 'HYP_TENS_GEST', 'PREV_BIRTH_PRETERM','CIG_BEFORE','CIG_1_TRI', 'CIG_2_TRI', 'CIG_3_TRI']

首先,由于所有特征都是数值型的,我们将它们整合在一起,并使用 ChiSqSelector 仅选择最重要的六个特征:

featuresCreator = ft.VectorAssembler(inputCols=[col for col in features[1:]], outputCol='features'
)
selector = ft.ChiSqSelector(numTopFeatures=6, outputCol="selectedFeatures", labelCol='MOTHER_WEIGHT_GAIN'
)

为了预测体重增加,我们将使用梯度提升树回归器:

import pyspark.ml.regression as reg
regressor = reg.GBTRegressor(maxIter=15, maxDepth=3,labelCol='MOTHER_WEIGHT_GAIN')

最后,再次将所有内容整合到一个 Pipeline 中:

pipeline = Pipeline(stages=[featuresCreator, selector,regressor])
weightGain = pipeline.fit(births_train)

创建了 weightGain 模型后,让我们看看它在我们测试数据上的表现如何:

evaluator = ev.RegressionEvaluator(predictionCol="prediction", labelCol='MOTHER_WEIGHT_GAIN')
print(evaluator.evaluate(weightGain.transform(births_test), {evaluator.metricName: 'r2'}))

我们得到以下输出:

遗憾的是,这个模型不比抛硬币的结果好。看来,如果没有与 MOTHER_WEIGHT_GAIN 标签更相关的额外独立特征,我们将无法充分解释其方差。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/36476.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Metasploit使用

最近在学Metasploit,Metasploit是一个免费的、可下载的渗透测试框架,通过它可以很容易地获取、开发并对计算机软件漏洞实施攻击,是一个集成了渗透测试全流程的渗透工具。 图一 模块:模块组织按照不同的用途分为7种类型的模块 &am…

ACM:均分纸牌

主要思路 整体思路概述: 本题旨在解决给定N堆纸牌(纸牌总数是N的倍数),通过按照特定移牌规则移动纸牌,找出用最少移动次数使每堆纸牌数量相等的方法。程序采用了一种逐步调整的思路,先计算出每堆纸牌应有的…

3D 生成重建020-Gaussian Grouping在场景中分割并编辑一切

3D 生成重建020-Gaussian Grouping在场景中分割并编辑一切 文章目录 0 论文工作1 方法2 实验结果 0 论文工作 最近提出的高斯Splatting方法实现了高质量的实时三维场景新视角合成。然而,它仅仅关注外观和几何建模,缺乏细粒度的物体级场景理解。为了解决…

Milvus向量数据库03-搜索理论

Milvus向量数据库03-搜索理论 1-ANN搜索 通过 k-最近邻(kNN)搜索可以找到一个查询向量的 k 个最近向量。kNN 算法将查询向量与向量空间中的每个向量进行比较,直到出现 k 个完全匹配的结果。尽管 kNN 搜索可以确保准确性,但十分耗…

Error relaunching VirtualBox VM process: 5 启动虚拟机时发生了错误

出现错误 一大早起来发现虚拟机打不开,看了虚拟机日志是正常的,还回了个档都不行。 最后我突然想起之前在哪看到过:“完美游戏平台会导致虚拟机的问题。” 解决方法 于是我把完美游戏卸载了,发现,真的&#xf…

基于Springboot的校园交友网站设计与实现

1.1 管理信息系统概述 管理信息系统是计算机在信息管理领域的一种实用技术。通过运用管理科学、数学和计算机应用的原理及方法,在符合软件工程规范的原则下,形成一套完整的理论和方法体系。是一个以人、计算机和其他外部设备组成的可以进行信息的收集、…

FinalShell找不到窗口问题

原因可能Java程序可能记住了之前的窗口位置 笔记本外接了4K显示器,但是在打开一个用Java写的桌面应用FinalShell时候,经常找不到窗口 1. winTab键,选中FinalShell 也可以直接点一下 聚焦 2.按AltSpace(空格) 放大之后 拖下就好了

重生之我在异世界学编程之C语言:深入结构体篇(下)

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言结构体的自引用实现链表一、链表的基…

linux学习day03_linux文件与目录管理

1、相对路径和绝对路径的区别 绝对路径:路径的写法“一定由根目录 / 写起”,例如: /usr/share/doc 这个目录。 相对路径:路径的写法“不是由 / 写起”,例如由 /usr/share/doc 要到 /usr/share/man 下面 时&#xff0…

深入浅出:Gin框架中的测试与Mock

深入浅出:Gin框架中的测试与Mock 引言 在现代软件开发中,编写高质量的代码离不开有效的测试。对于Web应用程序来说,单元测试、集成测试和端到端测试都是确保系统稳定性和可靠性的重要手段。本文将带你深入了解如何在Gin框架中进行测试&…

未来网络技术的新征程:5G、物联网与边缘计算(10/10)

一、5G 网络:引领未来通信新潮流 (一)5G 网络的特点 高速率:5G 依托良好技术架构,提供更高的网络速度,峰值要求不低于 20Gb/s,下载速度最高达 10Gbps。相比 4G 网络,5G 的基站速度…

LDR6500U PD取电协议芯片:高效充电与智能管理的典范

在当今快速发展的电子设备市场中,高效、安全、稳定的充电技术已成为衡量设备性能的重要指标之一。而LDR6500U,作为乐得瑞科技有限公司针对USB PD(Power Delivery)协议及Quick Charge(QC)协议开发的一款高性…

Plugin - 插件开发05_Solon中的插件实现机制

文章目录 Pre概述插件插件扩展机制(Spi)插件扩展机制概述插件扩展机制的优势 插件扩展机制实现步骤第一步:定制插件实现类示例代码:插件实现类 第二步:通过插件配置文件声明插件示例插件配置文件:META-INF/…

JAVA-二叉树的概念和性质

目录 一.树形结构 1.1 概念 1.2 树的概念(重要)​编辑 补充:高度和深度的区别 1.3 树的应用 二. 二叉树(重点) 2.1 概念 2.2 两种特殊的二叉树 2.3 二叉树的性质 2.4 选择题 一.树形结构 1.1 概念 树是一种 非线性 的数据结构&…

SVM的基本思想

一、SVM的基本思想 SVM的基本思想是在样本的向量空间中寻找一个超平面,使得两类样本被分割在平面的两端。这样的平面理论上有无穷多个,但SVM的目标是找到一个最优的超平面,即两侧距离超平面最近的样本点到超平面的距离被最大化的超平面。这个…

【TCP 网络通信(发送端 + 接收端)实例 —— Python】

TCP 网络通信(发送端 接收端)实例 —— Python 1. 引言2. 创建 TCP 服务器(接收端)2.1 代码示例:TCP 服务器2.2 代码解释: 3. 创建 TCP 客户端(发送端)3.1 代码示例:TCP…

day08 接口测试(3)——postman工具使用

下载 postman 的历史版本:Postman 历史版本下载 - 简书 今天开始学习 postman 这个测试工具啦。 【没有所谓的运气🍬,只有绝对的努力✊】 目录 1、postman简介 2、postman的安装 3、给postman安装插件——newman 3.1 环境安装 3.1.1 安…

README写作技巧

做一个项目,首先第一眼看上去要美观,这样才有看下去的动力。做项目亦是如此,如果每一步应付做的话,我想动力也不会太大,最终很大概率会放弃或者进度缓慢。 1.README组成 README是对项目的一个说明,它对观看…

渗透测试---burpsuite(5)web网页端抓包与APP渗透测试

声明:学习素材来自b站up【泷羽Sec】,侵删,若阅读过程中有相关方面的不足,还请指正,本文只做相关技术分享,切莫从事违法等相关行为,本人与泷羽sec团队一律不承担一切后果 视频地址:泷羽---bp&…

【Springboot3+vue3】从零到一搭建Springboot3+vue3前后端分离项目之前端环境搭建

【Springboot3vue3】从零到一搭建Springboot3vue3前后端分离项目之前端环境搭建 2 前端环境搭建2.1 环境准备2.2 创建Vue3项目2.3 项目搭建准备2.4 安装Element Plus2.5 安装axios2.5.1 配置(创建实例,配置请求,响应拦截器)2.5.2 …