基于python的文本聚类分析与可视化实现,使用kmeans聚类,手肘法分析

1、数据预处理

由于在数据分析之前数据集通常都存在数据重复、脏数据等问题,所以为了提高

数据分析结果的质量,在应用之前就必须对数据集进行数据预处理。数据预处理的方法通常有清洗、集成、转换、规约这四个方面,接下来详细介绍这对爬取数据的预处理的去重、去停用词、数据转换这几个方法。

1.1数据去重

数据集中存在重复的样本时,会影响数据挖掘的速度和精确度,所以在利用数

据之前进行数据去重是必不可少的步骤。当数据集中的几个样本的每个属性对应的值完全一致时我们就可以认为这几个样本是重复样本。本文对爬取数据的去重,采用python 语言中的 drop_duplicates()方法实现,首先利用读入需要处理的数据,再利用上面的函数,就可以删除数据集中的重复数据,最后再将处理后的数据保存在dataframe中,完成数据的去重。在去重之前数据集的样本量为22091。而数据去重后保留15462条数据。总共删除了6629条重复数据,结果展示见图。

1.2清除脏数据

清洗脏数据的过程主要通过分词和去除停用词来实现。首先,从数据集中提取书名,并将其转换为列表格式,以便使用jieba分词工具进行处理。接下来,引入停用词库,停用词是指一些在文本中频繁出现但对文本分析没有实际意义的词汇。通过读取stopwords2.txt文件,停用词被加载到DataFrame中,并提取为列表格式。

清洗的核心在于drop_stopwords函数。该函数遍历分词后的内容,对于每个分词,检查其是否在停用词列表中。如果是,则跳过;如果不是,则将其添加到清洗后的结果中。最终,返回去除停用词后的内容和所有有效词汇,并将结果存储到新的DataFrame中。这一过程确保了后续文本分析的准确性和有效性。清洗结果如下:

1.3数据转换

主要是通过将文本数据转换成dataframe结构。通过jieba.lcut函数对每个书名进行分词,生成的分词结果存储在content_s列表中。接着,使用NumPy将content_s转换为数组,并创建一个包含分词结果的DataFrame df_content。最后得到一个所有关键词的dataframe。如下图:

  1. 词云分析

主要通过词云图的方式对文本数据进行可视化分析。首先,将包含所有词汇的DataFrame df_all_words 进行处理,通过 groupby 和 agg 方法计算每个词的频次,并按照频次降序排列。然后,将这些数据导出为Excel文件 词频.xlsx,方便后续使用。使用 WordCloud 库生成词云图。在配置中,指定了字体路径、最大词数、背景颜色及字体大小等参数。将前100个词汇及其频次传递给 fit_words 方法,用于生成词云。最后,通过 plt.imshow() 展示词云图,并用 plt.title() 设置标题为“书名词云图”,完成图像的呈现。

这种分析方式直观地展示了文本中高频出现的词汇,有助于快速理解文本的主题和重点。如下图:

根据词云图结果,"版"、"数学"、"中国" 等词汇的出现频次较高,反映了这些词在文本中占据了重要地位。"版"可能涉及不同版本的教材、丛书或教辅材料,显示了出版物在内容中的核心地位。"数学"高频出现,表明与数学相关的主题在文本中有较大份额,紧随其后的"中国"则可能与中国的学术研究、技术应用等领域相关。

高频词如"理论"、"力学"、"研究"、"技术" 和 "基础" 等,表明文本内容可能集中在科学研究、理论探索以及技术应用方面。此外,"物理"、"动力学"、"量子力学" 等词汇也显示了物理学在该文本中的重要性。

此外,出现次数较多的 "教程"、"教材"、"讲义" 等词汇表明,这些内容可能是教育资源或学习材料。总体而言,该词频分析展示了文本对数学、物理及相关教育和研究内容的重视。

  1. 书名信息的聚类实现过程

为了发现书籍名称中可能存在有价值的信息,选择使用无监督学习方法去提取文本信息内容,经过多次尝试,最后决定使用 K-Means 方法对文本信息价值信息提取。将文本数据转换为适合 TfidfVectorizer 处理的字符串格式,并使用该工具将文本转化为TF-IDF特征矩阵,提取前20个重要特征。生成的特征矩阵通过 normalize 函数进行归一化处理,确保每个样本的模长为1,以便计算样本之间的距离。使用 MiniBatchKMeans 进行K-Means聚类,并通过评估指标 Calinski-Harabasz (CH) 分数选择最佳聚类数目K。该分数越高,聚类效果越好。通过循环计算不同K值对应的CH分数,找到最佳K值。利用最佳K值对数据进行聚类,并输出每个簇中前4个特征值最高的关键词及其特征值,从而揭示每个聚类中主要的书名特征。通过这种方法,可以有效地将书名信息按照其内容或主题进行分类。

3.1数据预处理:

将经过清洗的书名信息转化为字符串格式,以适应TfidfVectorizer的输入要求。接着,使用TfidfVectorizer提取文本的TF-IDF特征,并将其转化为特征矩阵。转换的矩阵如下图:

通过使用 TfidfVectorizer 提取文本的 TF-IDF 特征,我们得到了一个特征矩阵,这个矩阵显示了每个词在文档中的权重。矩阵中的每一行代表一个文档,每一列代表一个词。值是该词在该文档中的 TF-IDF 权重。TF-IDF(词频-逆文档频率)反映了一个词在文档中的重要性——它不仅考虑词的频率,还减少了在所有文档中普遍出现的常用词的重要性。从示例矩阵中可以看到,大多数位置上的值为0,这表明大部分词在大多数文档中并未出现。这是文本特征矩阵的典型特征,因为每个文档通常只会使用特定的词汇集。在矩阵中的每一行(对应一个文档),存在少数几个非零值,这些值对应于该文档中具有较高重要性的词。例如,在第一行,"物理学"的值为1.0,这意味着该文档主要与“物理学”有关,而其他词汇在该文档中的权重为0。相同的逻辑也适用于其他行,例如第三行的"科学"和第四行的"数学",它们的值均为1.0。

从上述矩阵可以看到:

第0行:“物理学”这个词在该文档中的TF-IDF值为1.0,这表示“物理学”在此文档中是一个非常重要的词,并且可能是文档的主要主题词汇。

第3行:“数学”这个词的TF-IDF值为1.0,说明“数学”在该文档中占有重要地位。

零值的含义:大多数词的值是0,表示这些词并不出现在该文档中,或者它们的出现频率和逆文档频率相抵消,权重变得无足轻重。

这个TF-IDF特征矩阵有效地捕捉了每个文档的主要内容特征,表明了文档中高频但在其他文档中不常见的词的重要性,有助于后续的文本分析任务如聚类或分类。

3.2数据归一化

在对数据进行聚类分析前,对每个样本的数据进行归一化处理,使得每个样本的模长为1,以保证聚类算法能够准确地计算样本间的距离。归一化结果如下图:

数据归一化后的结果显示,大部分值为0,只有少数位置的值为1或接近1。这表明数据经过归一化处理后,样本的特征向量被缩放到单位长度,每个特征在样本中的相对重要性被保留,而整体尺度得到了标准化,使得样本之间的距离计算更加一致和可比。

3.3KMeans聚类

使用MiniBatchKMeans算法进行聚类分析。首先,设置一个超参数K的搜索范围,针对每一个K值,计算Calinski-Harabasz指数(CH指数),这个指数用于评估聚类效果,值越大说明聚类效果越好。计算结果如下:

  1. means 聚类分析中,不同的簇数(K值)对应了不同的 Calinski-Harabasz (CH) 指数。CH 指数用于评估聚类结果的优劣,指数越高,表示聚类效果越好。

3.4最佳K值选择

通过绘制不同K值对应的CH指数曲线,选择使CH指数最大的K值作为最佳K值,并基于该K值进行最终的聚类分析。结果如下图:

随着 K 值的增加,CH 指数总体上呈上升趋势,说明聚类效果逐渐变好。特别是在 K 值从 2 增加到 22 的过程中,CH 指数从 849.99 增加到 4661.31,聚类效果明显改善。

在 K = 22 达到最高点 (4661.31) 后,CH 指数开始出现波动,并且逐渐下降,说明进一步增加簇数并不能持续提升聚类质量,反而可能导致过度聚类。

最佳 K 值:

K = 22 是一个显著的拐点,在此 K 值下,CH 指数达到了最高峰(4661.31),意味着 22 个簇可能是最适合的聚类数目。再增加 K 值,虽然初期指数还有所增加,但幅度变小,并且最终开始下降。

K 值在 23 到 25 之间,CH 指数有所下降,表明在这个范围内的聚类效果并不如 K = 22 时好。

K 值较大时的趋势:

在 K > 22 的区域,CH 指数逐渐下降或波动,例如在 K = 50 时,CH 指数降到了 3143.97,这低于 K = 22 的值。这表明在较大的 K 值下,簇的数量过多,聚类效果反而下降。

基于 CH 指数,K = 22 是最佳的聚类数目,此时聚类效果最佳。

3.4k-means 文本聚类

定义K_cluster_analysis 函数,其中使用 MiniBatchKMeans 对文本数据进行聚类。函数接收聚类数量 K 和特征矩阵 X 作为输入。通过 fit_predict 方法,函数将文本数据聚成 K 个簇,并返回聚类模型对象、预测的簇标签 y_pred 以及 Calinski-Harabasz (CH) 指数,用于评估聚类效果。通过前面的分析确定了最佳 K 值(Best_K)。使用该最佳 K 值调用 K_cluster_analysis 函数,对训练数据 x_train 进行最终聚类。获取聚类模型、簇标签以及 CH 指数。利用 Counter 统计每个簇中包含的数据个数,帮助了解各簇的分布情况。获取向量化器中的特征名称(关键词)。对于每一个簇,通过访问 K-means 质心向量中的特征值,找到特征值最大的前4个关键词及其对应的特征值。这些关键词可以代表每个簇的主题。

输出每个簇中前4个最具代表性的关键词及其特征值,帮助解释各个簇的主题特征。这样一来,可以从文本聚类结果中提取出有意义的信息,辅助后续的文本分析和解读工作。结果如下图

K-means文本聚类结果,每个簇中前4个关键词及其特征值,能够帮助我们理解各个簇的主题和内容。

簇0,关键词如"物理"、"力学"、"数学"表明该簇的主题可能与基础科学有关,尤其是物理学领域的基础知识。

簇1的关键词均为0,可能由于这个簇中的文本较少或者文本内容相对分散,导致聚类时特征值接近0。

簇2,以"研究"和"中国"为关键词,可能涵盖了以中国为背景的学术研究。

簇3的关键词"力学"、"中国"表明该簇内容主要涉及力学领域,可能与中国相关的研究或丛书。

其他簇(如簇13、簇15等)分别表现出明显的主题聚焦,比如"教程"与教学相关,"量子力学"和"物理学"显示该簇的主题偏向量子物理领域。

这些结果为后续文本内容的深入分析提供了有价值的主题线索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1542614.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

leetcode第七题:字符反转

给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果。 如果反转后整数超过 32 位的有符号整数的范围 [−231, 231 − 1] ,就返回 0。 假设环境不允许存储 64 位整数(有符号或无符号)。 示例 1: 输入…

分布式安装LNMP

目录 搭建LNMP架构 安装mysql 1.上传mysql软件包,关闭防火墙和核心防护 2.安装环境依赖包,桌面安装可能有自带的数据库除 3.配置软件模块 4.编译及安装 5.创建mysql用户 6.修改mysql 配置文件 7.更改mysql安装目录和配置文件的属主属组 8.设置…

认识结构体

目录 一.结构体类型的声明 1.结构的声明 2.定义结构体变量 3.结构体变量初始化 4.结构体的特殊声明 二.结构体对齐(重点难点) 1.结构体对齐规则 2.结构体对齐练习 (一)简单结构体对齐 (二)嵌套结构体对齐 3.为什么存在内存对齐 4.修改默认对齐数 三.结构体传参 1…

Object类代码结构

Object Object是所有类的父类。 方法结构如下 一些不知道的方法 private static native void registerNatives(); * JNI机制 * 这里定义了一个 native 方法 registerNatives(),它没有方法体。 * native 关键字表示这个方法的实现是由本地代码 * (通常…

【Pytorch】一文快速教你高效使用torch.no_grad()

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 博主简介 博主致力于嵌入式、Python、人工智能、C/C领域和各种前沿技术的优质博客分享,用最优质的内容带来最舒适的…

BERT的代码实现

目录 1.BERT的理论 2.代码实现 2.1构建输入数据格式 2.2定义BERT编码器的类 2.3BERT的两个任务 2.3.1任务一:Masked Language Modeling MLM掩蔽语言模型任务 2.3.2 任务二:next sentence prediction 3.整合代码 4.知识点个人理解 1.BERT的理论 B…

Linux 静态库与动态库的制作与使用

在Linux中,库library是一组函数和资源的集合,他们可以被不同的程序共享和使用,库的主要目的是代码重用,减少内存占用,并简化程序的维护。 Linux操作系统支持的函数库分为:静态库和动态库。 静态库&#xf…

【线程池】Tomcat线程池

版本:tomcat-embed-core-10.1.8.jar 前言 最近面试被问到 Tomcat 线程池,因为之前只看过 JDK 线程池,没啥头绪。在微服务横行的今天,确实还是有必要研究研究 Tomcat 的线程池 Tomcat 线程池和 JDK 线程池最大的不同就是它先把最…

二分+优先队列例题总结(icpc vp+牛客小白月赛)

题目 思路分析 要求输出最小的非负整数k,同时我们还要判断是否存在x让整个序列满足上述条件。 当k等于某个值时,我们可以得到x的一个取值区间,若所有元素得到的x的区间都有交集(重合)的话,那么说明存在x满足条件。因为b[i]的取值为1e9&…

Maven-一、分模块开发

Maven进阶 文章目录 Maven进阶前言创建新模块向新模块装入内容使用新模块把模块部署到本地仓库补充总结 前言 分模块开发可以把一个完整项目中的不同功能分为不同模块管理,然后模块间可以相互调用,该篇以一个SSM项目为目标展示如何使用maven分模块管理。…

没错,我给androidx修了一个bug!

不容易啊,必须先截图留恋😁 这个bug是发生在xml中给AppcompatTextView设置textFontWeight,但是却无法生效。修复bug的代码也很简单,总共就几行代码,但是在找引起这个bug的原因和后面给androidx提pr却花了很久。 //App…

云手机的海外原生IP有什么用?

在全球数字化进程不断加快的背景下,企业对网络的依赖程度日益加深。云手机作为一项创新的工具,正逐步成为企业优化网络结构和全球业务拓展的必备。尤其是云手机所具备的海外原生IP功能,为企业进入国际市场提供了独特的竞争优势。 什么是海外原…

DNF Decouple and Feedback Network for Seeing in the Dark

DNF: Decouple and Feedback Network for Seeing in the Dark 在深度学习领域,尤其是在低光照图像增强的应用中,RAW数据的独特属性展现出了巨大的潜力。然而,现有架构在单阶段和多阶段方法中都存在性能瓶颈。单阶段方法由于域歧义&#xff0c…

如何使用 3 种简单的方法将手写内容转换为文本

手写比文本更具艺术性,这就是许多人追求手写字体的原因。有时,我们必须将手写内容转换为文本,以便于存储和阅读。本文将指导您如何轻松转换它。 此外,通常以扫描的手写内容编辑文本很困难,但使用奇客免费OCR&#xff…

视觉距离与轴距离的转换方法

1.找一个明显的参照物,用上方固定的相机拍一下。保存好图片 2.轴用定长距离如1mm移动一下。 3.再用上相机再取一张图。 4.最后用halcon 将两图叠加 显示 效果如下 从图上可以明显的看出有两个图,红色标识的地方。 这时可以用halcon的工具画一个长方形…

Cesium 绘制可编辑点

Cesium Point点 实现可编辑的pointEntity 实体 文章目录 Cesium Point点前言一、使用步骤二、使用方法二、具体实现1. 开始绘制2.绘制事件监听三、 完整代码前言 支持 鼠标按下 拖动修改点,释放修改完成。 一、使用步骤 1、点击 按钮 开始 绘制,单击地图 绘制完成 2、编辑…

误差评估,均方误差、均方根误差、标准差、方差

均方根误差 RMSE/RMS 定义 RMSE是观察值与真实值偏差的平方,对于一组观测值 y i y_i yi​ 和对应的真值 t i t_i ti​ R M S E 1 n ∑ i 1 n ( y i − t i ) ,其中n是观测次数 RMSE\sqrt{\frac1n \sum_{i1}^n (y_i-t_i)} \text{,其中n是…

2.个人电脑部署MySQL,傻瓜式教程带你拥有个人金融数据库!

2.个人电脑部署MySQL,傻瓜式教程带你拥有个人金融数据库! ‍ 前边我们提到,比较适合做量化投研的数据库是MySQL,开源免费。所以今天我就写一篇教程来教大家如何在自己的环境中部署MySQL。 在不同的设备或系统中安装MySQL的步骤…

局部凸空间及其在算子空间中的应用之四——归纳极限空间2

局部凸空间及其在算子空间中的应用之四——归纳极限空间2 前言一、归纳极限拓扑中极限的含义总结 数学的真理是绝对的,它超越了时间和空间。——约翰冯诺伊曼 前言 在上一篇文章中,我们讨论了归纳极限拓扑的概念和与连续线性算子有关的一个重要结论。认…

为什么编程很难?

之前有一个很紧急的项目,项目中有一个bug始终没有被解决,托了十几天之后,就让我过去协助解决这个bug。这个项目是使用C语言生成硬件code,是更底层的verilog,也叫做HLS开发。 项目中的这段代码并不复杂,代码…