自然语言处理系列五十三》文本聚类算法》文本聚类介绍及相关算法

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

文章目录

  • 自然语言处理系列五十三
    • 文本聚类算法》文本聚类介绍及相关算法
      • K-means文本聚类算法原理
  • 总结

自然语言处理系列五十三

文本聚类算法》文本聚类介绍及相关算法

分类和聚类都是文本挖掘中常使用的方法,他们的目的都是将相似度高的对象归类,不同点在于分类是采用监督学习,分类算法按照已经定义好的类别来识别一篇文本,而聚类是将若干文本进行相似度比较,最后将相似度高的归为一类。在分类算法中,训练集为已经标注好的数据集,但是微博文本具有的大数据特性及不确定性决定了标注数据的难度,因此本文选择聚类算法对大量且随机的微博文本进行处理。
大量文本建模后还需要对主题分布进行聚类以得到更精确简洁的话题,因此文本聚类在话题检测技术中具有重要意义。聚类是一种无监督学习方式,目的是把一个数据根据某种规则划分为多个子数据,一个子数据就称为一个聚类。聚类分析在文本分析、商务应用、网页搜索、推荐系统、生物医学等多个领域都有着十分广泛的应用。由于数据应用场合不同,不同的聚类方式侧重点不同,各有优势和缺陷,因此目前没有一个通用的聚类算法。目前聚类主要分为以下几类:基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及基于模糊的聚类算法。目前主要的聚类算法分类如图15.1所示。
在这里插入图片描述

图15.1 聚类算法分类
1. 基于划分的聚类算法
基于划分的聚类算法是聚类算法中最为简单的算法,假设有一个数据集D,其中包含N个子数据,若要将D划分为K个类簇,K≤N,每个类簇中至少含有一个子数据,且类簇之间不会有交集。要达到的要求是簇中的数据之间有较高的相似度,而簇类之间的相似度尽可能地低。经过专家学者的不断研究,K-means 算法、Single-Pass 增量聚类算法、围绕中心划分( Partitioning Around Mediods, PAM)算法等等都得到了较为广泛的应用。而其中最为经典、应用最多的是K-means算法。
K-means算法又称K均值算法,是一种容易实现且应用广泛的聚类算法,其算法的思想是首先在数据样本集中随机选取K个样本作为簇中心;然后计算样本集中其他样本与这K个簇中心的距离,距离通常利用曼哈顿距离、欧式距离等来度量,再根据设定的阈值将每个样本划分到与其距离最近的簇中心所在的簇中;最后根据新划分的簇重新计算距离,将簇中所含样本的距离均值作为更新簇的中心,再重复计算距离直到达到条件。K-means算法最关键的就是确定K的个数。
基于划分的聚类算法对于大部分数据都有较强的适用性,且计算简单高效,空间复杂度较低,但是在处理大规模样本时结果多数是局部最优,对于类簇中心选取也十分敏感并且无法解决非凸数据。
2. 基于层次的聚类算法
层次聚类算法(Hierarchical Clustering,HC)又称为树聚类算法。主要思想是将样本集合合并或者分裂成凝聚度更高或者更细致的子样本集合,最终样本集合形成一棵层次树。同K-means算法不同,层次聚类算法不需要预先设定聚类数 ,只要样本集合通过不断迭代达到聚类条件或者迭代次数即可。基于层次划分的经典聚类算法有:变色龙算法、AGNES(Agglomerative NE Sting)、CURE(Clustering Using RE Presentatives)等。根据聚类的方向基于层次的聚类算法可以分为凝聚式和分裂式,凝聚式是将簇结合起来,而分裂式则是将大的类簇分为小类。
1)凝聚式层次聚类算法
凝聚式层次聚类(Hierarchical Agglomerative Clustering,HAC)顾名思义是凝聚数据样本,它的聚类方向是从子数据向上不断合并,该算法经常运用于话题检测中。凝聚式层次聚类首先从底部分散的单个样本开始依次计算与其他样本的距离,然后选择距离最小样本并与其合并成一个新的样本集,再重复上述过程直到形成一个包含所有样本的簇,或者达到迭代次数。凝聚式层次聚类只需要计算样本之间的距离然后合并,该方法计算简单,但是如果数据样本太大则算法复杂度会呈指数级增长,且已合并的操作无法逆转。
2)分裂式层次聚类算法
分裂式层次聚类与凝聚式层次聚类处理样本数据的方向是相反的,它是将整个数据样本看作一个大类簇,然后根据距离公式或其他原则将大的类簇分为小的类簇,不断迭代直到将所有的样本数据分类到单独的类簇中或者是达到迭代次数。层次聚类被公认为是能够产生较好质量的聚类结果的聚类算法。此算法缺点是已操作不能撤回,对于大量数据样本时间复杂度高。
3. 基于密度的聚类算法
基于密度的聚类算法的主要思想是首先找出密度较高的点,然后把周围相近的密度较高的样本点连成一片,最后形成各类簇。基于密度的聚类比较代表性的三种方法有:Ester等提出的DBSCAN方法、Ankerst 等提出OPTICS方法和 Hinneburg 提出的 DENCLUE技术。此类算法的优点是鲁棒性很强,对于任意形状的聚类都适用,但是结果的精度与参数设置关系密切,实用性不强。
4. 基于网格的聚类算法
与其他聚类算法相比较,基于网格的聚类算法出发点不再是平面而是空间。在该空间中,有限个网格代表数据,聚类就是按一定的规则将网格合并。Wang等人提出的STING算法及其改进算法、Agrawa等人提出的CLIQUE算法l等都是较为经典的基于网格的算法。基于网格的聚类算法由于处理数据时是独立的,仅仅依赖网格结构中每一维的单位数,因此处理速度很快。但是此算法对参数十分敏感,速度快的代价是精确度不高,通常需要与其他聚类算法结合使用。
5. 基于模型的聚类算法
基于模型的聚类算法的思路是假设每个类簇为一个模型,然后再寻找与该模型拟合最好的数据,通常有基于概率和基于神经网络两种方法。概率模型即概率生成模型,是假设数据是由潜在的概率分布产生的,典型的算法是高斯混合模型(Gaussian Mixture Models,GMM;而来自芬兰的神经网络专家提出的自组织映射(Self Organized Maps,SOM)是典型的神经网络模型。对类簇而言,基于模型的聚类算法是用概率形式呈现,每个类的特征也可以直接用参数表示,但是与其他聚类方法相比,这类聚类方法在样本数据量大的时候执行率较低,不适合大规模聚类场合。
6. 基于模糊的聚类算法
基于模糊的聚类算法主要是为了克服非此即彼的分类缺陷,它的主要思想是以模糊集合论作为数学基础,用模糊数学的方法进行聚类分析。此方法的优点在于对于满足正态分布的样本数据来说它的效果会很好,但是此算法过于依赖初始聚类中心,为确定初始聚类中心需要多次迭代以寻找最佳点,对于大规模数据样本来说会大大增加时间复杂度。
上述的聚类方法各有千秋,在面对不同的数据集时能起到不同的作用,在参考韩威等的文献之后列出表2-2直观展示几种主要算法在性能方面的差异。几种常用聚类算法对比如表15.1所示。
在这里插入图片描述

表15.1 常用聚类算法对比
从表可以直观地看出,对于初始无法确定主题个数且大规模的微博短文本来说,Single-Pass增量算法更适合。但是Single-Pass增量算法对于数据输入时的顺序十分敏感,并且计算复杂度随着数据的增大而增多,因此本文采用改进的Single-Pass增量算法对话题进行检测。经过改进的Single-Pass增量算法处理后的文本凝聚度相对较高,维度相对较低,再采用适合处理这类文本的凝聚式层次聚类进行话题合并以得到热点话题。通过结合Single-Pass增量算法与凝聚式层次聚类算法,对大量微博短文本进行处理提取出热点话题,能有效提高效率,同时得到更精确的热点话题。

K-means文本聚类算法原理

K-means文本聚类算法原理下一篇文章分享,更多内容请参见
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。
全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。
《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。

【配套视频】

推荐系统/智能问答/人脸识别实战 视频教程【陈敬雷】
视频特色:把目前互联网热门、前沿的项目实战汇聚一堂,通过真实的项目实战课程,让你快速成为算法总监、架构师、技术负责人!包含了推荐系统、智能问答、人脸识别等前沿的精品课程,下面分别介绍各个实战项目:
1、推荐算法系统实战
听完此课,可以实现一个完整的推荐系统!下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目!
2、智能问答/对话机器人实战
由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程!
3、人脸识别实战
从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向,从理论到源码实战、再到服务器操作给大家深度讲解!

自然语言处理NLP原理与实战 视频教程【陈敬雷】
视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

人工智能《分布式机器学习实战》 视频教程【陈敬雷】
视频特色:视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)。

上一篇:自然语言处理系列五十二》文本分类算法》BERT模型算法原理及文本分类
下一篇:自然语言处理系列五十四》文本聚类算法》K-means文本聚类算法原理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1522513.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

四、基本电路设计笔记——4.1 DC-DC稳压电路

目录 4.1 DC-DC稳压电路 4.1.1 基于MT2492的DC-DC稳压电路 (1)芯片参数 (2)芯片引脚 (3)输出电压设置 4.1.2 基于MT2499A的DC-DC稳压电路 (1)芯片参数 (2&#xf…

多模态生成发文量大涨!最新成果统一Transformer和Diffusion,含金量超高

最近多模态生成领域也在“神仙打架”,比如Meta的全新训练方法Transfusion,用单个模型就能同时生成文本和图像! 还有之前华为、清华提出的个性化多模态内容生成技术PMG,生成的内容可“量身定制”,更能满足偏好。 这些…

深入解析Linux轻量级进程:线程的概念、原理、优缺点及其与进程的关系与区别

🍑个人主页:Jupiter. 🚀 所属专栏:Linux从入门到进阶 欢迎大家点赞收藏评论😊 目录 📚Linux线程📕什么是线程*可以使用多进程去并发的执行一个进程的代码,那为什么要由线程呢&#x…

搭子小程序开发,让社交更加有趣

如今,搭子成为了年轻人社交的新兴方式,它作为一种连接年轻人的社交纽带,深受大众的欢迎!各式各样的旅游搭子、健身搭子、游戏搭子等,让年轻人享受到社交的魅力。 随着互联网的发展,寻找搭子也发展到了线上…

一个好用的Maven依赖冲突解决插件:Maven Helper

在项目开发,或项目Maven需要新增依赖、项目依赖组件升级时,经常会出现添加后,因为各个模块中有相同的依赖、不同的版本而导致依赖冲突,从而导致项目启动不起来,这种冲突非常恶心,因为是传递依赖所以会看不出…

Hackme靶场渗透攻略

步骤一,注册登录进去 步骤二,点击search 我们发现有很多书 步骤三,搜索一本书抓包发放到重放器 步骤四,数据改为1*,复制数据包到1.txt,然后打开sqlmap 步骤五,sqlmap查看当前数据库 python s…

多模态AI:原理、应用与未来展望

随着人工智能技术的飞速发展,多模态AI逐渐成为构建智能系统的重要方向。传统的AI系统通常依赖于单一模态的数据,如文本、图像或音频。而多模态AI通过结合多种数据类型,能够在更复杂的场景下提供更智能的解决方案。本文将深入探讨多模态AI的原…

Android 11 (R)AMS Activity内部机制

一、AMS是如何被管理的 如我们在Android 11(R)启动流程中介绍的一样,AMS和ATMS是在SystemServer中被启动的 ActivityTaskManagerService atm mSystemServiceManager.startService(ActivityTaskManagerService.Lifecycle.class).getService(); mActivityManagerSe…

使用vscode debug cpp/python混合编程的程序(从python调用的C++编译的dll)

使用vscode debug cpp/python混合编程的程序(从python调用的C编译的dll) 1. 安装插件 Python C Debugger https://marketplace.visualstudio.com/items?itemNamebenjamin-simmonds.pythoncpp-debug 2. 在.vscode/launch.json中增加配置 拷贝自 https:…

默默的学python——两个重要的函数dir()、help()

一、dir()函数 dir()函数在Python中用于返回一个对象的所有属性和方法的列表,当你对一个函数使用dir()时,它会返回函数对象的所有可访问的属性和方法的名字列表。 具体的说,dir()函数获取的内容包括: 1.特殊方法和魔法方法 如…

Kettle 锁表原因及解决办法【源码级分析】

文章目录 背景源码分析锁表场景1:资源库锁表锁表场景2:写日志锁表在哪里配置的kettle_log_table?官方解释自增 SQL 获取 BatchI 原理解决自增 SQL 获取 BatchID背景 Kettle 7.1.0 经常出现锁表的情况,体现为在数据库里有一条锁表 SQL,然后整个 Kettle 都无法运行。😂�…

App推广新姿势:Xinstall一键下载唤起,轻松提升用户体验!

在App推广和运营的道路上,你是否遇到过这样的困扰:用户点击下载链接后,却无法直接唤起App,导致用户体验不佳,甚至造成用户流失?别担心,今天我们就来科普一个神器——Xinstall,它能帮…

【GIT】idea中实用的git操作,撤回commit,撤回push、暂存区使用

IDEA中最常见的UI操作:【GIT】Idea中的git命令使用-全网最新详细(包括现象含义) 文章目录 问题一: idea撤回仅commit错误的代码(仅本地仓库,因为还没推送到远程)问题二: idea撤回Com…

8个优质视频素材库,商用无忧

如果你正在寻找一些优质的视频素材库,不妨看看以下这些网站。它们提供了各种各样的视频素材,无论是用于家庭视频制作、Vlog、还是社交媒体内容,都能找到合适的素材。从生活日常到创意动画,这些网站都能帮你找到想要的视频素材。一…

学习react day01

(1)nodejs.cn 中文网 版本须较新 (2)全局安装 npm install create-react-app -g ( 版本查询 create-react-app -V) (3)创建app create-react-app test-app (4&…

5 - ZYNQ GPIO

文章目录 1 GPIO基本概念1.1 MIO-EMIO简介1.2 MIO-EMIO连接1.3 MIO-EMIO路由1.4 MIO-EMIO配置 2 GPIO控制寄存器2.1 输入/输出控制寄存器2.2 中断控制寄存器2.3 中断触发设置 3 GPIO在Vivado SDK中的使用 1 GPIO基本概念 在ZYNQ中,GPIO(General Purpose…

读取obj文件中的vt并转成需要的uv数据

先展示效果图 适用场景:加载的obj模型需要发生形变,同时还要展示模型的纹理效果,可以使用到面料模拟或者弹性物体的模拟当中 具体实现方案: 1、读取obj文件中的vt的值,存起来 2、读取f值,存v索引和vt索引 3…

宿舍|基于SprinBoot+vue的宿舍管理系统(源码+数据库+文档)

宿舍管理系统 基于SprinBootvue的私人诊所管理系统 一、前言 二、系统设计 三、系统功能设计 系统功能实现 后台模块实现 管理员功能实现 学生功能实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍&…

文件包含PHP伪协议利用方法

1.file://协议 使⽤: file:// ⽂件的绝对路径和⽂件名 2.php?cmdfile://D:\phpstudy_pro\WWW\123.txt 2.php://filter协议 ⽤途:常⽤于读取⽂件 / 源码 2.php?cmdphp://filter/readconvert.base64-encode/resource1.php 3.php://input协议 步骤一&…

软考报名临近尾声,接下来干什么?附最新软考报名进度表

软考2023年下半年的报名虽然仅仅过半,但是除了北京之外,其他地区均已经可以报名,而且为数不少的地区已经结束了报名,我相信绝大多数地区的考生应该已经完成了报名,所以从这个意义上讲,软考的报名的确是临近…