【机器学习】22. 聚类cluster - K-means

聚类cluster - K-means

  • 1. 定义
  • 2. 测量数据点之间的相似性
  • 3. Centroid and medoid
  • 4. Cluster之间距离的测量方式
  • 5. 聚类算法的类别
  • 6. K-mean
  • 7. 如何解决中心初始化带来的影响
  • 8. K-means问题:处理空集群
  • 9. 离群值的问题
  • 10. Bisecting K-means(二分K-means)
  • 11. K-MEAN 缺点 和 优点

1. 定义

将数据对象划分为组的过程,使同一组中的对象在集群中彼此相似,而与其他集群中的对象不同。
无监督学习

2. 测量数据点之间的相似性

  • 距离测量
  • 余弦相似度
  • 其他

3. Centroid and medoid

Centroid - 在中心
Medoid - 一个在中心的点

4. Cluster之间距离的测量方式

  • Centroid
  • Medoids
  • Single link(min)
  • Complete link(max)
  • Average link(max)
    在这里插入图片描述

5. 聚类算法的类别

  • partitional -k-means, k-medoids;通过划分数据集生成一个簇的集合, 每个簇都对应数据中的一个子集
  • Model-based – GMM 假设数据式由不同的概率分布生成的, 使用该模型来估计这些分布并分配数据点
  • Hierarchical – agglomerative and divisive 构建嵌套的簇结构, 可以通过层次图展示, 层次聚类逐步合并或分裂数据, 创建不同层次的簇
  • Density based - DBSCAN 基于数据点的密度进行聚类, 能够识别出形状不规则的簇, 并能够检测出噪声点

6. K-mean

  • 分区聚类算法
  • 非常流行和广泛使用
  • 需要指定集群的个数k

3个主要步骤:

  • 选择k个示例作为簇的初始质心
  • 通过将每个例子分配到最近的质心来形成k个簇
  • 在每个时期结束时:
    • 重新计算集群的质心
    • 检查停止条件是否满足:质心不改变。如果是-停止:否则,重复步骤2和3使用新的质心

问题:

对初始中心很敏感

7. 如何解决中心初始化带来的影响

  • 方法1:随机选取不同的初始质心进行多次K-means运算,并使用SEE对每个聚类进行评估
    SSE:对于每个点,误差是到最近质心的距离。
  • 方法2: k - means + +
    重心选择:
    逐步选择质心,直到选中k个质心
    在每一步,每个点都有一个概率被选为一个质心,这个概率与它到最近质心的距离的平方成正比
    选择离当前质心最远的点-选择分离良好的点
    可以选择异常值,但异常值的定义是罕见的。
    计算:
    1)对于第一个质心,随机选择一个点。
    2)i=1到试验次数
    3)计算每个点到它最近的质心的距离d(x)。
    4)赋予每个点与每个点的d(x)2成比例的概率。
    5)利用加权概率从剩余点中选取新的质心。

8. K-means问题:处理空集群

K-means可以产生空的集群-在分配步骤中没有分配到集群的点区域-集群仅由初始质心组成

  • 解决方案:
    • 选择不同的初始质心策略
    • 选择距离任何当前质心最远的点
    • 使用k-means++方法
    • 从SSE最高的集群中选择一个点 这通常会分裂集群,减少集群的整体SSE
  • 如果有几个空集群,以上可以重复几次。

9. 离群值的问题

由于异常值导致的聚类中心代表性较差,SSE较高
解决方案:去除异常值
或者,作为聚类后的后处理步骤,去除异常值。

10. Bisecting K-means(二分K-means)

  1. 开始时所有的点都放在一个簇中
  2. 重复以下过程
    从当前的簇列表中, 选择一个簇用于拆分
    对于指定的迭代次数, 使用K-means对选中的簇进行二分
    将二分后的簇中SSE最低的两个簇添加到簇列表中
    终止条件: 当簇的数量达到k个时

有多种方式可以选择要拆分的簇::

  • 选择最大的簇
  • 选择SSE最大的簇
  • 基于大小和SSE的综合指标

11. K-MEAN 缺点 和 优点

优点: 简单,高效
缺点:

  • 在以球形分类, 同等大小, 分裂明显的原始数据上的表现非常好. 但是在非球形分类的, 复杂的, 大小不一致, 密度不一致的原始数据上表现不佳.
  • 对中心初始化敏感
  • 对有噪声的数据表现不好(通过预处理清除

改进:

  • 通过 bisecting K-means 和 K-means ++ 减少对中心点初始化的敏感度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/3969.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【python_pandas_将列表按照某几列进行分组,再求和,按照原列表的字段顺序返回】

说明: 1、按照[“行描述”,”‘公司代码’, ‘科目代码’, ‘预算项目代码’] 进行分组。 2、对“贷方”列进行求和。 3、最后按照之前的表头顺序进行排序,返回结果列表。 #-*- coding:utf-8-*import pandas as pd def consolidate_salary_provisions(l…

【Vue框架】基础语法练习(1)

其实更多知识点已经在Vue.js官网十分清楚了,大家也可以去官网进行更细节的学习 https://cn.vuejs.org/ 说明:目前最新是Vue3版本的,但是Vue2已经深得人心,所以就是可以支持二者合用。它们最大的区别就是Vue3是组合式API&#xf…

公司如何防止员工泄密?十佳措施拒绝泄密,公司防泄密刻不容缓! (2024最强科普)

如何有效防止员工泄露机密? 作为公司的经营者,您是否意识到了商业秘密的重要性?您是否已经知道应该采取什么样的措施才能保护好自己的商业秘密? 员工的泄密行为不仅可能造成重大的经济损失,还会对企业的声誉造成严重…

[大模型]视频生成-Sora简析

参考资料: Sora技术报告https://openai.com/index/video-generation-models-as-world-simulators/4分钟详细揭密!Sora视频生成模型原理https://www.bilibili.com/video/BV1AW421K7Ut 一、概述 相较于Gen-2、Stable Diffusion、Pika等生成模型的前辈&am…

linux中级(防火墙firewalld)

一。firewalld与iptables区别1.firewalld可以动态修改单条规则,不需要像iptables那样,修改规则后必须全部刷新才可生效。firewalld默认动作是拒绝,则每个服务都需要去设置才能放行,而iptables里默认是每个服务是允许,需…

【C/C++】memcpy函数的使用

零.导言 当我们学习了strcpy和strncpy函数后,也许会疑惑整形数组要如何拷贝,而今天我将讲解的memcpy函数便可以拷贝整形数组。 一.memcpy函数的使用 memcpy函数是一种C语言内存函数,可以按字节拷贝任意类型的数组,比如整形数组。 …

软件测试用例设计:从功能测试到边界值分析

功能测试介绍 功能测试是软件测试的一种重要方式,通过对软件的功能进行测试,来验证软件是否满足需求规格说明书中的各项功能要求。例如,对于一个简单的计算器软件,功能测试的用例可能包括加减乘除等基本运算,以及各种特…

[论文阅读]BERT-based Lexical Substitution

BERT-based Lexical Substitution 基于BERT的词汇替换 ACL2019 BERT-based Lexical Substitution - ACL Anthology 以前关于词汇替换的研究倾向于通过从词汇资源(例如 WordNet)中找到目标词的同义词来获得替代候选词,然后根据其上下文对候…

【Java SE 】特殊报错机制 ---> 异常 !

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 目录 1. 异常概念 1.1 算术异常 1.2. 空指针异常 1.3 数组越界异常 2. 异常的分类 2.1 编译时产生的异常 2.2 运行时产生的异常 3. 如何处理异常 3.1 异常…

使用kettle同步数据流程

使用kettle同步数据流程 一.Kettle软件安装(解压即可使用) 1.windows安装解压 pdi-ce-8.2.0.0-342.zip,点Spoon.bat启动kettle 2.Linux安装 把data-integration目录所有文件上传到服务器 二.安装数据库驱动把需要的…

两级运放的电路版图设计

电路版图文件PDK,88出,点击此处获取,24h秒发 PDF文件免费,已绑定 《集成电路版图设计课程》 课程设计(大作业)报告 2023 - 2024 学年第 1 学期 题 目 CMOS运算放大器的电路设计 专 业 …

Windows不支持配置NFS?还有什么注意事项?

我们前面介绍了如果配置Windows Server的NFS共享(Windows Server2012 R2搭建NFS服务器),也介绍了Linux如何配置NFS共享(CentOS 7搭建NFS服务器)。但是,我最近发现一个问题,那就是桌面版的Window…

解锁测试能力密码:直击三问,成就卓越测试

在测试人眼中真的是“万物皆可测”,不管是物体(铅笔,桌子)、终端(手机,电脑)、软件代码、硬件设备等等。那是因为在底层逻辑中,我们搞清楚了其核心本质,总结起来有三个方…

AutoCAD2021

链接: https://pan.baidu.com/s/1GG93ZFRfV_30xTWtDiv3Ew 提取码: dx8i 简介:一键安装,已经破解。支持W7-w10-w11系统64位

伍光和《自然地理学》电子书(含考研真题、课后习题、章节题库、模拟试题)

《自然地理学》(第4版)由伍光和、王乃昂、胡双熙、田连恕、张建明合著,于2018年11月出版。作为普通高等教育“十一五”国家级规划教材,本书不仅适用于高校地球科学各专业的基础课程,还可供环境、生态等有关科研、教学人…

奥数与C++小学四年级(第十七题 弹跳板)

参考程序代码&#xff1a; #include <iostream> bool visited[101] {false}; // 标记1-100是否被访问过int main() {int step 1; // 初始步数int i 2; // 步长visited[1] true; // 标记位置1已访问while (true) {step i; // 跳到下一个位置if (step >…

206面试题(28~46)

206道Java面试题&#xff08;28~46&#xff09; 28.Array和ArrayList有什么区别&#xff1f; 一、基本性质 Array(数组) Array是一种固定大小的数据结构。 用于存储多个相同类型的元素。 创建时需要指定数组的大小&#xff0c;且长度定义完后不能改变。 ArrayList(动态数组)…

“大跳水”的全新奥迪A3,精准狙击年轻人的心

文/王俣祺 导语&#xff1a;随着传统豪华品牌在国内市场的全面崩盘&#xff0c;奥迪再一次坐不住了。这次&#xff0c;奥迪“割肉”的目标瞄准了被称为“年轻人第一台豪车”的奥迪A3&#xff0c;这款车问世以来&#xff0c;就凭借出色的性能与品质收获了一大批年轻粉丝。如今&a…

网站建设公司怎么选?网站制作公司怎么选才不会出错?

寻找适合靠谱的网站设计公司&#xff0c;不要盲目选广告推最多的几家&#xff0c;毕竟要实现自身品牌营销&#xff0c;还是需要多方面考量。以下几个方面可以作为选择的参考&#xff1a; 1. 专业能力如何&#xff1f; 一个公司的专业能力&#xff0c;决定了最后网站设计的成果…

【IEEE出版 | EI稳定检索】2024智能机器人与自动控制国际学术会议 (IRAC 2024,11月29-12月1日)

2024智能机器人与自动控制国际学术会议 &#xff08;IRAC 2024&#xff09; 2024 International Conference on Intelligent Robotics and Automatic Control 官方信息 会议官网&#xff1a;www.icirac.org 2024 International Conference on Intelligent Robotics and Autom…