K均值(K-means)和高斯混合模型(Gaussian Mixture Model, GMM)是常用的聚类算法。
K均值是非概率模型,根据(欧氏)距离判断,类比最小距离分类器(分类)。高斯混合模型是概率模型模型,根据后验概率判断,类比贝叶斯决策(分类)。从K均值到高斯混合模型实际上就向前迈进一小步。从分类到聚类就是先假设个初始值。
分类方式
- K均值:“硬”分类,即每个数据点被明确地分配给一个类簇,而不考虑其他类簇。这意味着每个数据点属于且仅属于一个类。
- 高斯混合模型:“软”分类,即每个数据点被分配给每个类簇一个概率值,表示它属于这个类的可能性。
模型假设
- K均值:假设每个类簇的数据点围绕一个中心点均匀分布,所有的类簇具有相同的球形形状。这实际上是对数据分布的一种简化假设。
- 高斯混合模型:假设每个类簇的数据点服从一个多维高斯分布,这种分布允许类簇有不同的形状、大小和方向。
样本集
K均值
高斯混合模型
两种算法都对初始值敏感,可能会陷入局部最优解。由于GMM采用的是概率模型,其初始化方法通常更加复杂,会涉及到更多的参数调整。
不同初始值