高斯混合模型
高斯混合模型(Gaussian Mixed Model,GMM)是一种常见的聚类算法,与K均值算法类似,同样使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都符合高斯分布(又叫正态分布)。
高斯混合模型的核心思想
高斯混合模型的核心思想是,假设数据可以看作多个高斯分布中生成出来的。在该假设下,每个单独的分模型都是标准高斯模型,其均值$\mu_i$和方差$\sum_i$是待估计的参数。此外,每个分模型都还有一个参数$\pi_i$,可以理解为权重或生成数据的概率。高斯混合模型的公式为:
高斯混合模型与K均值算法的异同
高斯混合模型与K均值算法的相同点是,它们都是可用于聚类算法;都需要指定K值;都是使用EM算法来求解;都往往只能收敛于局部最优。而它相比于K均值算法的优点是,可以给出一个样本属于某类的概率是多少;不仅仅可以用于聚类,还可以用于概率密度的估计;并且可以用于生成新的样本点。