暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

用高斯概率密度函数精确地量化事物——GBASE分享

三金先生 2023-11-06
183

高斯混合模型(Gaussian Mixture Model)算法,就是用高斯概率密度函数(正态分布曲线) 精确地量化事物,它是一个将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的 模型。

高斯混合模型常用于聚类,通过选择成分最大化后验概率来完成聚类。与 K-均值聚类相似, 高斯混合模型也使用迭代算法计算,最终收敛到局部最优。高斯混合模型在各类尺寸不同、聚类 间有相关关系的的时候可能比 K-均值聚类更合适。使用高斯混合模型的聚类属于软聚类方法(一 个观测量按概率属于各个类,而不是完全属于某个类),各点的后验概率提示了各数据点属于各个 类的可能性。

高斯混合模型由于通过改变高斯的混合度,能够逼近任意概率分布,所以在语音识别领域应用 广泛。对高斯混合模型的训练,常见的训练方法是最大似然估计,这种训练方法能最大程度拟合所 有样本的分布,该训练方法在多类别语音检出任务中具有更好的识别效果。基于高斯混合模型的 识别方法。通过高斯混合模型来逼近字符特征的类条件概率密度分布,最后根据得到的类条件概率 密度分布函数构造贝叶斯分类器,具有良好的字符识别效果、较大的应用价值。

混合高斯模型的定义为:

其中 K 为模型的个数;πk 为第 k 个高斯的权重;p(x / k) 则为第 k 个高斯概率密度,其 均值为μk,方差为σk。对此概率密度的估计就是要求出πk、μk 和σk 各个变量。当求出 p(x ) 的表达式后,求和式的各项的结果就分别代表样本 x 属于各个类的概率。

在做参数估计的时候,常采用的是最大似然方法。最大似然法就是使样本点在估计的概率密 度函数上的概率值最大。由于概率值一般都很小,N 很大的时候, 连乘的结果非常小,容易造成 浮点数下溢。所以我们通常取 log,将目标改写成: 

也就是最大化对数似然函数,完整形式为:

一般用来做参数估计的时候,我们都是通过对待求变量进行求导来求极值,在上式中,log

函数中又有求和,你想用求导的方法算的话方程组将会非常复杂,没有闭合解。可以采用随机数 或者用 EM 算法。 

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论