R语言代做实现:混合正态分布EM最大期望估计法
创始人
2024-04-03 21:19:46
0

 全文链接:http://tecdat.cn/?p=4815

原文出处:拓端数据部落公众号

因为近期在分析数据时用到了EM最大期望估计法这个算法,在参数估计中也用到的比较多。然而,发现国内在R软件上实现高斯混合分布的EM的实例并不多,大多数是关于1到2个高斯混合分布的实现,不易于推广,因此这里分享一下自己编写的k个高斯混合分布的EM算法实现请大神们多多指教。并结合EMCluster包对结果进行验算。

      本文使用的密度函数为下面格式:


   对应的函数原型为 em.norm(x,means,covariances,mix.prop)

x为原数据,means为初始均值,covariances为数据的协方差矩阵,mix.prop为混合参数初始值。

使用的数据为MASS包里面的synth.te数据的前两列

x <- synth.te[,-3]

首先安装需要的包,并读取原数据。

install.packages("MASS")library(MASS)install.packages("EMCluster")library(EMCluster)install.packages("ggplot2")library(ggplot2)Y=synth.te[,c(1:2)]qplot(x=xs, y=ys, data=Y) 

然后绘制相应的变量相关图:

R语言实现:混合正态分布EM最大期望估计法

从图上我们可以大概估计出初始的平均点为(-0.7,0.4) (-0.3,0.8)(0.5,0.6)

当然 为了试验的严谨性,我可以从两个初始均值点的情况开始估计

首先输入初始参数:

mustart = rbind(c(-0.5,0.3),c(0.4,0.5))    covstart = list(cov(Y), cov(Y))probs = c(.01, .99)

然后编写em.norm函数,注意其中的clusters值需要根据不同的初始参数进行修改,

em.norm = function(X,mustart,covstart,probs){params = list(mu=mustart, var=covstart, probs=probs)   clusters = 2 tol=.00001maxits=100showits=Trequire(mvtnorm)N = nrow(X)mu = params$muvar = params$varprobs = params$probsri = matrix(0, ncol=clusters, nrow=N)         ll = 0                                        it = 0                                         converged = FALSE                            if (showits)                                 cat(paste("Iterations of EM:", "\n"))while (!converged & it < maxits) { probsOld = probsllOld = llriOld = ri# Compute responsibilitiesfor (k in 1:clusters){ri[,k] = probs[k] * dmvnorm(X, mu[k,], sigma = var[[k]], log=F)}ri = ri/rowSums(ri)rk = colSums(ri)                             probs = rk/Nfor (k in 1:clusters){varmat = matrix(0, ncol=ncol(X), nrow=ncol(X))         for (i in 1:N){varmat = varmat + ri[i,k] * X[i,]%*%t(X[i,])}mu[k,] = (t(X) %*% ri[,k]) / rk[k]var[[k]] =  varmat/rk[k] - mu[k,]%*%t(mu[k,])ll[k] = -.5 * sum( ri[,k] * dmvnorm(X, mu[k,], sigma = var[[k]], log=T) )}ll = sum(ll)parmlistold =  c(llOld, probsOld)            parmlistcurrent = c(ll, probs)             it = it + 1if (showits & it == 1 | it%%5 == 0)         cat(paste(format(it), "...", "\n", sep = ""))converged = min(abs(parmlistold - parmlistcurrent)) <= tol}clust = which(round(ri)==1, arr.ind=T)       clust = clust[order(clust[,1]), 2]           out = list(probs=probs, mu=mu, var=var, resp=ri, cluster=clust, ll=ll)} 

结果,可以用图像化来表示:

qplot(x=xs, y=ys, data=Y) ggplot(aes(x=xs, y=ys), data=Y) +geom_point(aes(color=factor(test$cluster))) 

R语言实现:混合正态分布EM最大期望估计法

R语言实现:混合正态分布EM最大期望估计法

 类似的其他情况这里不呈现了,另外r语言提供了EMCluster包可以比较方便的实现EM进行参数估计和结果的误差分析。

ret <- init.EM(Y, nclass = 2)em.aic(x=Y,emobj=list(pi = ret$pi, Mu = ret$Mu, LTSigma = ret$LTSigma))#计算结果的AIC

通过比较不同情况的AIC,我们可以筛选出适合的聚类数参数值。(欢迎转载,请注明出处。 )

相关内容

热门资讯

吉利起诉欣旺达,理想汽车躺枪? 想象一下,我从你这里采购电池,还替你宣传,结果因为你的质量问题让大家质疑我,这是一种什么感受? 1...
獐子岛:近12个月新增累计诉讼... 12月29日,獐子岛(002069)发布公告,截止到公告披露日,公司及控股子公司在最近十二个月内累计...
政策迎重大调整!概念股集体飙涨... 12月29日,A股市场主要股指震荡走势,沪指收盘微涨0.04%,录得九连阳。从板块上来看,数字人民币...
福石控股累计诉讼仲裁1792万... 12月29日,福石控股(300071)发布公告,截至公告披露日前,公司及子公司在过去十二个月内的累计...
犯罪收益达14.6亿韩元,享有... 金建希利用总统夫人身份,收受大量财物,并广泛介入了各种人士安排,“甚至可以称得上是现代卖官卖职”,韩...
金评天下丨“长钱长投”制度环境... 金融投资报评论员 刘柯 中国人民银行于12月26日发布《中国金融稳定报告(2025)》(以下简称《金...
偷拿自己快递再退款不是“薅羊毛... 网购下单付款,待快递到站后秘密取走,再以“未收到货”申请退款,这样的行为看似钻了“空子”,实则已触犯...
全球瞭望丨美媒集体抨击特朗普政... 新华社洛杉矶12月28日电(记者黄恒)美国加利福尼亚州多家地方媒体28日集体刊登同一篇社论,抨击特朗...
一个假律师凭啥“拿捏”酒企? ... 打着“维权”的幌子,干着敲诈的勾当,事后还要签订“法律服务”合同……江苏宿迁一名假律师专门敲诈酒企,...