在R语言中进行缺失值填充:估算缺失值
创始人
2024-03-24 02:22:37
0

 介绍

缺失值被认为是预测建模的首要障碍。因此,掌握克服这些问题的方法很重要。最近我们被客户要求撰写关于缺失值处理的研究报告,包括一些图形和统计输出。

估算缺失值的方法的选择在很大程度上影响了模型的预测能力。在大多数统计分析方法中,删除是用于处理缺失值的默认方法。但是,它会导致信息丢失。

在本文中,我列出了5个R语言方法。

链式方程进行的多元插补

通过链式方程进行的多元插补是R用户常用的。与单个插补(例如均值)相比,创建多个插补可解决缺失值的不确定性。

MICE假定缺失数据是随机(MAR)缺失,这意味着,一个值缺失概率上观测值仅取决于并且可以使用它们来预测。通过为每个变量指定插补模型,可以按变量插补数据。

例如:假设我们有X1,X2….Xk变量。如果X1缺少值,那么它将在其他变量X2到Xk上回归。然后,将X1中的缺失值替换为获得的预测值。同样,如果X2缺少值,则X1,X3至Xk变量将在预测模型中用作自变量。稍后,缺失值将被替换为预测值。

默认情况下,线性回归用于预测连续缺失值。Logistic回归用于分类缺失值。一旦完成此循环,就会生成多个数据集。这些数据集仅在估算的缺失值上有所不同。通常,将这些数据集分别构建模型并组合其结果被认为是一个好习惯。

确切地说,使用的方法是:

  1. PMM(预测均值匹配)–用于数字变量
  2. logreg(逻辑回归)–对于二进制变量(具有2个级别)
  3. polyreg(贝叶斯多元回归)–用于因子变量(> = 2级)
  4. 比例模型(有序,> = 2个级别)

现在让我们实际操作

> path <- "../Data/Tutorial"
> setwd(path)#读取数据
> data <- iris#随机产生10%的缺失值
> summary(iris)#随机产生10%的缺失值
> iris.mis <- prodNA(iris, noNA = 0.1)#检查数据中引入的缺失值
> summary(iris.mis)

我删除了分类变量。让我们在这里关注连续值。要处理分类变量,只需对类level进行编码并按照以下步骤进行即可。

#删除类别变量
> iris.mis <- subset(iris.mis, select = -c(Species))
> summary(iris.mis)

 md.pattern返回数据集中每个变量中存在的缺失值的表格形式。

> md.pattern(iris.mis)

让我们了解一下这张表。有98个观测值,没有缺失值。Sepal.Length中有10个观测值缺失的观测值。同样,Sepal.Width等还有13个缺失值。

 我们还可以创建代表缺失值的视觉效果。 

> mice_plot <- aggr(iris.mis, col=c('navyblue','yellow'),numbers=TRUE, sortVars=TRUE,labels=names(iris.mis), cex.axis=.7,gap=3, ylab=c("Missing data","Pattern"))

让我们快速了解这一点。数据集中有67%的值,没有缺失值。在Petal.Length中缺少10%的值,在Petal.Width中缺少8%的值,依此类推。您还可以查看直方图,该直方图清楚地描述了变量中缺失值的影响。

现在,让我们估算缺失的值。


Multiply imputed data set
Call:Number of multiple imputations: 5
Missing cells per column:
Sepal.Length Sepal.Width Petal.Length Petal.Width 
13            14          16           15 
Imputation methods:
Sepal.Length Sepal.Width Petal.Length Petal.Width 
"pmm"        "pmm"        "pmm"       "pmm" 
VisitSequence:
Sepal.Length Sepal.Width Petal.Length Petal.Width 
1              2            3           4 
PredictorMatrix:Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length        0          1            1            1
Sepal.Width         1          0            1            1
Petal.Length        1          1            0            1
Petal.Width         1          1            1            0
Random generator seed value: 500

这是使用的参数的说明:

  1. m – 估算数据集
  2. maxit – 插补缺失值的迭代次数
  3. method –是指插补中使用的方法。我们使用了预测均值匹配。

由于有5个估算数据集,因此可以使用complete()函数选择任何数据集。

 还可以合并来自这些模型的结果,并使用pool()命令获得合并的输出。

请注意,我仅出于演示目的使用了上面的命令。您可以在最后替换变量值并尝试。

多重插补

该程序包还执行多个插补(生成插补数据集)以处理缺失值。多重插补有助于减少偏差并提高效率。它可以通过基于bootstrap程序的EMB算法,从而可以更快速,更可靠地插入许多变量,包括横截面,时间序列数据等。此外,还可以使用多核CPU的并行插入。

它做出以下假设:

  1. 数据集中的所有变量均具有多元正态分布(MVN)。它使用均值和协方差汇总数据。
  2. 缺失数据本质上是随机的(随机缺失

因此,当数据具有多变量正态分布时,最有效。如果没有,将进行转换以使数据接近正态分布

唯一需要注意的是对变量进行分类

 #访问估算的输出
> amelia_fit$imputations[[1]]
> amelia_fit$imputations[[2]]
> amelia_fit$imputations[[3]]
> amelia_fit$imputations[[4]]
> amelia_fit$imputations[[5]]

要检查数据集中的特定列,使用

> amelia_fit$imputations[[5]]$Sepal.Length#将输出导出到csv文件> write.amelia(amelia_fit, file.stem = "imputed_data_set")

随机森林

顾名思义,missForest是一个实现随机森林算法。它适用于各种变量类型的非参数插补法。那么,什么是非参数方法?

非参数方法不会有关于函数形式明确的假设˚F 。取而代之的是,它尝试估计f,使其可以与数据点尽可能接近

它是如何工作的 ?简而言之,它为每个变量建立一个随机森林模型。然后,它使用模型在观测值的帮助下预测变量中的缺失值。

它产生OOB(袋外)估算误差估计。而且,它对插补过程提供了高水平的控制。它有选择分别返回OOB(每个变量),而不是聚集在整个数据矩阵。这有助于准确估算模型值。

NRMSE是归一化的均方误差。它用于表示从估算连续值得出的误差。PFC(错误分类的比例)用于表示从估算类别值得出的误差

#比较实际数据准确性
> iris.err <- mixError(iris.imp$ximp, iris.mis, iris)
>iris.errNRMSE      PFC 
0.1535103 0.0625000

这表明类别变量的误差为6%,连续变量的误差为15%。这可以通过调整mtryntree参数的值来改善  。mtry是指在每个分支中随机采样的变量数。ntree是指在森林中生长的树木数量。

非参数回归方法

 对多个插补中的每个插补使用不同的bootstrap程序重采样。然后,将 加性模型(非参数回归方法)拟合到从原始数据中进行替换得到的样本上,并使用非缺失值(独立变量)预测缺失值(充当独立变量)。

然后,它使用预测均值匹配(默认)来插补缺失值。预测均值匹配非常适合连续和分类(二进制和多级),而无需计算残差和最大似然拟合。

自动识别变量类型并对其进行相应处理。

> impute_arg

输出显示R²值作为预测的缺失值。该值越高,预测的值越好。使用以下命令检查估算值

#检查估算变量Sepal.Length
> impute_arg$imputed$Sepal.Length

带有诊断的多重插补

 带有诊断的多重插补 提供了一些用于处理缺失值的方法。 它也构建了多个插补模型来近似缺失值。并且,使用预测均值匹配方法。

虽然,我已经在上面解释了预测均值匹配(pmm)  :对于变量中缺失值的每个观察值,我们都会从可用值中找到最接近的观察值该变量的预测均值。然后将来自“匹配”的观察值用作推断值。

  1. 它可以对插补模型进行图形诊断,并可以实现插补过程的收敛。
  2. 它使用贝叶斯版本的回归模型来处理问题
  3. 插补模型规范类似于R中的回归输出
  4. 它会自动检测数据中的不规则性,例如变量之间的高共线性。
  5. 而且,它在归算过程中增加了噪声,以解决加性约束的问题。

 如图所示,它使用汇总统计信息来定义估算值。

尾注

在本文中,我说明使用5个方法进行缺失值估算。这种方法可以帮助您在建立预测模型时获得更高的准确性。


相关内容

热门资讯

流动摊贩违规添加食品添加剂,公... 极目新闻通讯员 王粲 以公开促公正、以听证赢公信,近日,湖北省团风县检察院就甄某销售不合格食品行政公...
浙江义乌首创商会退出机制 制度... 中新网义乌12月27日电 题:浙江义乌首创商会退出机制 制度化探索获全国推广 作者 董易鑫 “我们正...
《办法》:建立身份透明制度,划... 专家解读|促进人工智能拟人化互动服务有序开展引领人工智能负责任创新 人工智能技术的突破正推动人机交互...
探寻强制执行律师服务,周云卿律... 在法律纠纷中,胜诉只是第一步,真正实现权益落地,强制执行环节至关重要。那么,强制执行律师服务哪家强?...
李宏毅直播称活动因不可抗力取消... 12月25日,艺人李宏毅因与芒果娱乐的经纪合同纠纷,被法院执行约1118万元款项,同时收到限制消费令...
法援故事|法援“撑腰”!13名... 绿色通道,法援接单 春节前,农民工们多次向县住建局清欠办反映情况,在工作人员协调下,郭某某给部分人出...
山西黄河壶口瀑布旅游区推出免门... 公众号转载山西经济日报稿件,须申请授权。 山西黄河壶口瀑布旅游区日前发布消息,从12月下旬至明年2...
吉利汽车旗下公司起诉知名电池企... 欣旺达(SZ300207)子公司欣旺达动力科技股份有限公司(以下简称欣旺达动力)卷入了一场高达23....
备案审查成效显著 全国人大常委... 每经记者|李彪 每经编辑|黄博文 12月24日,全国人大常委会法工委(以下简称“法工委”)法规备案...