r语言将变量中的缺失值赋值怎么写

r语言将变量中的缺失值赋值怎么写,第1张

1、定义一个变量m,并使用函数c()进行对变量m赋值,使用的是“->”,如下图所示。

2、可以不使用函数,直接使用“->”进行赋值。

3、也可以倒过来赋值,将变量放在函数后面,还是使用“->”赋值。

4、可以使用assign对变量进行赋值,前面参数是被赋值的变量,后面是需要的对象。

5、定义一个变量w,使用函数c()进行赋值;定义一个变量c,取w变量的倒数。

6、定义变量k,使用函数c()进行赋值;再定义一个变量h,使用k进行赋值,就完成了。

缺失值被认为是预测建模的首要障碍,尽管一些机器学习算法声称能够从根本上解决这个问题,但是谁又能知道究竟在“黑盒子”里能解决得多好。

缺失值填补方法的选择,在很大程度上影响了模型的预测能力。一般处理方法是直接删除相关行,但这样并不好,因为会造成信息丢失。

Hmice是一个多用途的软件包,可用于数据分析、高级图形、缺失值处理、高级表格制作、模型拟合和诊断(线性回归、 Logit模型和cox回归)等。 该软件包包含的功能范围广泛,它提供了两个强大的函数,用于处理缺失值。分别为 impute ()和 aregImpute ()。

impute()函数使用用户定义的统计方法(中间值,最大值,平均值等)来估算缺失值。 默认是使用中位数。另一方面,aregImpute()允许使用加性回归、自举和预测平均匹配进行填补(additive regression, bootstrapping, and predictive mean matching)。

bootstrapping对替代原始数据的样本拟合了一个柔性可加模型(非参数回归方法) ,并利用非缺失值(自变量)对缺失值(因变量)进行了预测。然后,使用预测均值匹配(缺省值)来估算缺失值。

使用平均值填充:

使用随机值填充:

同样,还可以使用min,max,median来估算缺失值。

aregImpute ()自动识别变量类型并相应地处理它们:

输出显示预测缺失值的 R 2 值, 数值越高,预测的数值越好。还可以使用以下命令查看估算值:

画个好看一点的图:

估算缺失值:

pmm:预测均值匹配(PMM)-用于数值变量

logreg: (Logit模型)-二元变量

polyreg(Bayesian polytomous regression):因子变量(>=2个水平)

polr:Proportional odds model(ordered, >= 2 levels)

查看估算的缺失值

由于生成有5个输入数据集,您可以使用 complete ()函数选择任何数据集:

还可以使用5个数据集构建模型,最后将结果合并:

对比一下:

使用生成的6个数据集合并后的回归系数与原始数据的回归系数还是非常接近的。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/bake/11919645.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-19
下一篇2023-05-19

发表评论

登录后才能评论

评论列表(0条)

    保存