暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

关于数据缺失,我想分享的一些基础知识

月明学习小铺 2021-07-21
2783


朋友们,好久不见,首先还是要感谢大家的支持,没想到离500关注也越来越近了。


不知道大家平时会不会被缺失数据困扰。不知道是删还是填补?或者说大家都填补我也填补?


今天我们就聊聊缺失,分享我收集整理的关于缺失的最基础的知识。毕竟,九层之台,起于垒土。


本篇推文的整体思路是从原始定义出发,过渡到理论解决办法,最后再到SAS软件实现。



01 数据缺失分类


数据缺失按照缺失机制可以分为完全随机缺失 (completely at random, MCAR)、随机缺失 (missing at random, MAR)、非随机缺失 (missing not at random, MNAR)。


关于这三种缺失我比较了三种解释,选了一种比较合适的定义。定义后面也有例子,可以帮助大家理解。


完全随机缺失:缺失值和观测值之间没有系统差异。如由于血压计坏了导致血压测量值缺失。


随机缺失:缺失值和观测值之间的任何系统差异都可以用观测数据的差异来解释。如遗漏的血压测量值可能低于测量的血压值,但这仅仅是因为年轻人可能更有可能遗漏血压测量值。


非随机缺失:即使将观测数据考虑在内,缺失值和观测值之间仍然存在系统差异。如血压测量时,高血压患者可能更容易因为头痛而错过诊所预约。


以上就是三种缺失的定义和相应举例。不得不提的是,有两处资料都有提到:上述三分类虽然都有明确的统计学定义,但他们的实际含义往往是模糊不清的。



02 如何解决数据缺失


关于数据缺失的解决方法有很多种,我在这也只分享比较常见的三种方法。


首先是删除,其实也就是对有完整数据的受访者进行分析。


删除并不是针对某一种类型的缺失,所以我们还是分别分析删除对不同类型缺失的影响。


完全随机缺失,无偏倚,统计效力降低。随机缺失,是否产生偏倚取决于缺失相关的变量是疾病/暴露,还是协变量(与疾病/暴露相关,只要缺失是乘性的就为无偏;与协变量相关,校正协变量后减轻偏倚),同样会造成统计效力降低。非随机缺失,仍存在偏倚,统计效力降低。


其次是加入缺失指示变量。总体而言,统计效力基本不变,没有删除受访者。


关于完全随机缺失,无偏倚。关于随机缺失,校正协变量后减轻偏倚。关于非随机缺失,仍有偏倚。


最后是多重填补。


其实多重填补和上述结果基本是一样的。对于随机删失或许能够更好的通过协变量校正来减轻偏倚?(当然这只是猜测,重新验证的话估计要之后了,需要查阅一些资料,并且重新构建数据集来验证)。还是不能解决非随机缺失的问题。



03 数据缺失解决之SAS实现


我们以surveyreg进行举例,分别分析在surveyreg后加入missing选项,nomcar选项,不加任何选项所对应的解决场景。


首先是加入missing选项。缺失值被视为有效的非缺失水平并包含在计算自由度中。其实与加入缺失指示变量的解决思路很像。


其次是加入nomcar选项。可以使用 nomcar 选项将受访者视为一个domain,而不是排除非受访者。尽管点估计与没有 nomcar 选项的分析相同,一般来说,当假设缺失并非完全随机时,方差估计略高。


我结合师兄之前和我讨论的,觉得可以通俗理解为置信区间变宽,容错率变大了,相对来说更为科学。


最后是不加入任何选项。其实就相当于是删除缺失的操作了,点估计和nomcar一致。



04 一点总结


内容比较多,那我们总结的内容简短一点。


大家其实也可以发现,无论哪一种方法,都不是完美的,都有它的优缺点。关于非随机缺失,其实并没有很好的处理办法。


我觉得这和置信区间是一样的道理。所有人都想要那个确定值,没有人想要置信区间。但现实总是残酷的,只能选一个最优解。


最后还是要提醒大家,多重填补也不是万能的解决办法。越是能填补,越是要小心。(多重填补应该会是下一期的内容)



参考资料中PPT的一页,觉得很有道理


记得点赞在看转发哦。祝好,科研顺利,周末愉快。夏企的想去海边真的超级好听,下下周五见~



05 参考内容


Graham JW. Missing data analysis: making it work in the real world. Annu Rev Psychol. 2009;60:549-576.

Sterne JA, White IR, Carlin JB, et al. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ. 2009;338:b2393.

https://www.brown.edu/academics/medical/about-us/research/centers-institutes-and-programs/aids/sites/center-aids/files/Biostat_MissingData_LoriChibnik.pdf (推荐阅读)

SAS help



- 值得一读的往期文章 -


挺有意思阅读量最高的一期教程



文章转载自月明学习小铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论