大家可能面对一些常见变量,比如吸烟、饮酒、基线疾病史,都会有如何分组的困惑。今天我们就详细聊聊这些变量的常见分组。
虽说是常见变量,但所包含变量数目并不少。所以我们还是分三期推文(两期介绍分组情况,一期SAS代码示例)来更新,本期推文主要关注年龄、种族、教育水平、婚姻状况、吸烟、饮酒以及BMI,重点放在吸烟和饮酒部分。
01 年龄
年龄在既往NHANES发表文献中多以连续性变量的形式出现。而NHANES官方正好是以连续性变量的形式公布年龄变量,所以我们一般不需多做处理。
值得一提的是,NHANES官方公布的年龄变量有两种单位,分别是年和月。具体选取哪一种单位,NHANES Ⅲ的文件中有详细说明,我截图出来供大家参考。

↑
NHANES Ⅲ中关于年龄变量的说明
02 种族、教育水平、婚姻状况
种族比较常见的分类是墨西哥裔、非西班牙裔白人、非西班牙裔黑人、其他。和NHANES公布出来的种族分类不同,大家赋值的时候对照修改一下即可。
教育水平比较常见的分类是低于高中、高中、大学或更高。和NHANES公布出来的教育水平分类也不同。
婚姻状况比较常见的分类是已婚、分居、未婚。和NHANES公布出来的婚姻状况分类也不同。

↑
BMJ上一篇文献关于上述三个变量的分组
03 吸烟
和我们常见的分类一致,在用NHANES发表文章中吸烟比较常见的分类也是从不吸烟、以前吸烟、现在吸烟。
将NHANES公布的吸烟相关变量转换为上述分类时,需要考虑问卷设计时的逻辑跳转问题。举个例子,在询问受访者是否吸过烟时,如果受访者回答否,那么就不存在再问受试者每天吸多少烟的情况。
那我们回到NHNAES公布的变量,看看如何将公布变量转换为上述分组。
首先找到与上述分组相关的变量,包括SMQ020, SMQ040。结合变量本身赋值情况,SMQ020=2即为从不吸烟,SMQ040=3即为以前吸烟,SMQ040=1或者SMQ040=2即为现在吸烟。

↑
NHANES 2005-2006中SMQ020赋值情况

↑
NHANES 2005-2006中SMQ040赋值情况
04 饮酒
饮酒与吸烟相比,在逻辑跳转和分类情况等方面都很相似,也可以分为从不饮酒、以前饮酒、现在饮酒。
NHANES发表文章中所常用到的分类除了用到上述分类外,还会进行合并或者细分产生新的分类。分类及分类标准详见下文引用(上文同一篇BMJ文章)。
drinking status (non-drinker, low to moderate drinker defined as drinking <1 drink/day in women and <2 drinks/day in men, and heavy drinker defined as ≥1 drink/day in women and ≥2 drinks/day in men)
那还是回到NHNAES公布的变量,看看如何将公布变量转换为引用所提到的分组。
首先找到与上述分组相关的变量,包括ALQ101, ALQ130, ALQ120Q, ALQ120U。依据变量本身赋值情况,ALQ101=2即为不饮酒;通过ALQ130, ALQ120Q, ALQ120U每日计算平均饮酒量,结合性别,判断中度饮酒者还是重度饮酒者。涉及变量过多,我就不一一截图了,大家去官网查看就好。
05 BMI
BMI在NHANES发表文献中常以连续性变量或者分类变量出现,我们主要聊聊分类变量。
BMI一般分为三组或者四组。三组分类标准为<25, 25-<30, ≥30;四组分类标准为<18.5, 18.5-<25, 25-<30, ≥30。具体采用哪一种看大家需求。
06 一点总结
整体而言,推文中赋值最为困难的两个变量便是吸烟与饮酒。合适的赋值需要考虑到问题对应变量的逻辑关系,有时候一个分组需要通过多个变量取值来确定。
如果我们把变量放在一边,分组放在另一边,赋值其实就是找变量与分组之间的对应关系。
种族、教育水平、婚姻状况、BMI与相应分组都是一对多的关系,相对来说关系清晰明了,不会对我们造成过多困扰。

↑
一对多,以种族为例
但吸烟、饮酒不同,它们与相应分组之间是多对多的关系,相对复杂,只有理清每一条线的对应关系,才能保证分组的基本正确可行。

↑
多对多,以吸烟为例
分组是一件说难不难,说简单也不简单的事情,通过参照前人的分组方式也能帮我们省不少功夫。
祝好,周末愉快~ 本以为好写的推文最后也还是写了一周,觉得有帮助的朋友记得点赞转发在看哦~
06 参考内容
https://wwwn.cdc.gov/nchs/data/nhanes3/1a/ADULT-acc.pdf
Chen C, Ye Y, Zhang Y, Pan XF, Pan A. Weight change across adulthood in relation to all cause and cause specific mortality: prospective cohort study. BMJ. 2019;367:l5584.
https://wwwn.cdc.gov/Nchs/Nhanes/2005-2006/SMQ_D.htm
https://wwwn.cdc.gov/Nchs/Nhanes/2005-2006/ALQ_D.htm
Saint-Maurice PF, Troiano RP, Bassett DR, Jr., et al. Association of Daily Step Count and Step Intensity With Mortality Among US Adults. Jama. 2020;323(12):1151-1160.




