暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

由NHANES引发的思考 --标准差还是标准误?

月明学习小铺 2021-07-21
1711
本次推送主要关注标准差(Standard Deviation)标准误(Standard Error),对多种使用情况加以举例描述。记得看到文末,有小福利~


01 标准差 标准误基本概念介绍


标准差:刻画个体资料分布的离散程度的指标,反映了个体数值对样本均数的代表性,用于描述统计。

标准误:刻画统计量的平均抽样误差大小,反映样本均数对总体均数的代表性,用于推断统计。

标准误以及标准差区别,讲解视频后台回复SDSE


02 非复杂抽样设计


我们平时看到的很多研究其实都不是复杂抽样设计(a complex, multistage probability sampling design),要不然用NHANES数据发表的文章也不会把全国性代表性样本(the large nationally representative sample)放在优势的第一个。


以基于法国NutriNet-Santé队列研究发表文章为例,摘取其中的Table 1及方法结果描述。


非复杂抽样设计Table1


Baseline characteristics of the study population were examined across sex-specific quartiles of sugar intake and were compared using ANOVA tests for continuous variables or χ2 tests for categorical variables.

Mean ± SD daily intake of sugars was 92.8 ± 33.2 g. Mean contribution of sugars to energy intake was 19.6% (19.9% in women and 18.3% in men)

只是基于样本本身(本次研究纳入的101279人)得出均数和频数,所以均数对应的是标准差。


03 NHANES文章使用标准差


以BMC Medicine上的一篇文章为例,摘取其中的Table 1及方法结果描述。

NHANES文章使用标准差时Table1

Continuous variables are presented as mean ± standard deviation, median, and interquartile range (IQR), and categorical variables are presented as percentages.
The final study population had a mean age of 48 (SD 19) years; 50.1% were males.

同样只是基于样本本身得出均数、中位数和频数,均数对应的是标准差

结合结果描述中所用的study population会发现作者其实清楚这一点,只是就事论事,也没有出现weighted等表述(下文可以看到)。


04 NHANES文章使用标准误


以JAMA Internal Medicine上发表的一篇文章为例,摘取其中的Table 1及方法结果描述。

NHANES文章使用标准误时Table1

Means and proportions of baseline characteristics were compared by using linear regression analyses for continuous variables and logistic regression analyses for categorical variables.
This cohort study of 2116 adults aged 20 years and older comprised 1145 women (weighted proportion, 51.6%) and 971 men (weighted, 48.4%),with a weighted mean(SE) age of 42.6 (0.5) years; 958 participants (weighted, 68.4%) were of non-Hispanic white ancestry.


不论是由连续性变量得出的均数还是分类变量的出的频数,对应的都是标准误。因为推断的是总体(真实世界中的美国人群)。值得一提的是,表述中多次出现weighted表述,我觉得绝对是模范表达。

如果是按照这样往下推的话,其实连续性变量本身的分布类型也就不重要了,即便原始分布不是正态分布,多次抽样所得到的样本均值的分布也是趋于正态的。或许这也是Table 1中出现标准误但不出现中位数的原因,而且官方教程中也并没有提及中位数的计算。

不同分布类型多次抽样后均数分布都接近正态



05 一点总结


没有对错,但一定要分清楚标准差以及标准误的使用情况以及对应表达。往往以为理所当然的事情,深究起来竟不知所措,好歹想通一些,分享给大家。

后台回复「SDSE」,即可获得有关标准差及标准误的讲解视频,仅供学习使用。

祝好,有建议的话可以后台留言,有帮助记得点赞在看哦~


06 参考内容


https://www.zhihu.com/question/22864111
Debras C, Chazelas E, Srour B, et al. Total and added sugar intakes, sugar types, and cancer risk: results from the prospective NutriNet-Sante cohort. Am J Clin Nutr. 2020;112(5):1267-1279.
Wolffenbuttel BHR, Heiner-Fokkema MR, Green R, Gans ROB. Relationship between serum B12 concentrations and mortality: experience in NHANES. BMC Med. 2020;18(1):307.
Yang Q, Zhang Z, Gregg EW, Flanders WD, Merritt R, Hu FB. Added sugar intake and cardiovascular diseases mortality among US adults. JAMA Intern Med. 2014;174(4):516-524.
赵耐青老师的《卫生统计学》





文章转载自月明学习小铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论