暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

smcounter 笔记-二项分布估算测序深度

罗大黑学生信 2021-07-21
633

目录

二项分布理解

估算测序深度

估算cut-off值


二项分布理解

定义简单理解就是多个相互独立的伯努利事件的概率分布

应用场景:如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。二项分布(binomialdistribution)可以对这类只具有两种互斥结果的离散型随机事件的规律性进行描述。


检验过程:

#1. 做某件事的次数是固定的,用n表示

#2. 每次的事件都有两个可能的结果(成功或者失败)

#3. 每次成功的概率都相等,用P 表示

#4. 期望 想知道k次成功的概率是多少


举例:用抛硬币举例,每一次抛硬币是相互独立的(就是说我第一次和第三次抛硬币的结果是没有影响的),假设硬币朝上的概率为P,则朝下的概率为1-P。抛n次硬币,其中k次朝上的概率结果就是二项分布。

该公式可以用以下方法理解:我们希望有k次成功(p)和n−k次失败(1 −p)。并且,k次成功可以在n次试验的任何地方出现,而把k次成功分布在n次试验中共有。

python实现:第三方包scipy.stats中,有直接表达二项分布的函数binom

根据公式确认以下三点内容是
n=5 #构建事件次数
p=0.5 #事件成功的概率
k = np.arange(-1, n, 1) # 构造事件k


from scipy.stats import binom
binom.pmf(k,n,p) ##计算该随机变量在不同点k次成功的概率
binom.cdf(k,n,p) ## 累计分布函数


估算测序深度

to observe a 2.5% variant on minimum two reads with 90% probability, a minimum of 200x
coverage is required based on the binomial distribution.


例如,要观察具有90%概率的最小两次读取上的2.5%变量,根据二项分布,至少需要200倍的覆盖率

举例:根据上述的公式,逐个将变量代入:

k >= 2   (判定阳性cut-off >= 2(即多少个突变的read判定为阳性))

p = 2.5%  (检测突变的概率,即检测下限为 p=2.5%)

p(x>=2) = 90% 最小两次读取上的2.5%变量的概率

求 n = ? 求事件发生次数


估算cut-off值

    检测下限为 p=5%(somatic mutation, VAF), 判定阳性cut-off >= 5?(即多少个突变的read判定为阳性) ;覆盖深度=250x;假设检测系统的错误率为1%。

阳性率的计算

根据二项式概率密度函数(python 模块scipy.stats中,有直接表达二项分布的函数binom):

>> binom.pmf(range(5),500,0.05)
array([2.69712654e-06, 3.54885071e-05, 2.32543112e-04, 1.01176652e-03,
3.28824120e-03])

注:

阳性率:P = 1 - 2.69712654e-06 - 3.54885071e-05 - 2.32543112e-04 - 1.01176652e-03 - 3.28824120e-03 = 0.9954292635343599 = 99. 54%

假阴性率: P =  2.69712654e-06 + 3.54885071e-05 + 2.32543112e-04 + 1.01176652e-03 + 3.28824120e-03 = 0.004570736465640102 = 0.46%

小结:cut-off  越低假阴性率越低。


假阳性率计算:

根据二项式概率密度函数

>>> binom.pmf(range(5),250,0.01)
array([0.08105852, 0.20469322, 0.25741723, 0.21494772, 0.13407093])

假阳性率:P = 1 - 0.08105852 - 0.20469322 - 0.25741723 - 0.21494772 - 0.13407093 = 0.10781237999999996 = 10.8%

小结:cut-off  越低假阳性率越高。


应用:通过已知的 检测下限(每次事件发生的概率P),覆盖深度(总发生的次数n), 求取合适的阳性cut-off值

检测下限( p= )

覆盖深度

阳性cut-off (>=)

假阴性率

假阳性率

5%

250x

2

0.00381%

71.4%

5%

250x

3

0.0271%

45.7%

5%

250x

4

0.128%

24.2%

5%

250x

5

0.46%

10.8%




参考:

李金明 《高通量测量技术》

Detecting very low allele fraction variants using targeted DNA sequencing and a novel molecular barcode-aware variant callerChang Xu,Mohammad R. Nezami Ranjbar, Zhong Wu, John DiCarlo, and Yexun WangPublished online 2017 Jan 3. doi: 10.1186/s12864-016-3425-4

几分钟搞懂统计概率中的几个经典分布https://zhuanlan.zhihu.com/p/144165136


文章转载自罗大黑学生信,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论