暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

概率论系列考点 — 真题解析+母题测试

数据攻略 2021-08-19
416

之前针对概率论类 高频考点,做了框架梳理 

 【数据分析岗】概率论类高频考点框架
(内含 概率论 考点框架+case

结合后台反馈和读者调研,

本篇,尝试个新方式 --> “ 既看懂又练会 ” !

方便看懂的同时,直接上手操练巩固。


因此!这一篇 

结合 概率论 经典问题 及 大厂真题 直击重点 。

内含 经典问题解析真题测试 


 温馨提示:

1.概率论问题解析篇幅略长,但确实经典,建议理解后,学会举一反三!

2.速来大厂母题测试!巩固操练!查漏补缺!


------正文手动分割线------


本文结构速览:

第一&二部分:经典概率论大厂母题+case详解

第三部分:真题操练



三门问题


三门问题(Monty Hall problem)亦称为蒙提霍尔问题,出自美国的电视游戏节目Let's Make a Deal。


问题描述:

参赛者小明会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当小明选定了一扇门,但未去开启它时,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊,问小明是否换另一扇仍然关上的门?





答案是:换门


答案剖解

这里的问题其实是计算是换门和不换门赢得汽车的概率?

不换门赢得汽车的几率是1/3

换门赢得汽车的几率是2/3


接下来,我们来唠一唠,这1/3和2/3是怎么得来的。


请注意这里有两个潜在的信息:

主持人是清楚汽车所在的位置。

无论小明选择哪一扇门,主持人都会开启一扇山羊的门。


带着这两个信息点,我们开始枚举小明所有的选择以及主持人会对应的行为,我们对两只山羊分别记为山羊1号和山羊2号。


情况A:小明选择了山羊1号,此时主持人打开了山羊2号的门。

情况B:小明选择了山羊2号,此时主持人打开了山羊1号的门。

情况C:小明选择了汽车,此时主持人打开山羊1号或者山羊2号的门。


每种选择发生的概率相等,也就是1/3。

如果小明选择不换门,那么只有情况C可以获得汽车,从而获得汽车的几率为1/3

如果小明选择换门,那么情况A/B都可以获得汽车,从而获得汽车的几率为2/3


高亮重点:

三门问题的关键之处在于:

无论小明做出什么样的选择,主持人都会开启一扇山羊的门。当主持人发生这一行为时,最初选择汽车的概率因为有了更多信息的加入,从而发生了变化



新药治愈率问题


之前 我们对辛普森悖论做了详细的讲解

【数据分析岗】高频面试题——辛普森悖论

下面,结合辛普森悖论讲下经典的新药临床试验案例。


问题描述:

下面是分性别服药与不服药的治愈情况。请问现在有一个不知性别的患者,医生是否应该给他配药?


从表中的数据我们可以看到


男性患者服药治愈率为93%,未服药治愈率为87%

女性患者服药治愈率为73%,未服药治愈率为69%

所有服药患者治愈率为78%,未服药治愈率为83%


知识点回顾:

男性和女性服药的治愈率均大于未服药的

合计到一起,服药的治愈率小于未服药


这就是经典的 辛普森悖论

辛普森悖论的核心在于进行合并计算治愈率的时候,决定治愈率最终的结果不仅仅是分组的治愈率还有分组的用户数,也就是权重。


答案是:是的,需要配药。为啥?


答案剖解:


在这里,我们需要使用条件概率

患者为男性的概率是1/2, 男性配药治愈率为93%,不配药治愈率为87%

患者为女性的概率也是1/2,女性配药治愈率为73%,不配药治愈率为69%


配药的治愈率就为:

93%*0.5 + 73%*0.5 = 83%


不配药的治愈率就为:

87%*0.5 + 69%*0.5 = 78%


为什么在这里我们不直接使用表中合计的结果,却需要分开计算?
在这个表里面,我们可以发现,女性服药的用户数(263例)远高于男性(87例)
因为服药这个自发行为,导致男女的服药比例与实际男女的比例产生了 偏差

高亮重点:

医生在决策是否配药的情况下,需要按照实际的男女比例,来预估配药与不配药的治愈率。




大厂真题


内含4道真题测试


真题测试1:

平台新上线某功能,为测试功能的效果,核心指标为成交金额GMV。将平台访问随机分成A、B两组,根据历史数据数据,实验组和对照组的用户成交金额的标准差为90元。预估该功能平均每个用户可提升3元,相对提升30%。,统计功效为80%,显著性为双边检验,显著性水平为5%。请问整个实验需要多少样本量()


答案提示:最小样本量计算公式,可参考往期文章。

 概率论系列考点 — 统计功效 | 最小样本量



真题测试2:

以下哪种方法不能用于判断异常值( )

A.  正态分布的3sigma原则

B.  箱线图分析法

C.  PCA主成分分析法

D.  象限图



真题测试3

一项调查表明,某地区员工平均年收入为10500元,随机抽取一个由800名群众组成的样本,样本的标准差为5000元,请问该地区员工平均年收入的95%置信区间为()

A: [10154, 10846]

B: [700, 20300]

C: [10235, 10765]

D: [10323, 10677]

答案提示:区间估计。



真题测试4

伊索寓言狼来了的故事,第一天,小孩在上山喊:“狼来了”,村民闻声上去,发现狼没有来,第二天依旧如此,第三天,狼真的来了,可是小孩无论怎么喊,也没有人来救他,因为前两次他说了谎,人们不再相信他。

记事件A 为“小孩说谎”, 记事件A’ 为“小孩没有说谎”

记事件B为“小孩可信”, 记事件B’ 为“小孩不可信”

设第一天村民对小孩的信任程度为:P(B)=0.9  P(A|B')=0.5 P(A|B)=0.1

请问第三次村民听到呼叫时对小孩的可信度是多少()

答案提示:贝叶斯公式。



以上,就是概率论经典问题及大厂母题测试。


注:如需答案及解析,请后台回复 “  答案  ” 

如若其中某一点对你有帮助,欢迎点赞,点亮在看

也可以在公众号后台找到我,说说你目前的困惑 ~


 欢迎关注

更多 『求职干货』 & 『日常学习』 系列好文,等你发现~



文章转载自数据攻略,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论