暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

相关性与因果性-因果分析

须弥术数 2022-04-03
4502

       

         在上周和大家分享了相关性分析,这周和大家分享因果分析。说起因果大家都能理解,但是它和相关性的区别有很多人会混淆,比如啤酒与纸尿裤的故事里面,就属于相关性而不是因果性,因为想要购买的人不会因为这两样物品不放在一起就不购买了,只是放在一起会提升销量。而一个台球A滚动并撞击另外一个台球B,造成台球B滚动这就是因果关系,判断因果关系最重要的是时间先后顺序因素以及原因和结果之间存在的物理联系的空间性。

因果关系-时间因素

        在上一个例子中,台球B的运动是由第一个台球引起,而判断依据就是时间先后顺序,台球A先开始滚动,紧接着撞击台球B后造成台球B的滚动。但是大家要注意两球相撞的这一事件发生的顺序尽管非常重要,但是也要注意原因和结果之间的时间延迟性,如果你和感冒了的朋友一起吃了顿饭,过了四个月你也感冒了,那么你不会认为这是因果关系。(当然不能排除可能性)。这个认识就是你对感冒传播的认识,虽然感冒传播存在潜伏期,但是时间不太可能是三个月。所以你不会认为这是因果关系。我们可以通过缩小时间范围来找到三个月后感冒的真正原因是什么。

        时间因素可以让我们可以区分原因和结果(牙疼之前你已经通过节食和培养良好的饮食习惯减肥,体重在逐渐的下降,那么说明牙疼不是你体重下降的原因)。时间因素也可以让我们可以采取干预措施来阻止问题出现,例如出去一趟之后回家用酒精消毒并洗手,来预防感染病毒。顺着这个思路其实时间因素还能让我们预测未来要发生的事,发现脚趾隐隐约约的疼了那么说明痛风要发作,这是要赶紧吃痛风药物戒酒保持健康的作息,来阻止痛风的发作。

因果关系-时间延迟

        原因和结果之间是存在延迟的,这种延迟的时间长短也是我们判断因果关系的一个很重要因素,同时也增加了判断因果关系的难度。(这也取决于人们对这种延迟的预期)。

        例如上面的例子,如果台球A撞击台球B之后半个小时,台球B才移动,那这就违法了我们所知道的物理原理。但是如果一个人接触到了一种放射性物品,那么十年后他得了癌症,人们却不会觉得意外。这就是时间延迟和人们预期的关系。

因果关系-物理距离

    大家都知道蝴蝶效应,他是气象学家洛伦兹在1963年提出的,大概意思就是南美洲亚马逊河流热带雨林中的蝴蝶,他偶尔扇动几下翅膀可能会在两周后的美国得克萨斯州引起一场龙卷风。他的解释是蝴蝶翅膀的运动刀子身边空气气流发生微弱的变化,而四周的空气的变化会引起更多的变化从而产生连锁梵音,最终导致其他系统的极大变化,从这个效应可以说明事物发展的结果对初始条件具有非常命啊的依赖性,初始条件的极小偏差会引起最终结果极大的差异。而蝴蝶效应中原因和结果存在着巨大的物理距离,从而影响人们对这个因果关系的置信程度。

        在台球例子中如果台球A离台球B还有一段距离就停止了,但是台球B却动了,那么大家不会认为台球A是台球B的原因,这就是空间上的物理因素影响力人们对因果关系的判断。

因果关系中的时间方向

        假如一个朋友说有一种新出来的代餐棒对他的便秘有改善,因为吃了之后他的便秘情况有改善(潜台词说这种代餐棒和便秘的改善存在因果关系)那么你怎么判断代餐棒和便秘之间的顺序呢?这其实就是由于我们对因果关系的了解会影响我们对事件顺序和时间间隔的感应。基于上面的例子我们会得出两个判断。吃这种代餐棒在前,便秘改善在后;吃代餐棒和便秘改善之间的时间间隔不会太长。

        那为什么有时候两件事看起来好像是同时发生的呢?这其实是测量力度和观察能力有限导致的,像微阵列试验一次检测数千个基因的活动情况,而对基因的活动水平的检测通常是固定的时间间隔,那我们从数据上看两个基因的活动模式看起来好像是一样的,然后实际上可能是两个基因中一个变动引起的另外一个也变动。但是我们看不到这种顺序,而且也没有技术手段来观察,那么只能确定这两个基因的活动水平是相关的。

        没有时间信息的情况是最复杂的。例如我们对一个餐厅的客流量实施监控,出于成本上的考虑,我们会每隔半个小时或者一个小时进行统计,那么如果不同的人出现在同一个时间窗口内,那么我们只能统计他的相关性而永远无法知道他们之间的时序因果关系。

因果关系-外推性

        因果关系的外推性是指这个关系能否被实验对象以外的对象接受。像我们在中国进行的一个街头随机试验,能否在美国具备同样的试验效果。因为随着时间的变化因果关系本身也在变化例如新的法律会影响股票的价格,网络新闻的盛行降低了印刷广告对人们的影响。但是在使用因果关系的时候,人们却默认因果关系成立的因素是不变的,这就会造成我们在使用因果关系的时候出现风险。例如疫情期间餐厅的客流量变化与以前年份的一定不同,所以在分析的时候要把研究周期尽可能的缩短。

        那么我们知道了以上的知识之后,如何找到事情的时间协变程度呢?例如我国的黄豆进口数量和公路死亡人数之间的关系,随着时间的变化进口数量稳定减少,但是死亡人数不断增加,那么这种正向的随时间变化的趋势可能说明某些时间序列之间具有相关性,即使他们的皮尔逊相关系数达到0.89也并不能说明他们之间存在因果关系。

因果关系的应用

        每个月的那一天最适合买火车票?应该早上洗澡还是晚上洗澡有助于睡眠?季节效应对餐饮行业的影响在什么年份最小?室外温度决定电视收视率?总体来说,基于因果关系进行推理预测的时候需要以下几个因素。

        是当冰激凌的销量上升的时候,游泳死亡人数也会增加,两个指数是正相关,但是大家都知道这不是因为冰激凌买的好所以游泳淹死的人多了。

1、确定某个因果关系发生的前提条件,例如在冬天的时候我们用一些营销策略让人们更多的购买某些餐食,但是这些因素可能在夏季就达不到这种效果。(可以采取相反的方式,例如冬天砂锅,夏天凉粉等。)

2、时间发生的顺序,如果我们发现一种代餐棒能够解决便秘的问题,那么我们就能够好的了解代餐棒里面的什么成分解决了便秘,并作出更好的预测。

3、因果之间的时间间隔,例如当什么新闻出现的时候我们要买进那些股票,在去印度前我们要提前准备好拉肚子的药物等。

        想要通过因果关系来进行各项分析之前一定要将上方的知识点进行融汇贯通,才能更好的利用因果性分析来帮助我们。

        那么相关性和因果性有什么区别和联系呢?休谟曾说过,因果关系实际上就是相关性,相关性对因果性来说是必要但不充分的条件。

他们具体有如下几个区别

1.相关性是对称的,身高和年龄之间的相关性与年龄与身高之间的相关性完全一样,但是因果关系是不对称的,例如咖啡让人失眠并不意味着失眠的人一定喝咖啡。当发现一个相关性的时候,如果我们完全不知道组成这一相关性的因素发生顺序,那么每个因素都可能是导致另外一个因素出现的原因。

2.香瓜行中的共同原因现象,因果关系并不是相关性的唯一解释,尽管因果关系能够解释一些相关性的问题,但是仍然要记住-因果关系并不是相关性的唯一解释,就想我们按时上班和享用丰盛早餐之间存在相关性,但是这两点都是你起得够早的结果,早起让我们能吃上早饭,而不是马上起床去赶地铁,当我们在两个变量之间发现一种相关性的时候,必须考察下这种无法测定的隐性因素(共同原因)能够解释变量之间的关系。

3.中间变量的存在,与时间因素相似,相关变量之间不存在直接因果关系的另一个原因就是中间变量。例如空闲时间和体重指数存在相关性,因为空闲时间多了代表不用加班熬夜吃外卖。,这里的空闲时间就是一个中间变量。

4.因果关系存在时序的先后性,但是相关性则不一定,虽然长跑能够消耗热量从而减轻体重,但是长跑也可能导致食欲大增增加体重,跑步的积极作用可能会被它的消极作用抵消,最后大家可能发现跑步和减肥之间不存在任何相关性。如下图


文章转载自须弥术数,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论