“ 前面我们聊过关于比较性分析,这篇咱们就来聊聊关联性分析”

01
—
相关≠因果
冥冥之中,世上很多事都是有关联的。最经典的案列肯定是沃尔玛的“啤酒与尿布”。只是底层关联的逻辑往往扑朔迷离,所以相关不代表它们一定是因果关系。
1、我们来看看根据不同维度,相关都分为哪些类型:

2、相关的程度大小是用相关系数来衡量的,用字母r表示。
|r|<0.3不相关,0.3-0.5弱相关,0.5-0.8显著相关,>0.8高度相关。r=0,线性无关,但可能非线性相关。

相关系数的选用是有条件的,最常用的是皮尔逊积差相关,xy协方差/x、y标准差。关于协方差值得大家留心一下,因为奠定金融学基础就是马柯维茨投资组合理论,如下。cov就是协方差。

额,有些宝宝会说不懂金融学,那我相信他肯定听过“不要把鸡蛋放进同一个篮子里”这句话。这个理论能帮我们很好计算降低风险。
除了积差相关,还有点二列相关,两列斯皮尔曼等级变量相关,多列肯德尔等级变量相关,这些公式都有对应的选用条件。

3、尽管我们知道了相关系数,但我们要检验这个相关系数是否靠谱,一般用到t检验和r检验。

02
—
回归分析
在相关分析基础上,通过其中一个变量对另一个变量预测和控制,增加因果关系。回归分析分为线性和非线性(曲线)回归。
1、回归方程(理解b值回归系数)
有几个定义要提前理解:x自变量,y应变量,^y预测值,a截距,b回归系数/斜率。特别是标黄的部分,在讲到验证的时候再着重解释。


来看看线性回归方程分为三种,要理解多元线性回归和Logistic回归(多因素)的区别:

2、回归模型检验(理解残差)
这里检验要分为两部分,一部分是验证回归系数b是否有效,另一部分是重难点,就是检验回归方程有效性的高低。我相信大家都有疑问了,回归方程不是长成下图这样,那只要验证b就够了。

为什么还要验证方程有效性高低??其实这个方差除了a+bx,后面还要再加一个e,这个e是什么玩意儿??这叫残差。
其实散点图,我们可以找出N条线出来,看下图:

这么多条线到底哪条最好?其实和方差原理是一样的。


因此,为了残差越小,方程就需要做一个检验。刚刚我们也知道变异(误差)可以分解为来自变量和 残差。

那么SSe越小,SSt越大,同时x对y的解释里越好,SSr会越大,SSt越大。
t检验验证回归系数b是否有效(同相关系数r)
F检验回归方程有效性高低。

R平方也叫决定系数/复相关系数。

03
—
详细思维导图









