一.基本概念和原理
典型相关分析中,当一组变量仅有两个时,可用简单相关系数衡量;当考察一组时,可用复相关进行衡量。大量的实际问题需要我们把指标之间的联系扩展到两组随机变量之间的相互依赖关系。典型相关关系就是为了解决此类问题而提出的多变量统计分析方法。它实际上是利用主成分的思想来讨论两组随机变量的相关性问题,把两组变量间的相关性研究化为少数几对变量间的相关性研究,而且这少数几对变量之间又是不相关的,以此来达到化解复杂相关关系的目的。
二.分析原理
典型相关分析是研究两组变量之间的相关关系的一种多变量统计分析方法,它可以真正反映两组变量之间的相互依赖的线性关系。设两组变量 用x1,x2....xp及y1,y2...yp表示,采用类似主成分分析的方法,在每组变量中选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的关系。其基本原理:首先在每组变量中找出变量的线性组合,使其具有最大的相关性,然后再在每组变量中找出第二对线性组合,使其分布与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完为止。
三.分析步骤
1.计算典型相关系数及变量
(1)计算典型相关系数
首先求出A=R11-1R12-1R22-1R21的特征根r1^2>....>rq^2>0,并求r1,r2,rp对应的特征向量a1,a2... ap;
B=R22-1R21R11-1R12的特征根是s1^2>s2^2...sp^2>0,再求s1,s2...对应的特征向量b1,b2,bp。此时ri^2=si^2,R是样本相关系数矩阵。
(2)典型相关系数的检验
首先需要对典型相关系数进行假设检验以确定相关系数的个数,然后再根据显著的典型相关变量对数据进行典型的相关分析。
(3)计算典型的相关变量:
u1=a1x,v1=b1'y
u2=a2x,v2=b2'y
ur=arx,vr=br'y
其中a和b分别称为变量x和y的典型载荷
MDS分析
一.基本概念和原理
多维度法是利用一种利用客体间的相似数据去揭示它们之间空间的统计方法 。它是通过一系列技巧,识别构成一个关键维数,并在这个确定的维数的空间里估计一组样品的坐标,其基础数据可以是配对样品间的距离D=(dij),也可以是相似矩阵Cij=cij,后者可以通过变换dij=(cii-2cij+cjj)^1/2转换为距离矩阵。
二.MDS的计算方法
1.确定研究的目的和变量
2.计算样品间的距离矩阵
3.选择适当的求解方法
4.选择适当的维数
5.检验模型的拟合效果
三.案例实战
广东省多维度标度分析
地区 农业产值 林业产值 牧业产值 企业人数 企业总产值
1 广州 97.84 1.28 38.86 141.98 2089.55
2 深圳 11.20 0.66 12.59 156.52 418.16
3 珠海 5.67 0.11 3.60 17.39 360.58
4 汕头 29.87 0.57 17.26 52.45 673.74
5 佛山 52.39 0.29 32.14 90.77 1649.81
6 韶关 47.82 4.47 18.44 27.91 144.51
7 河源 33.57 3.10 12.84 12.62 51.25
8 梅州 57.10 2.74 28.02 44.12 226.65
9 惠州 61.57 4.70 25.20 70.38 568.79
10 汕尾 29.82 1.70 12.09 30.52 189.00
11 东莞 20.97 0.14 20.35 134.63 1380.42
12 中山 16.87 0.21 5.33 91.43 1148.14
13 江门 57.33 1.79 39.21 85.64 1252.07
14 阳江 47.72 3.27 21.39 19.52 191.64
15 湛江 87.20 4.72 34.07 40.60 390.06
16 茂名 112.00 7.85 81.36 76.47 739.34
17 肇庆 76.06 16.45 46.77 52.97 569.93
18 清远 57.35 6.67 28.47 17.95 75.29
19 潮州 27.05 1.63 14.88 35.22 501.63
20 揭阳 71.08 2.09 26.43 50.52 891.76
21 云浮 44.07 4.65 38.97 22.23 188.47
> D=dist(d12)
> MDS3=isoMDS(D)
initial value 0.447440
final value 0.447295
converged
> MDS3
$points
[,1] [,2]
[1,] 1442.54751 17.821959
[2,] -227.92267 -100.425443
[3,] -295.17401 -18.126246
[4,] 20.16283 -10.281150
[5,] 997.89785 11.313551
[6,] -509.15910 2.361521
[7,] -603.70902 -1.106045
[8,] -425.96326 4.185990
[9,] -82.28842 -2.283357
[10,] -465.31734 -11.018899
[11,] 731.77443 -51.458246
[12,] 496.45559 -37.089374
[13,] 599.69919 13.003573
[14,] -462.85384 10.664822
[15,] -262.77369 34.136772
[16,] 89.14398 53.903041
[17,] -82.84134 29.993968
[18,] -578.97590 18.083400
[19,] -152.59195 -7.281900
[20,] 237.78821 30.555811
[21,] -465.89905 13.046252
$stress
[1] 0.4472955

在农村企业总产值中,广州,佛山,东莞这几个城市名列前茅。
再来po个案例各地区工资水平的多维度分析
> plot(mds$points)
> abline(h=0,v=0,lty=3)
> text(mds$points,row.names(case12),cex=0.8)
> case12
地区 X1 X2 X3 X4 X5 X6 X7 X8
1 北京 41313 17550 14603 20154 30732 54595 28023 52593
2 河北 17057 10255 12947 23894 17580 15835 10362 17282
3 山西 18540 12014 10208 16308 20554 15917 11883 14583
4 内蒙古 19275 12404 11216 12238 17439 18211 12966 14222
5 辽宁 20305 10793 13175 11859 18852 24453 10095 19206
6 吉林 16983 9106 9698 10413 15249 20657 10381 13461
7 上海 40141 22959 20912 30984 31305 43673 42206 26244
8 江苏 28143 15279 16199 17302 20453 25487 15954 18200
9 浙江 41920 22006 19220 32979 19903 26994 21657 19593
10 江西 16227 10000 12118 13939 14710 17365 10388 10982
11 山东 22552 13024 13588 27823 15732 17440 12798 15602
12 湖北 17708 10265 10787 14262 14683 14985 9671 12545
13 湖南 18459 12490 14442 14328 15754 18228 15525 15812
14 广西 18384 12025 11071 13637 16549 17854 13231 12910
15 重庆 21168 13471 14460 16283 15637 21497 13368 17098
16 四川 19884 12624 13522 14962 13251 16606 10693 16909
17 贵州 17248 12590 14796 12306 14227 19361 12482 13436
18 云南 19520 11859 12806 14890 16308 19720 10833 15054
19 陕西 16894 8879 19713 14943 18215 18856 13613 14634
20 甘肃 17836 11411 9832 6439 13998 22076 8407 16877
> mds=isoMDS(D,k=2)
initial value 5.233985
final value 5.233985
converged
> mds
$points
[,1] [,2]
[1,] 68901.320 19486.3431
[2,] -9280.212 -3664.7560
[3,] -10322.959 -890.6719
[4,] -9117.751 1923.1153
[5,] -4030.655 5633.9842
[6,] -9627.069 7721.3874
[7,] 49030.469 -14788.9827
[8,] 5588.982 -3179.4635
[9,] 17163.253 -22940.4360
[10,] -16468.208 -239.8631
[11,] -5229.955 -9972.3389
[12,] -11510.131 3744.4978
[13,] -8357.662 -770.6434
[14,] -8261.277 2359.9935
[15,] -1366.060 1613.9797
[16,] -8655.445 1688.9905
[17,] -12241.916 369.5397
[18,] -7358.406 1970.2643
[19,] -8966.827 -541.2686
[20,] -9889.490 10476.3284
$stress
[1] 5.233985

图中可以看到,北京,上海,浙江的工资水平是名列前茅的。山东和江苏处于上升阶段,而其他地区之间的差异小很多。




