暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

基于R语言的典型相关分析

R语言数据分析与建模 2020-05-20
1660


一.基本概念和原理

典型相关分析中,当一组变量仅有两个时,可用简单相关系数衡量;当考察一组时,可用复相关进行衡量。大量的实际问题需要我们把指标之间的联系扩展到两组随机变量之间的相互依赖关系。典型相关关系就是为了解决此类问题而提出的多变量统计分析方法。它实际上是利用主成分的思想来讨论两组随机变量的相关性问题,把两组变量间的相关性研究化为少数几对变量间的相关性研究,而且这少数几对变量之间又是不相关的,以此来达到化解复杂相关关系的目的。

二.分析原理

典型相关分析是研究两组变量之间的相关关系的一种多变量统计分析方法,它可以真正反映两组变量之间的相互依赖的线性关系。设两组变量   用x1,x2....xp及y1,y2...yp表示,采用类似主成分分析的方法,在每组变量中选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的关系。其基本原理:首先在每组变量中找出变量的线性组合,使其具有最大的相关性,然后再在每组变量中找出第二对线性组合,使其分布与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完为止。

三.分析步骤

1.计算典型相关系数及变量

(1)计算典型相关系数

首先求出A=R11-1R12-1R22-1R21的特征根r1^2>....>rq^2>0,并求r1,r2,rp对应的特征向量a1,a2... ap;

B=R22-1R21R11-1R12的特征根是s1^2>s2^2...sp^2>0,再求s1,s2...对应的特征向量b1,b2,bp。此时ri^2=si^2,R是样本相关系数矩阵。

(2)典型相关系数的检验

首先需要对典型相关系数进行假设检验以确定相关系数的个数,然后再根据显著的典型相关变量对数据进行典型的相关分析。

(3)计算典型的相关变量:

u1=a1x,v1=b1'y

u2=a2x,v2=b2'y

ur=arx,vr=br'y

其中a和b分别称为变量x和y的典型载荷


    MDS分析


一.基本概念和原理

多维度法是利用一种利用客体间的相似数据去揭示它们之间空间的统计方法 。它是通过一系列技巧,识别构成一个关键维数,并在这个确定的维数的空间里估计一组样品的坐标,其基础数据可以是配对样品间的距离D=(dij),也可以是相似矩阵Cij=cij,后者可以通过变换dij=(cii-2cij+cjj)^1/2转换为距离矩阵。

二.MDS的计算方法

1.确定研究的目的和变量

2.计算样品间的距离矩阵

3.选择适当的求解方法

4.选择适当的维数

5.检验模型的拟合效果

三.案例实战

广东省多维度标度分析

   地区 农业产值 林业产值 牧业产值 企业人数 企业总产值

1  广州    97.84     1.28    38.86   141.98    2089.55

2  深圳    11.20     0.66    12.59   156.52     418.16

3  珠海     5.67     0.11     3.60    17.39     360.58

4  汕头    29.87     0.57    17.26    52.45     673.74

5  佛山    52.39     0.29    32.14    90.77    1649.81

6  韶关    47.82     4.47    18.44    27.91     144.51

7  河源    33.57     3.10    12.84    12.62      51.25

8  梅州    57.10     2.74    28.02    44.12     226.65

9  惠州    61.57     4.70    25.20    70.38     568.79

10 汕尾    29.82     1.70    12.09    30.52     189.00

11 东莞    20.97     0.14    20.35   134.63    1380.42

12 中山    16.87     0.21     5.33    91.43    1148.14

13 江门    57.33     1.79    39.21    85.64    1252.07

14 阳江    47.72     3.27    21.39    19.52     191.64

15 湛江    87.20     4.72    34.07    40.60     390.06

16 茂名   112.00     7.85    81.36    76.47     739.34

17 肇庆    76.06    16.45    46.77    52.97     569.93

18 清远    57.35     6.67    28.47    17.95      75.29

19 潮州    27.05     1.63    14.88    35.22     501.63

20 揭阳    71.08     2.09    26.43    50.52     891.76

21 云浮    44.07     4.65    38.97    22.23     188.47

> D=dist(d12)

> MDS3=isoMDS(D)

initial  value 0.447440 

final  value 0.447295 

converged

> MDS3

$points

            [,1]        [,2]

 [1,] 1442.54751   17.821959

 [2,] -227.92267 -100.425443

 [3,] -295.17401  -18.126246

 [4,]   20.16283  -10.281150

 [5,]  997.89785   11.313551

 [6,] -509.15910    2.361521

 [7,] -603.70902   -1.106045

 [8,] -425.96326    4.185990

 [9,]  -82.28842   -2.283357

[10,] -465.31734  -11.018899

[11,]  731.77443  -51.458246

[12,]  496.45559  -37.089374

[13,]  599.69919   13.003573

[14,] -462.85384   10.664822

[15,] -262.77369   34.136772

[16,]   89.14398   53.903041

[17,]  -82.84134   29.993968

[18,] -578.97590   18.083400

[19,] -152.59195   -7.281900

[20,]  237.78821   30.555811

[21,] -465.89905   13.046252


$stress

[1] 0.4472955

在农村企业总产值中,广州,佛山,东莞这几个城市名列前茅。

再来po个案例各地区工资水平的多维度分析

> plot(mds$points)

> abline(h=0,v=0,lty=3)

> text(mds$points,row.names(case12),cex=0.8)

> case12

     地区    X1    X2    X3    X4    X5    X6    X7    X8

1    北京 41313 17550 14603 20154 30732 54595 28023 52593

2    河北 17057 10255 12947 23894 17580 15835 10362 17282

3    山西 18540 12014 10208 16308 20554 15917 11883 14583

4  内蒙古 19275 12404 11216 12238 17439 18211 12966 14222

5    辽宁 20305 10793 13175 11859 18852 24453 10095 19206

6    吉林 16983  9106  9698 10413 15249 20657 10381 13461

7    上海 40141 22959 20912 30984 31305 43673 42206 26244

8    江苏 28143 15279 16199 17302 20453 25487 15954 18200

9    浙江 41920 22006 19220 32979 19903 26994 21657 19593

10   江西 16227 10000 12118 13939 14710 17365 10388 10982

11   山东 22552 13024 13588 27823 15732 17440 12798 15602

12   湖北 17708 10265 10787 14262 14683 14985  9671 12545

13   湖南 18459 12490 14442 14328 15754 18228 15525 15812

14   广西 18384 12025 11071 13637 16549 17854 13231 12910

15   重庆 21168 13471 14460 16283 15637 21497 13368 17098

16   四川 19884 12624 13522 14962 13251 16606 10693 16909

17   贵州 17248 12590 14796 12306 14227 19361 12482 13436

18   云南 19520 11859 12806 14890 16308 19720 10833 15054

19   陕西 16894  8879 19713 14943 18215 18856 13613 14634

20   甘肃 17836 11411  9832  6439 13998 22076  8407 16877


> mds=isoMDS(D,k=2)

initial  value 5.233985 

final  value 5.233985 

converged

> mds

$points

            [,1]        [,2]

 [1,]  68901.320  19486.3431

 [2,]  -9280.212  -3664.7560

 [3,] -10322.959   -890.6719

 [4,]  -9117.751   1923.1153

 [5,]  -4030.655   5633.9842

 [6,]  -9627.069   7721.3874

 [7,]  49030.469 -14788.9827

 [8,]   5588.982  -3179.4635

 [9,]  17163.253 -22940.4360

[10,] -16468.208   -239.8631

[11,]  -5229.955  -9972.3389

[12,] -11510.131   3744.4978

[13,]  -8357.662   -770.6434

[14,]  -8261.277   2359.9935

[15,]  -1366.060   1613.9797

[16,]  -8655.445   1688.9905

[17,] -12241.916    369.5397

[18,]  -7358.406   1970.2643

[19,]  -8966.827   -541.2686

[20,]  -9889.490  10476.3284

$stress

[1] 5.233985

图中可以看到,北京,上海,浙江的工资水平是名列前茅的。山东和江苏处于上升阶段,而其他地区之间的差异小很多。




文章转载自R语言数据分析与建模,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论