暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

基于R语言的对应分析

R语言数据分析与建模 2020-05-19
1823

一.基本概念和原理

对应分析(Correspondence Analysis)是在因子分析的基础上发展起来的,对应分析是多变量统计分析中有用的分析方法。对应分析把R型和Q型因子统一起来,通过R型因子分析直接得到Q型因子分析的结果,把变量(指标)和样品同时反映到相同的坐标轴(因子轴)的一张图上,用此来说明(指标)与样品之间的关系。

对应分析的方法,在因子分析中可以用较少的公共因子来提取样本数据的绝大部分信息,这样就可以考察较少的因素而获得足够的信息。然而R型因子分析和Q型因子分析,即对变量和样品分别做因子分析,并没有考虑变量和样本之间的联系就损失了一部分信息。此外在实际应用中,样品的数量远大于变量的数量,在进行Q型分析时计算量远大于R型的因子分析。

实际上,Q型因子分析和R型因子分析分别反映了整体的不同侧面,因此它们之间必然有联系。对应分析就是通过巧妙的数学变换,把Q型和R型分析有机的结合起来。具体来说就是通过一个过渡矩阵Z,对数据进行处理,得到的变量乘积矩阵A=ZZ'与样品的乘积B=ZZ'。根据矩阵的代数性质,矩阵A和矩阵B有相同的非零特征根,λ1大于等于λ2...大于等于λp.进一步地,矩阵A的特征根λi,对应的特征向量Ui,则B对应的特征向量ZUi=Vi.这样就方便地从R型因子分析得到Q型因子分析的结果。

设n个样品,每个样品有p个变量

  x11  x12 ....x1p

   x21

x=                       =(xij)n*p

0

   .

   xn1   xn2      xnp

对于x元素xij要求都大于0,现在我们既需要对变量求它的主成分,又需要对样品求主成分。用X表示数据阵,它的样品协方差阵为

∑=1/nA,这里的样本离方差为A*=XDpX',Dp=Ip-1/p1p1p'

二.对应分析的计算步骤

1.由数据矩阵X,计算规格化的概率矩阵X=(xij)n*p。

2.计算过渡矩阵Z=(Zij)n*p=(pij-pipj/ √xixj)n=(xij-xi.x.j/x../ √ xi.x.j)n*p

3.进行R型因子分析:计算A=ZZ'的特征根 λ 1,λ2,λm并按照百分比 ∑ λ i/λ∑λ i⩾80%,取前m个特征值根λ 1,λ2,λm并计算相应的单位矩阵u1,u2得到因子的载荷矩阵

4.进行Q型分析;有上述得到的特征根,计算B=ZZ'所对应的单位矩阵Zei=vi,得到因子载荷矩阵。

三.注意事项

1.不能用于相关关系的假设检验。对应分析只能说明两个变量的联系,而不能说明这两个变量存在的关系是否显著。只是用来揭示表示这两个变量内部类别之间的关系。

2.纬度由变量所含的最小类别决定。

由于纬度取舍不同,其所包含的信息量也不同,一般来讲,如果各变量所包含的类别较少,则在两个纬度进行分析损失的信息量少

3.对极端值应该做敏感性研究

4.研究对象需要有可比性

5.变量的类别应该涵盖所有可能出现的情况

6.不同标准化分析的结果不同

7.在解释图形变量类别间的关系时,要注意所选择数据标准化方式,不同的标准化方式会导致类别在图形上的不同分布

四.实际案例

 下面以农民收入为例看看对应分析的具体实践                            

项目 低收入户 中低收入户 中等收入户

1              文盲或半文盲    13.53       3.68       3.51

2                  小学程度    69.77      29.14      24.99

3                  初中程度    97.69      55.28      56.36

4                  高中程度    14.00       9.20      11.05

5                  中专程度     3.77       2.33       3.28

6                  大专程度     1.24       0.37       0.81

7    在非企业组织中得到收入    52.49      73.87     156.25

8      在本地企业中得到收入   280.34     257.72     322.94

9  常住人口外出从业得到收入   388.23     940.18    1511.76

10           其他工资性收入   535.60     358.95     291.32

11             家庭经营收入  3480.68    2069.17    2244.54

12               转移性收入   159.99     158.30     239.27

13               财产性收入    34.32      32.57      63.95

   中高收入户 高收入户

1        3.09     2.24

2       20.96    19.75

3       57.93    49.85

4       12.54    17.50

5        3.74     6.72

6        1.74     3.94

7      227.37   741.94

8      299.17  1297.58

9     2484.98  2870.31

10     303.71   475.49

11    2782.37  6479.68

12     344.35   661.23

13     119.43   699.20

1.首先进行卡方检验,我们要研究的是不同文化程度和总收入来源对于农民纯收入的影响,关心的是哪种文化程度农民能获得高收入,哪种收入来源更能增加农民收入。可以通过λ2统计量来检验它们是否有显著相关关系,但是这种方法只是说明两个变量是否相关以及相关程度如何,而不能说明某行某列有关联。

  项目 低收入户 中低收入户 中等收入户 中高收入户

1 文盲或半文盲    13.53       3.68       3.51       3.09

2     小学程度    69.77      29.14      24.99      20.96

3     初中程度    97.69      55.28      56.36      57.93

4     高中程度    14.00       9.20      11.05      12.54

5     中专程度     3.77       2.33       3.28       3.74

6     大专程度     1.24       0.37       0.81       1.74

  高收入户

1     2.24

2    19.75

3    49.85

4    17.50

5     6.72

6     3.94

> d10$项目<-as.numeric(d10$项目)

> chisq.test(d10)


Pearson's Chi-squared test


data:  d10

X-squared = 128.51, df = 25, p-value = 6.81e-16

ca1$rowcoord[,1:2]

        Dim1       Dim2

1 -1.6050337 -2.1952858

2  0.1906802 -1.0827510

3  0.5540340  0.3460844

4 -0.2321004  1.6370739

5 -3.2567823  0.5092324

6 -2.9773750  1.8424798

> ca1$colcoord[,1:2]

                 Dim1       Dim2

项目       -3.7272132 -0.5976212

低收入户    0.3285295 -1.1795039

中低收入户  0.4824463 -0.1900037

中等收入户  0.3645487  0.3191039

中高收入户  0.2693722  0.8629429

高收入户   -0.2452688  1.6119894


chisq.test(d10.2)


Pearson's Chi-squared test


data:  d10.2

X-squared = 3186.7, df = 30, p-value < 2.2e-16

Principal inertias (eigenvalues):


 dim    value      %   cum%   scree plot               

 1      0.057507  60.4  60.4  ***************          

 2      0.033261  35.0  95.4  *********                

 3      0.003499   3.7  99.1  *                        

 4      0.000766   0.8  99.9                           

 5      0.000123   0.1 100.0                           

        -------- -----                                 

 Total: 0.095156 100.0                                 

  项目                            低收入户      中低收入户    中等收入户

7    在非企业组织中得到收入    52.49      73.87     156.25

8      在本地企业中得到收入   280.34     257.72     322.94

9  常住人口外出从业得到收入   388.23     940.18    1511.76

10           其他工资性收入   535.60     358.95     291.32

11             家庭经营收入  3480.68    2069.17    2244.54

12               转移性收入   159.99     158.30     239.27

13               财产性收入    34.32      32.57      63.95

   中高收入户 高收入户

7      227.37   741.94

8      299.17  1297.58

9     2484.98  2870.31

10     303.71   475.49

11    2782.37  6479.68

12     344.35   661.23

13     119.43   699.20



Rows:

    name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  

1 |    7 |   38  933   94 | -297 371  58 |  365 562 151 |

2 |    8 |   74  901   67 |  -36  15   2 |  277 887 170 |

3 |    9 |  245  998  370 | -333 769 471 | -181 228 241 |

4 |   10 |   59  932  132 |  389 708 155 | -219 225  85 |

5 |   11 |  509  970  161 |  171 969 259 |    5   1   0 |

6 |   12 |   47  471   25 | -148 425  18 |   49  46   3 |

7 |   13 |   28  966  150 | -276 152  38 |  639 814 349 |


Columns:

        name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr

1 |     项目 |    1   194    41 | -228  20   1 |  679 174  21

2 | 低收入户 |  147  997  424 |  521 989 694 |  -48   8  10

3 | 中低收入 |  116  900   55 |  126 351  32 | -157 549  86

4 | 中等收入 |  144  949   49 | -101 311  25 | -144 638  90

5 | 中高收入 |  196  987  217 | -251 596 214 | -203 391 243

6 | 高收入户 |  395  997  212 |  -69  93  33 |  215 904 549

ca2$rowcoord[,1:2]

         Dim1        Dim2

7  -1.2378302  2.00399839

8  -0.1486482  1.51731875

9  -1.3870116 -0.99292755

10  1.6229157 -1.20238684

11  0.7130413  0.02832196

12 -0.6166549  0.26693306

13 -1.1517607  3.50506193

> ca2$colcoord[,1:2]

                 Dim1       Dim2

项目       -0.9512927  3.7241428

低收入户    2.1712426 -0.2638911

中低收入户  0.5241351 -0.8611135

中等收入户 -0.4197725 -0.7908349

中高收入户 -1.0458977 -1.1145105

高收入户   -0.2880422  1.1794006


简单分析可以得到如下结果:家庭经营收入以及其他工资收入并不能使农民富裕起来。常驻人口外出务工可以增加农民收入,转移性收入对农民增收入有些作用。

                                            



文章转载自R语言数据分析与建模,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论