一.基本概念和原理
对应分析(Correspondence Analysis)是在因子分析的基础上发展起来的,对应分析是多变量统计分析中有用的分析方法。对应分析把R型和Q型因子统一起来,通过R型因子分析直接得到Q型因子分析的结果,把变量(指标)和样品同时反映到相同的坐标轴(因子轴)的一张图上,用此来说明(指标)与样品之间的关系。
对应分析的方法,在因子分析中可以用较少的公共因子来提取样本数据的绝大部分信息,这样就可以考察较少的因素而获得足够的信息。然而R型因子分析和Q型因子分析,即对变量和样品分别做因子分析,并没有考虑变量和样本之间的联系就损失了一部分信息。此外在实际应用中,样品的数量远大于变量的数量,在进行Q型分析时计算量远大于R型的因子分析。
实际上,Q型因子分析和R型因子分析分别反映了整体的不同侧面,因此它们之间必然有联系。对应分析就是通过巧妙的数学变换,把Q型和R型分析有机的结合起来。具体来说就是通过一个过渡矩阵Z,对数据进行处理,得到的变量乘积矩阵A=ZZ'与样品的乘积B=ZZ'。根据矩阵的代数性质,矩阵A和矩阵B有相同的非零特征根,λ1大于等于λ2...大于等于λp.进一步地,矩阵A的特征根λi,对应的特征向量Ui,则B对应的特征向量ZUi=Vi.这样就方便地从R型因子分析得到Q型因子分析的结果。
设n个样品,每个样品有p个变量
则
x11 x12 ....x1p
x21
x= =(xij)n*p
0
.
xn1 xn2 xnp
对于x元素xij要求都大于0,现在我们既需要对变量求它的主成分,又需要对样品求主成分。用X表示数据阵,它的样品协方差阵为
∑=1/nA,这里的样本离方差为A*=XDpX',Dp=Ip-1/p1p1p'
二.对应分析的计算步骤
1.由数据矩阵X,计算规格化的概率矩阵X=(xij)n*p。
2.计算过渡矩阵Z=(Zij)n*p=(pij-pipj/ √xixj)n=(xij-xi.x.j/x../ √ xi.x.j)n*p
3.进行R型因子分析:计算A=ZZ'的特征根 λ 1,λ2,λm并按照百分比 ∑ λ i/λ∑λ i⩾80%,取前m个特征值根λ 1,λ2,λm并计算相应的单位矩阵u1,u2得到因子的载荷矩阵
4.进行Q型分析;有上述得到的特征根,计算B=ZZ'所对应的单位矩阵Zei=vi,得到因子载荷矩阵。
三.注意事项
1.不能用于相关关系的假设检验。对应分析只能说明两个变量的联系,而不能说明这两个变量存在的关系是否显著。只是用来揭示表示这两个变量内部类别之间的关系。
2.纬度由变量所含的最小类别决定。
由于纬度取舍不同,其所包含的信息量也不同,一般来讲,如果各变量所包含的类别较少,则在两个纬度进行分析损失的信息量少
3.对极端值应该做敏感性研究
4.研究对象需要有可比性
5.变量的类别应该涵盖所有可能出现的情况
6.不同标准化分析的结果不同
7.在解释图形变量类别间的关系时,要注意所选择数据标准化方式,不同的标准化方式会导致类别在图形上的不同分布
四.实际案例
下面以农民收入为例看看对应分析的具体实践
项目 低收入户 中低收入户 中等收入户
1 文盲或半文盲 13.53 3.68 3.51
2 小学程度 69.77 29.14 24.99
3 初中程度 97.69 55.28 56.36
4 高中程度 14.00 9.20 11.05
5 中专程度 3.77 2.33 3.28
6 大专程度 1.24 0.37 0.81
7 在非企业组织中得到收入 52.49 73.87 156.25
8 在本地企业中得到收入 280.34 257.72 322.94
9 常住人口外出从业得到收入 388.23 940.18 1511.76
10 其他工资性收入 535.60 358.95 291.32
11 家庭经营收入 3480.68 2069.17 2244.54
12 转移性收入 159.99 158.30 239.27
13 财产性收入 34.32 32.57 63.95
中高收入户 高收入户
1 3.09 2.24
2 20.96 19.75
3 57.93 49.85
4 12.54 17.50
5 3.74 6.72
6 1.74 3.94
7 227.37 741.94
8 299.17 1297.58
9 2484.98 2870.31
10 303.71 475.49
11 2782.37 6479.68
12 344.35 661.23
13 119.43 699.20
1.首先进行卡方检验,我们要研究的是不同文化程度和总收入来源对于农民纯收入的影响,关心的是哪种文化程度农民能获得高收入,哪种收入来源更能增加农民收入。可以通过λ2统计量来检验它们是否有显著相关关系,但是这种方法只是说明两个变量是否相关以及相关程度如何,而不能说明某行某列有关联。
项目 低收入户 中低收入户 中等收入户 中高收入户
1 文盲或半文盲 13.53 3.68 3.51 3.09
2 小学程度 69.77 29.14 24.99 20.96
3 初中程度 97.69 55.28 56.36 57.93
4 高中程度 14.00 9.20 11.05 12.54
5 中专程度 3.77 2.33 3.28 3.74
6 大专程度 1.24 0.37 0.81 1.74
高收入户
1 2.24
2 19.75
3 49.85
4 17.50
5 6.72
6 3.94
> d10$项目<-as.numeric(d10$项目)
> chisq.test(d10)
Pearson's Chi-squared test
data: d10
X-squared = 128.51, df = 25, p-value = 6.81e-16
ca1$rowcoord[,1:2]
Dim1 Dim2
1 -1.6050337 -2.1952858
2 0.1906802 -1.0827510
3 0.5540340 0.3460844
4 -0.2321004 1.6370739
5 -3.2567823 0.5092324
6 -2.9773750 1.8424798
> ca1$colcoord[,1:2]
Dim1 Dim2
项目 -3.7272132 -0.5976212
低收入户 0.3285295 -1.1795039
中低收入户 0.4824463 -0.1900037
中等收入户 0.3645487 0.3191039
中高收入户 0.2693722 0.8629429
高收入户 -0.2452688 1.6119894

chisq.test(d10.2)
Pearson's Chi-squared test
data: d10.2
X-squared = 3186.7, df = 30, p-value < 2.2e-16
Principal inertias (eigenvalues):
dim value % cum% scree plot
1 0.057507 60.4 60.4 ***************
2 0.033261 35.0 95.4 *********
3 0.003499 3.7 99.1 *
4 0.000766 0.8 99.9
5 0.000123 0.1 100.0
-------- -----
Total: 0.095156 100.0
项目 低收入户 中低收入户 中等收入户
7 在非企业组织中得到收入 52.49 73.87 156.25
8 在本地企业中得到收入 280.34 257.72 322.94
9 常住人口外出从业得到收入 388.23 940.18 1511.76
10 其他工资性收入 535.60 358.95 291.32
11 家庭经营收入 3480.68 2069.17 2244.54
12 转移性收入 159.99 158.30 239.27
13 财产性收入 34.32 32.57 63.95
中高收入户 高收入户
7 227.37 741.94
8 299.17 1297.58
9 2484.98 2870.31
10 303.71 475.49
11 2782.37 6479.68
12 344.35 661.23
13 119.43 699.20
Rows:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | 7 | 38 933 94 | -297 371 58 | 365 562 151 |
2 | 8 | 74 901 67 | -36 15 2 | 277 887 170 |
3 | 9 | 245 998 370 | -333 769 471 | -181 228 241 |
4 | 10 | 59 932 132 | 389 708 155 | -219 225 85 |
5 | 11 | 509 970 161 | 171 969 259 | 5 1 0 |
6 | 12 | 47 471 25 | -148 425 18 | 49 46 3 |
7 | 13 | 28 966 150 | -276 152 38 | 639 814 349 |
Columns:
name mass qlt inr k=1 cor ctr k=2 cor ctr
1 | 项目 | 1 194 41 | -228 20 1 | 679 174 21
2 | 低收入户 | 147 997 424 | 521 989 694 | -48 8 10
3 | 中低收入 | 116 900 55 | 126 351 32 | -157 549 86
4 | 中等收入 | 144 949 49 | -101 311 25 | -144 638 90
5 | 中高收入 | 196 987 217 | -251 596 214 | -203 391 243
6 | 高收入户 | 395 997 212 | -69 93 33 | 215 904 549
ca2$rowcoord[,1:2]
Dim1 Dim2
7 -1.2378302 2.00399839
8 -0.1486482 1.51731875
9 -1.3870116 -0.99292755
10 1.6229157 -1.20238684
11 0.7130413 0.02832196
12 -0.6166549 0.26693306
13 -1.1517607 3.50506193
> ca2$colcoord[,1:2]
Dim1 Dim2
项目 -0.9512927 3.7241428
低收入户 2.1712426 -0.2638911
中低收入户 0.5241351 -0.8611135
中等收入户 -0.4197725 -0.7908349
中高收入户 -1.0458977 -1.1145105
高收入户 -0.2880422 1.1794006

简单分析可以得到如下结果:家庭经营收入以及其他工资收入并不能使农民富裕起来。常驻人口外出务工可以增加农民收入,转移性收入对农民增收入有些作用。




