作者:稀饭
1、调查误差的基本概念
调查误差通常是指通过调查获取的总体的统计指标数值与其真实值之间的差别,该误差反映了样本数据与真实总体数据的接近程度,即调查的准确性。
2、误差的基本分类
(1)系统误差
是由某个或某些确定性的原因或机制引起,通常是持续性错误导致的,误差在大小、符号上表现出某种趋势,或者在观测过程中按一定的规律变化。举例来说,在抽取样本单位时,由于加入了主观意愿从而破坏了随机抽样原则,使样本不足以代表总体从而造成的误差。另外,指标解释不准确导致误解、错误的计算或汇总估算方法、有意识的瞒报虚报等,都会使得数据出现正向偏差或者负向偏差。系统误差是在一定的机制和原因下产生的,只要该机制和原因一直存在,同样的系统误差也一定会出现,其区别只是误差的幅度不同。
(2)随机误差
是由许多暂时未被掌握、一时无法被控制的因素造成的,误差的大小和方向不确定,表现出偶然性,也无法控制。
3、个体的填报误差
样本个体的填报数据与真实值之间也会有误差,称为个体数据误差。个体数据误差的来源是多方面的,就来源的性质划分,可以分为两类:
(1)技术性误差
是指遵照调查问卷指定的方法、技术和规定的计量时出现的误差。例如,调查人员技术水平导致的误差、环境技术条件限制产生的误差、问卷设计带来的误差等。技术性误差在既定的环境技术条件下比较稳定,遵循一定的规律,可以进一步分解为由系统因素引起的技术性偏差和随机因素引起的技术性随机误差两部分。
(2)非技术性误差
该误差是违背调查问卷指定的方法、技术和规定进行计量时出现的误差,它的产生可能是无意识的错误,也可能是有意识的行为。例如,问卷录入时的系统异常、计算问卷数据时的错误计算方法等。非技术性误差既可能是系统误差,也可能是随机误差。
4、分类数据误差
主要是指样本个体具有某种特征却被错误地填报或判定为不具有某种特征,或者是不具有某种特征却被错误认为存在某种特征时带来的误差。
5、调查误差的分解模型
(1)基本表达式(Hansen误差分解模型)
MSE(均方误差) = (样本代表性偏差 + 技术性偏差 + 非技术性偏差)^ 2 + 技术性误差的方差 + 非技术性误差的方差
(2)各项解释
① 样本代表性偏差:随样本量的增加而减小,全量调查时为0。用样本代表总体时,样本的真实平均值与总体的真实平均值不一致时产生的误差;
② 技术性偏差:与样本量无关。因技术性的系统误差导致产生的偏差,主要取决于调查过程中的数据质量管理;
③ 非技术性偏差:与样本量无关。因非技术性的系统误差导致产生的偏差,主要取决于调查过程中的数据质量管理;
④ 技术性误差的方差:是由技术性因素导致产生误差的方差部分,反映了技术性原因导致调查结果的不确定性。当组内相关系数变大时(即技术性因素导致的误差个体之间的内部关联),该误差会显著增加。
⑤ 非技术性误差的方差:是非技术性因素导致产生的误差的方差,反映了非技术性原因使调查结果产生的不确定性。不同个体的非技术性系统误差往往也有一定的相关性。
6、调查误差中的一些经验总结
(1)影响调查质量的误差中,系统误差的危害远高于随机误差;
(2)来源非技术性的误差对统计数据质量的危害不仅比较大,而且难以预计,其中又以系统误差和随机的大误差危害最大;
(3)在数据质量得到很好的控制情况下,技术性误差是最基本、最主要的误差,其中又以系统误差为主;
(4)即便是全量调查,代表性误差也不能忽视,特别是分类错误以及无回答导致的代表性误差。虽然全量调查代表性误差中的抽样误差下降到0,但调查实施过程中的抽样框误差、无回答误差,以及分类标志的填报错误、汇总范围选择错误而引起的代表性误差依然存在;
(5)调查过程中对误差的重点控制是代表性误差、系统误差和随机误差中的大误差。
7、调查误差控制的经验总结
对于调查过程中的误差控制,应当根据各类误差的性质和产生的根源,在各个环节有针对性地采取相应的措施进行预防和有效控制:
(1)在设计阶段应该根据具体情况选择合适的调查方法和统计报表,使计量方法和工具的误差下降到较低的水平,还应该从设计上尽量去减少或避免调查阶段附加的技术性误差以及非技术性误差;
(2)在调查和数据收集阶段,严格按照既定的调查方案和调查问卷实时调查,减少附加的技术性误差和代表性误差,加强对问卷调查的组织和管理,严格控制非技术性误差的产生;
(3)在数据审核汇总和评估阶段,要加强数据的审核与评估,纠正数据错误,减少误差,并根据审核和评估中获得的信息(主要是误差来源的信息),改善调查数据的生产过程,提高调查数据的质量。
广告区↓





