
2560
Journal of Software 软件学报 Vol.29, No.9, September 2018
随着大数据应用的发展,数据规模呈现爆发式增长,数据中心的数据量从 PB(1PB=2
40
B),EB(1EB=2
50
B)级
已经迈入了 ZB(1ZB=2
60
B),YB(1Y B=2
70
B)级.当前的互联网数据,半结构化和非结构化数据已经占数据总量的
85%以上,如文本、网页、图像、基因等,其中,高维性是这些数据的重要特征
[1]
.收集存储仅是大数据应用的第 1
步,如何利用存储的数据描述应用特征,预测未来的发展,为业务决策和科学研究提供有力的支撑,是大数据应
用的出发点和落脚点.降维是高维数据重要的预处理步骤,常用的方法有特征抽取和特征选择.由于特征选择保
留了数据的原始特征,因此具有良好的可解释性,成为主要的数据降维方法
[2,3]
.
特征选择,即从原始特征集合中选择使得评价准则最大化的最小特征子集,通过运用特征选择可以减少原
始数据获取的时间,缩减数据的存储空间,提高分类模型的可解释性,更快地获得分类模型,提高分类性能,并且
有助于对数据和知识进行可视化
[4]
.长期以来,针对特征选择方法的研究主要集中在提高算法的分类性能、减少
时间复杂度等方面.然而在众多实际应用中,如基因筛选、生物识别、癌症检测等,不但要求选择的特征具有良
好的分类性能,也对特征选择的稳定性提出了需求
[5,6]
.在某些领域,特征选择稳定性的重要程度甚至要高于分
类性能
[7]
,但是目前,对特征选择稳定性的研究相对较少
[8−12]
.
特征选择稳定性是指特征选择方法对训练样本的微小扰动具有一定的鲁棒性,一个稳定的特征选择方法
应当在训练样本具有微小扰动的情况下生成相同或相似的特征子集
[13]
.提高特征选择的稳定性可以发现相关
特征,增强领域专家对结果的可信度,进一步降低获取数据的复杂性和时间消耗.近年来,随着高维数据研究领
域的发展,特征选择稳定性逐渐成为特征选择研究领域的热点.在脑科学领域,通过功能性核磁共振成像技术来
测量脑部活动是一种流行的方法,然而由于样本的获取代价高昂,同时对特定的测试状态而言,仅存在较少的脑
部区域被激活使用,导致样本同时具有高维性和稀疏性,若仅采用分类准确性评价特征选择,会造成在未知数据
集上训练模型时产生不稳定的泛化错误,因此,对特征选择稳定性同时进行考虑具有现实的必要性
[14,15]
.随着社
交网络的发展,社交网站每天都会产生大量的数据,如用户状态信息、评论和公告等.这些社交网络数据最重要
的特点是其内容长度较短且特征空间维度较高,导致产生高维稀疏样本.针对此类应用数据的特点,众多研究人
员提出了行之有效的特征选择方法,然而这些方法普遍缺乏对稳定性的考虑.如何确保特征子集具有优异分类
性能的同时具备良好的稳定性,是该领域面临的挑战
[16]
.特征选择稳定性的应用场景还包括癌症基因识别和
DNA 微阵列数据的基因表达等
[17,18]
.
特征选择方法有两种分类方式.
• 按照选择特征时是否具有独立性,特征选择方法可分为单变量法和多变量法:单变量法采用特定的评
价准则独立评估每个特征;多变量法在评估某个特征时同时考虑该特征与其他特征之间的关联关系;
• 按照结果返回类型的不同,可将特征选择方法分为权重法、排序法和子集法这 3 种类型
[13]
:权重法是指
特征选择方法返回的是赋予特征的权重值,排序法返回的是特征的排序列表,子集法返回的是选择的
特征子集.
本文对特征选择稳定性的研究做详细的总结,为从事特征选择稳定性方面的研究人员了解相关领域的进
展提供参考.本文将特征选择稳定性提升方法分为扰动法和特征法两种,分别总结两种方法的研究进展和特点;
阐述演化算法在特征选择稳定性中的应用;归纳特征选择稳定性中的评估,包括特征选择稳定性度量指标、特
征选择算法稳定性以及影响因素评估等;在人工和标准测试集上,对典型的子集法稳定性度量指标的性能做比
较分析,在此基础上,分析 4 种集成单变量与多变量的集成方法在稳定性、分类性能和分类器上的相关性;最后
展望特征选择稳定性未来的研究方向.
1 特征选择稳定性提升方法
本节对特征选择稳定性提升方法做详细的归纳,总结方法的特点和适用范围,并介绍演化算法在特征选择
稳定性方面的应用.
为了提高特征选择方法的稳定性,近年来出现了众多有效的方法和研究成果,按照特征选择稳定性提升技
术是否与特征本身相关,将其分为扰动法和特征法:扰动法包括数据扰动法、函数扰动法和混合法,特征法包括
评论