特征选择稳定性研究综述-刘艺 , 曹建军 , 刁兴春 , 周星.pdf

上善若水

541

21页

0次

2022-05-19

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2018,29(9):2559−2579 [doi: 10.13328/j.cnki.jos.005394] http://www.jos.org.cn

特征选择稳定性研究综述

∗

刘

艺

曹建军

刁兴春

周

星

(解放军理工大学指挥信息系统学院,江苏南京 210007)

(国防科技大学第 63 研究所,江苏南京 210007)

通讯作者: 曹建军, E-mail: jianjuncao@yeah.net

摘要: 随着大数据的发展和机器学习的广泛应用,各行业的数据量呈现大规模的增长,高维性是这些数据的重

要特点,采用特征选择对高维数据进行降维是一种预处理方法.特征选择稳定性是其中重要的研究内容,它是指特征

选择方法对训练样本的微小扰动具有一定鲁棒性.提高特征选择稳定性有助于发现相关特征,增强特征可信度,进一

步降低开销.在回顾现有特征选择稳定性提升方法的基础上对其进行分类,分析比较各类方法的特点和适用范围,总

结特征选择稳定性中的相关评估工作,并通过实验剖析其中稳定性度量指标的性能,进而对比 4 种集成方法的效用.

最后讨论当前工作的局限性,指出未来的研究方向.

关键词: 高维数据;特征选择;稳定性;稳定性指标;集成选择;演化算法

中图法分类号: TP391

中文引用格式: 刘艺,曹建军,刁兴春,周星.特征选择稳定性研究综述.软件学报,2018,2 9(9):2559−2579. http://www.jos.org.cn/

1000- 9825/5394.htm

英文引用格式: Liu Y, Cao JJ, Diao XC, Zhou X. Survey on stability of feature selection. Ruan Jian Xue Bao/Journal of Software,

2018,29(9):2559−2579 (in Chinese). http://www.jos.org.cn/1000 -9825/5394.htm

Survey on Stability of Feature Selection

LIU Yi

, CAO Jian-Jun

, DIAO Xing-Chun

, ZHOU Xing

(College of Command Information Systems, PLA Universit y of Science and Technology, Nanji ng 210007, China)

(The 63rd Institute, National Univ ersity of Defense Technology, Nanjing 210007, Chin a)

Abstra ct : With the development of big data and the wide application of machine learning, data from all walks of life is growing

massively. High dimensionality is one of its most important characteristics, and applying feat ure selection to reduce dimensions is one of

the preprocessing methods of high dimensional data. Stability of featur e selection is an important r esearch direction, and it stands for the

robustness of results with respect to small changes in the dataset composition. Improving the stability of feature selection can help to

identify relevant features, in crease experts’ confidence to the r esults, and further redu ce the complexity and costs of getting original dat a.

This paper reviews current methods for improving the stability, and presents a classification of those methods with analysis and

comparison on the characteristics and range of application of each category. Then it summarizes the evaluations of stability of feature

selection, and analyzes the performance of stability measurement and validates the effectiveness of four ensemble approaches through

experiments. Finally, it discusses the localization of current works and a p erspective of the futu re work in this res earch ar ea.

Key words: high dimensional data; feature selection; stability; stability measures; ensemble selection; evolutionary algorithms

∗ 基金项目: 国家自然科学基金(61371196); 中国博士后科学基金(201003797)

Foundation it em: National Natural Science Foundation of Chin a (61371196); China Postdoctoral Science Foundation Funded Project

(201003797)

本文由演化学习专题特约编辑俞扬副教授、钱超副研究员推荐.

收稿时间:

2017-04-24; 修改时间: 2017-07-10; 采用时间: 2017-09-26; jos 在线出版时间: 2017-11-13

CNKI 网络优先出版: 2017-11-13 14 :13:20, http: //kns.cnki.net/kcms/d etail/11.2560.TP.20171113.1413.001.html

2560

Journal of Software 软件学报 Vol.29, No.9, September 2018

随着大数据应用的发展,数据规模呈现爆发式增长,数据中心的数据量从 PB(1PB=2

B),EB(1EB=2

B)级

已经迈入了 ZB(1ZB=2

B),YB(1Y B=2

B)级.当前的互联网数据,半结构化和非结构化数据已经占数据总量的

85%以上,如文本、网页、图像、基因等,其中,高维性是这些数据的重要特征

[1]

.收集存储仅是大数据应用的第 1

步,如何利用存储的数据描述应用特征,预测未来的发展,为业务决策和科学研究提供有力的支撑,是大数据应

用的出发点和落脚点.降维是高维数据重要的预处理步骤,常用的方法有特征抽取和特征选择.由于特征选择保

留了数据的原始特征,因此具有良好的可解释性,成为主要的数据降维方法

[2,3]

特征选择,即从原始特征集合中选择使得评价准则最大化的最小特征子集,通过运用特征选择可以减少原

始数据获取的时间,缩减数据的存储空间,提高分类模型的可解释性,更快地获得分类模型,提高分类性能,并且

有助于对数据和知识进行可视化

[4]

.长期以来,针对特征选择方法的研究主要集中在提高算法的分类性能、减少

时间复杂度等方面.然而在众多实际应用中,如基因筛选、生物识别、癌症检测等,不但要求选择的特征具有良

好的分类性能,也对特征选择的稳定性提出了需求

[5,6]

.在某些领域,特征选择稳定性的重要程度甚至要高于分

类性能

[7]

,但是目前,对特征选择稳定性的研究相对较少

[8−12]

特征选择稳定性是指特征选择方法对训练样本的微小扰动具有一定的鲁棒性,一个稳定的特征选择方法

应当在训练样本具有微小扰动的情况下生成相同或相似的特征子集

[13]

.提高特征选择的稳定性可以发现相关

特征,增强领域专家对结果的可信度,进一步降低获取数据的复杂性和时间消耗.近年来,随着高维数据研究领

域的发展,特征选择稳定性逐渐成为特征选择研究领域的热点.在脑科学领域,通过功能性核磁共振成像技术来

测量脑部活动是一种流行的方法,然而由于样本的获取代价高昂,同时对特定的测试状态而言,仅存在较少的脑

部区域被激活使用,导致样本同时具有高维性和稀疏性,若仅采用分类准确性评价特征选择,会造成在未知数据

集上训练模型时产生不稳定的泛化错误,因此,对特征选择稳定性同时进行考虑具有现实的必要性

[14,15]

.随着社

交网络的发展,社交网站每天都会产生大量的数据,如用户状态信息、评论和公告等.这些社交网络数据最重要

的特点是其内容长度较短且特征空间维度较高,导致产生高维稀疏样本.针对此类应用数据的特点,众多研究人

员提出了行之有效的特征选择方法,然而这些方法普遍缺乏对稳定性的考虑.如何确保特征子集具有优异分类

性能的同时具备良好的稳定性,是该领域面临的挑战

[16]

.特征选择稳定性的应用场景还包括癌症基因识别和

DNA 微阵列数据的基因表达等

[17,18]

特征选择方法有两种分类方式.

• 按照选择特征时是否具有独立性,特征选择方法可分为单变量法和多变量法:单变量法采用特定的评

价准则独立评估每个特征;多变量法在评估某个特征时同时考虑该特征与其他特征之间的关联关系;

• 按照结果返回类型的不同,可将特征选择方法分为权重法、排序法和子集法这 3 种类型

[13]

:权重法是指

特征选择方法返回的是赋予特征的权重值,排序法返回的是特征的排序列表,子集法返回的是选择的

特征子集.

本文对特征选择稳定性的研究做详细的总结,为从事特征选择稳定性方面的研究人员了解相关领域的进

展提供参考.本文将特征选择稳定性提升方法分为扰动法和特征法两种,分别总结两种方法的研究进展和特点;

阐述演化算法在特征选择稳定性中的应用;归纳特征选择稳定性中的评估,包括特征选择稳定性度量指标、特

征选择算法稳定性以及影响因素评估等;在人工和标准测试集上,对典型的子集法稳定性度量指标的性能做比

较分析,在此基础上,分析 4 种集成单变量与多变量的集成方法在稳定性、分类性能和分类器上的相关性;最后

展望特征选择稳定性未来的研究方向.

1 特征选择稳定性提升方法

本节对特征选择稳定性提升方法做详细的归纳,总结方法的特点和适用范围,并介绍演化算法在特征选择

稳定性方面的应用.

为了提高特征选择方法的稳定性,近年来出现了众多有效的方法和研究成果,按照特征选择稳定性提升技

术是否与特征本身相关,将其分为扰动法和特征法:扰动法包括数据扰动法、函数扰动法和混合法,特征法包括

of 21

免费下载

软件学报计算机技术

关注