作者 | gongyouliu
编辑 | gongyouliu
我们在上一章中讲到了特征构建。通过特征构建可以从已知的数据样本中获得对问题进行建模的数学化的对象(即向量)。针对具体的业务问题,我们可以采用不同的模型来(近似)描述现实世界,不同的模型对数据的要求是不一样的,当尝试或者选定了合适的模型时,我们就需要从已有的特征中选择合适的特征来训练模型(有时特征不够,还要进行构建新特征或者特征处理、增强等操作),那么这些特征中哪些是适合用于构建模型的呢?这就是本章要讲解的特征选择问题。
简化模型,节省存储和计算开销,让模型更易于理解和使用; 减少特征数量、降维,改善通用性、降低过拟合的风险。
6.1 基于统计量的特征选择方法
6.1.1 选择方差大的特征
6.1.2 皮尔逊相关系数
6.1.3 覆盖率
6.1.4 假设检验
6.1.5 互信息
6.1.6 二分类模型的特征选择方法
6.1.6.1 特征是离散特征
6.1.6.2 特征是连续特征
6.2 基于模型的特征选择方法
6.2.1 基于模型参数
6.2.2 子集选择
6.3 基于业务的特征选择方法
总结

文章转载自数据与智能,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




