
集团 CEO 和 CIO 一直在规划引入 AI 技术进一步提升企业管理自动化到智能化,并且计划首先开展一个试点项目,通过机器学习发现和预防其骨干员工流失的可能性。但目前市场上的人工智能和机器学习技术纷繁复杂,特别是如今没有百万年薪根本请不来能够真正掌控和落地机器学习技术的数据科学专家。与企业长期合作的 C咨询公司建议集团尝试具备 AutoML 能力的 Oracle 数据科学云平台来快速达成企业的一系列目标。
根据 Gartner 研究调查,随着 AI 的快速普及,企业纷纷意识到其收益不仅来自大型的 AI解决方案,还将会从数百个中小型方案部署中获益。随着 AI 技术在企业生产环境应用的需求加速,AI 技术人才的匮乏是企业转型中面临的最大挑战。
随着 AI 在整个企业中的重要性不断提高,对熟练人才和工具的需求也随之增加。即将到来的是 AI 全民化浪潮--构建AI解决方案的能力将从高度专业的数据科学家转移到所有领域人员,这将是企业在数字化转型过程中必不可少的技能。
Gartner 在 “AI全民化”技术趋势专项报告中特别强调 AutoML 在 “AI全民化” 中承担的关键角色。以 AutoML 技术为核心的 “AI全民化” 可降低机器学习门槛、提升效率,从而解决 AI 发展中专业人员不足导致的无法正常开展机器学习项目及应用的问题,加快AI在企业端的规模化应用进程。
在降低门槛方面,AutoML 将企业构建 AI 方案的能力从数据科学家向业务人员转移,越来越多的非 AI 技术人员,可以通过云部署或本地部署的 AI 平台掌握创建 AI 解决方案的能力;在提升效率方面,AutoML 能够使数据科学家专注于利用人工智能探索更多的业务应用场景案例。
在具体实现上,传统机器学习的应用需要大量的人工干预,这些人工干预表现在:特征提取、算法选择、参数调节等机器学习的各个方面。AutoML 试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习和处理,使得机器学习模型几乎无需人工干预即可被应用部署。
当前AutoML的主要问题主要由三部分构成:特征工程、算法选择、超参数选择:

我们在 Oracle 数据科学云平台中可以看到人员流失预测案例,使用 Oracle 数据科学加速器 ADS SDK 中内置的 AutoML 引擎,可以快速准确的搭建人员流失机器学习模型。具体实例平台入口大家可以参考之前的 Oracle云技术公众号文章《2月2日APAC数据科学研讨会》中的实验环境搭建部分:https://mp.weixin.qq.com/s/HjlkY_erC5ROQPgM_QXD6A。
在本案例中,用户使用员工流失数据集和拥有众多开发人员的 Python 语言,从探索性数据分析开始了解人员状况数据,然后使用 AutoML 功能对模型进行训练。该模型将用于进一步的预测和评估,以确定它对新数据的预测能力。然后我们将使用机器学习可解释功能(MLX)来理解人员流失模型的业务含义。所有这些都将使用Oracle的数据科学加速器(ADS)SDK来完成。
本文将着重为大家讲解Oracle AutoML相关步骤,其他通用流程不做过多描述。
步骤1:数据集加载及可视化探索
首先我们使用ADS数据管理功能引入员工流失数据集:
ds = DatasetFactory.open(<attrition_data_path>,
target="Attrition").set_positive_class('Yes')
数据可视化是现代数据科学实践中数据探索和数据分析的重要组成部分。ADS提供了一个智能的可视化工具,可以自动检测数据列的类型,并提供可视化数据的最佳方法。接下来,我们可以使用show_in_notebook(),target. show_in_notebook(),type_of_target()等功能对目标数据进行可视化和探索,发现数据集中共1470个样本,33个有效特征,目标字段Attrition分布如下图:

由此可知我们将搭建一个分类目标非均衡的二分类模型。
步骤2:自动化数据处理和转换
ADS内置了用于数据集的自动转换工具。我们可以使用suggest_recommendations()和auto_transform()进行自动化特征处理,包括剔除常量及序号特征,填充缺失值和处理不平衡数据等功能。同时使用train_test_split()功能将数据集分为训练集train和测试集test。
步骤3:自动化机器学习建模
Oracle ADS AutoML的目标是使用户的机器学习流程自动化,并使其尽可能无缝衔接。下面我们只需使用2行Python代码,即可实现包含算法选择、特征选择、超参数选择的AutoML全自动化建模流程:
automl = AutoML(train, provider=OracleAutoMLProvider())
model, baseline = automl.train(time_budget=160)
如上代码所示,如果用户没有指定算法,ADS会从10大类算法中自动优化选择,有一定经验的用户还可以指定相关的训练目标和算法选择范围等,如:
model, baseline = automl.train(model_list=[
'LogisticRegression',
'LGBMClassifier',
'XGBClassifier',
'RandomForestClassifier'], min_features=['OverTime', 'JobLevel'], score_metric = "roc_auc", time_budget=160)




步骤4:自动化模型评估
随着越来越多的模型可供现代数据科学家使用,与选择模型有关的问题也以类似的方式增长。ADS提供图表和图形化的模型评估结果:


步骤5:自动化模型解释
机器学习已经变得无处不在,但是,随着问题的规模和复杂性不断增加,应用于这些问题的机器学习算法的复杂性也随之增加。ADS模块提供了图形化模型自动解释能力,展示模型发现的影响员工流失的重要因素:

我们发现,为了提高产能满足市场需求,员工的过度加班是引起人员流失的首要因素。看来,提升生产线的自动化和智能化、精准扩充人力资源、提升管理效率、降低人员负荷等措施需要A集团管理层尽快提上议程。
以上,我们简单介绍了使用OCI数据科学平台ADS AutoML实现员工流失预测自动化机器学习的过程。实际上,在Oracle提供的一揽子机器学习平台上,包括基于Oracle数据库的机器学习-OML for Python、OML for SQL、Oracle数据挖掘等平台,都具备不同程度的自动数据准备,自动特征选择、自动化建模、自动模型评估解释等功能。未来Oracle还将推出零代码图形化全流程可一键部署模型的增强版AutoML自动化机器学习平台。
利用Oracle AutoML平台,客户可以根据自身需要以全自动、半自动、全手动的方式实现机器学习建模和预测,满足从非数据科学专业人员到数据科学资深专家等不同角色用户的需求,最终达成用户的业务目标,实现AI的业务价值。
如果您希望进一步了解Oracle数据科学云平台及AutoML功能,请参考以下文档:
Oracle OCI数据科学平台技术文档:
Oracle数据科学加速器ADS SDK技术文档:
扫描下方QR Code
即刻预约
甲骨文业务数据平台演示






