暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据模型上线后的工作:模型稳定性监控

448


作者:稀饭


本文1800字,数理内容较少,泛读需6分钟,精读需11分钟



1、数据建模的最终目的


将模型应用到生产环境以辅助工作人员更好地开展决策。模型监控是整个模型上线之后要注意的一个最终环节,也是业务生产的开始。


2、模型上线后需要进行稳定性监控的原因


在建模环节,模型调优是根据准备好的数据对模型进行效果评估。模型训练和调优完成后,在训练集和测试集以及跨时间验证集上(主要针对具有时间属性的一些建模问题)已经得到了比较好的预测结果,但是模型在真实生产环境中的预测值的有效性和鲁棒性均未进行分析,因此观察其在真实环境中的表现(稳定性)就十分重要。


3、模型在真实环境中预测结果不稳定或发生偏差的常见原因


1业务角度


本质是客群(样本)发生变化,从而导致关键特征发生变化。出现这种问题,其一可能是因为建模过程中需要花费一定的时间,待模型完成到再上线,客群可能发生了变化,引起预测结果分布发生变化;其二可能是因为模型上线一段时间后,随着业务的开展,客群开始向某些人群迁移,因此造成预测结果的波动,甚至不准确的现象(例如最初建模的客群是大学生,半年后客群中职场人的比例开始逐渐增高)


2模型角度


主要是关键特征的取值发生了变化。模型特征的分布迁移会产生新的特性,而这些特性在建模环节准备的样本中难以覆盖到这些规则和知识,从而对于新的情形,原有模型的预测准确性会大打折扣。


4、监控的主要思路


监控模型的关键是监控模型是否稳定。例如,当线上的预测指标和建模期间的预测指标分布差异较大时,有理由认为,线上的预测和建模期间的预测已经出现了偏差。监控主要分两类:

1样本外测试。一般用于模型建立时,查看训练集和测试集上面模型得分的分布差异,以此来查看当前模型是否稳定,例如观察过拟合现象。这个过程主要用于测试环境;

2跨时间测试:看建模样本时间外的模型得分是否和建模时有差异。例如建模样本是在某年的3月至8月,8月底上线模型,那么9月的模型的得分和建模时的得分分布可形成一组对照,也可以在模型运行一段时间之后,观察模型的预测结果分布和某个时间节点的预测结果的分布是否一致,例如计算环比稳定性指数等。这个过程主要用于生产环境。


5、监控模型稳定性的两个常用指标:PSICSI


1PSI


是群体稳定性指数,一般指模型预测结果(预测概率)的稳定性指数,用来刻画模型效果是否稳健,其计算公式为:



其中,k表示样本的切分个数,i = 1, 2,3 ……, kacutal表示基于真实分布在某个区间的数据个数,expect表示预期分布下在某个区间的数据个数。二者之差乘以二者比值的对数,得到该区间上的指数,最后把所有区间上的指数相加得到PSI的值。PSI的值越接近0,说明模型的稳定性越好。


PSI的优点是可以看到每个得分段上取值占比的情况,哪个区间的占比变化较大一目了然,从而可以结合业务含义,对其得分进行追踪解释。PSI的缺点是并不能解释引起变化的内在原因。


2CSI


即特征稳定性指数,用来刻画特征的变化趋势和波动情况。模型监控一般可以从模型得分入手,查看模型的预测效果的变化。若模型得分分布发生迁移,则可以追溯原因,基于CSI指数查看是哪些特征引起了得分的主要变化。


CSI的计算原理和PSI一样,都是衡量分布的差异,只是CSI衡量的是特征分布。模型中使用的特征一般是连续型特征或离散型特征,对于离散型特征,可以计算每个取值的占比;对于连续型特征,则需要将其切割为若干个区间,计算每个区间的取值占比。CSI如果出现显著变化说明模型发生了较大的波动和迁移。


6、其他模型监控角度


1覆盖率对比


通过对比模型训练时,各个特征的覆盖率和线上真实覆盖率的差异。当二者产生较大差异时,可能会出现模型预测的迁移,特别是该特征的重要性较高时,更可能引起模型最终预测的不稳定性。


2特征分析对比


基于特征的均值、众数、分位数(上下四分位数)等统计特征也能在一定程度上反映。


7、模型稳定性监控异常的处理对策


如果模型在监控稳定性时判断为产生迁移,则需要从模型的适用范围考虑,看哪些群体发生了特征迁移,如果剔除掉这部分群体,模型的偏移可以得到缓解,则需要前置一些初筛规则。如果模型处于一个管道的后半部分,则需要检查模型前面的关键特征,通过这种细分总结的方式去逐渐找到解决问题的办法。此外,如果模型已经发生了很严重的偏移,则可以根据业务知识考虑用一个保守的策略来保证业务的继续运转,并可能需要重启模型训练。




广告区↓


互联网数据分析岗位求职备战




文章转载自稀饭居然不在家,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论