赛题名称:Home Credit - Credit Risk Model Stability 赛题任务:预测客户是否可能拖欠贷款 赛题类型:数据挖掘 赛题链接👇:
https://www.kaggle.com/competitions/home-credit-credit-risk-model-stability
赛题背景
1997年成立的Home Credit是一家国际性的消费金融服务提供商,专注于为几乎没有信用记录的人提供负责任的贷款服务。传统的信用评估方法对于那些几乎没有信用记录的人可能不够适用。缺乏信用记录可能意味着年龄较小或更倾向于使用现金支付,这使得他们在传统数据方面缺乏足够的信息。缺乏传统数据的情况下,很可能会导致这些人被拒绝贷款申请。因此,数据科学有望帮助更好地预测借款人的偿还能力,从而使那些最需要贷款支持的人群能够更容易地获得贷款。
现实世界中客户的行为不断变化,因此每个评分卡都必须定期更新,这需要时间。评分卡在未来的稳定性至关重要,因为性能突然下降意味着贷款平均会发放给更差的客户。然而,贷款提供商无法在贷款到期日可观察到之前就发现潜在的问题。鉴于重新开发、验证和实施评分卡所需的时间,稳定性是非常可取的。模型稳定性与性能之间存在一种权衡关系,在部署之前必须达到平衡。
Home Credit通过与Kaggle等合作伙伴的比赛,旨在吸引数据科学家和机器学习专家的参与,以开发更准确、更稳定的评分卡模型,从而提高贷款申请的接受率,并改善那些因缺乏信用记录而被拒绝贷款的人群的生活。
赛题任务
比赛的任务是预测哪些客户更有可能违约贷款。评估将偏向那些随着时间稳定的解决方案。
参与者的参与可能会为消费金融服务提供商提供一种更可靠、更持久的方式来评估潜在客户的违约风险。
评价指标
评价指标是基于 Gini 稳定性度量的。对于每个周数(WEEK_NUM),预测结果会计算一个 Gini 分数。
其中,A 表示实际值的累积分布函数,C 表示模型预测值的累积分布函数。
接下来,通过对每周的 Gini 分数进行线性回归拟合,得到一个形如 的线性回归模型。从回归模型中提取出 falling_rate,计算方式为 。这一指标用于惩罚预测能力下降的模型。
最终的评价指标是:
换句话说,评价指标由预测结果的 Gini 均值、falling_rate 的最小值乘以 88.0、以及残差的标准差组成。
提交结果
对于测试集中的每个案例(case_id),您需要预测目标分数的概率。文件应包含一个标题,并具有以下格式:
case_id,score
57543,0.1
57544,0.9
57545,0.5
etc.
赛题数据集
这个比赛的数据集包含许多表格,这些表格来自各种数据源,并且在准备数据集时使用了不同级别的数据聚合。以下是数据集中的各个表格:
基础表格(Base tables)
基础表格存储了关于观察结果和case_id
的基本信息。case_id
是每个观察结果的唯一标识,您需要使用它将其他表格与基础表格连接起来。
静态表格(Static tables)
这些表格存储了与特定case_id
直接相关的静态特征。
外部数据源表格(External data source tables)
这些表格来自外部数据源,如信用局和税务登记机构。
深度1表格(Depth 1 tables)
这些表格具有深度为1的特征,每个case_id
都有一个与之关联的历史记录。
深度2表格(Depth 2 tables)
这些表格具有深度为2的特征,每个case_id
都有一个与之关联的历史记录,同时使用了两个索引列。
每个表格都有不同的列,其中一些列具有特殊含义,如case_id
、date_decision
、WEEK_NUM
、MONTH
和target
等。除此之外,还有一些原始列用作预测变量,其定义可以在feature_definitions.csv
文件中找到。
这些表格中的数据经过了各种转换,例如转换DPD(逾期天数)、掩码类别、转换金额、转换日期等。转换过程中的各种变换由预测变量名称末尾的大写字母表示。
赛题赛程
2024年2月5日 - 比赛开始日期。 2024年4月29日 - 参赛截止日期。在此日期之前,您必须接受比赛规则才能参加比赛。 2024年4月29日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。 2024年5月6日 - 最终提交截止日期。在此日期之前,您必须提交最终的解决方案。






