暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle赛题解析:Home Credit 风控预测

Coggle数据科学 2024-02-07
1538
  • 赛题名称:Home Credit - Credit Risk Model Stability
  • 赛题任务:预测客户是否可能拖欠贷款
  • 赛题类型:数据挖掘
  • 赛题链接👇:

https://www.kaggle.com/competitions/home-credit-credit-risk-model-stability

unsetunset赛题背景unsetunset

1997年成立的Home Credit是一家国际性的消费金融服务提供商,专注于为几乎没有信用记录的人提供负责任的贷款服务。传统的信用评估方法对于那些几乎没有信用记录的人可能不够适用。缺乏信用记录可能意味着年龄较小或更倾向于使用现金支付,这使得他们在传统数据方面缺乏足够的信息。缺乏传统数据的情况下,很可能会导致这些人被拒绝贷款申请。因此,数据科学有望帮助更好地预测借款人的偿还能力,从而使那些最需要贷款支持的人群能够更容易地获得贷款。

现实世界中客户的行为不断变化,因此每个评分卡都必须定期更新,这需要时间。评分卡在未来的稳定性至关重要,因为性能突然下降意味着贷款平均会发放给更差的客户。然而,贷款提供商无法在贷款到期日可观察到之前就发现潜在的问题。鉴于重新开发、验证和实施评分卡所需的时间,稳定性是非常可取的。模型稳定性与性能之间存在一种权衡关系,在部署之前必须达到平衡。

Home Credit通过与Kaggle等合作伙伴的比赛,旨在吸引数据科学家和机器学习专家的参与,以开发更准确、更稳定的评分卡模型,从而提高贷款申请的接受率,并改善那些因缺乏信用记录而被拒绝贷款的人群的生活。

unsetunset赛题任务unsetunset

比赛的任务是预测哪些客户更有可能违约贷款。评估将偏向那些随着时间稳定的解决方案。

参与者的参与可能会为消费金融服务提供商提供一种更可靠、更持久的方式来评估潜在客户的违约风险。

unsetunset评价指标unsetunset

评价指标是基于 Gini 稳定性度量的。对于每个周数(WEEK_NUM),预测结果会计算一个 Gini 分数。

其中,A 表示实际值的累积分布函数,C 表示模型预测值的累积分布函数。

接下来,通过对每周的 Gini 分数进行线性回归拟合,得到一个形如 的线性回归模型。从回归模型中提取出 falling_rate,计算方式为 。这一指标用于惩罚预测能力下降的模型。

最终的评价指标是:

换句话说,评价指标由预测结果的 Gini 均值、falling_rate 的最小值乘以 88.0、以及残差的标准差组成。

unsetunset提交结果unsetunset

对于测试集中的每个案例(case_id),您需要预测目标分数的概率。文件应包含一个标题,并具有以下格式:

case_id,score
57543,0.1
57544,0.9
57545,0.5
etc.

unsetunset赛题数据集unsetunset

这个比赛的数据集包含许多表格,这些表格来自各种数据源,并且在准备数据集时使用了不同级别的数据聚合。以下是数据集中的各个表格:

基础表格(Base tables)

基础表格存储了关于观察结果和case_id
的基本信息。case_id
是每个观察结果的唯一标识,您需要使用它将其他表格与基础表格连接起来。

静态表格(Static tables)

这些表格存储了与特定case_id
直接相关的静态特征。

外部数据源表格(External data source tables)

这些表格来自外部数据源,如信用局和税务登记机构。

深度1表格(Depth 1 tables)

这些表格具有深度为1的特征,每个case_id
都有一个与之关联的历史记录。

深度2表格(Depth 2 tables)

这些表格具有深度为2的特征,每个case_id
都有一个与之关联的历史记录,同时使用了两个索引列。

每个表格都有不同的列,其中一些列具有特殊含义,如case_id
date_decision
WEEK_NUM
MONTH
target
等。除此之外,还有一些原始列用作预测变量,其定义可以在feature_definitions.csv
文件中找到。

这些表格中的数据经过了各种转换,例如转换DPD(逾期天数)、掩码类别、转换金额、转换日期等。转换过程中的各种变换由预测变量名称末尾的大写字母表示。

unsetunset赛题赛程unsetunset

  • 2024年2月5日 - 比赛开始日期。
  • 2024年4月29日 - 参赛截止日期。在此日期之前,您必须接受比赛规则才能参加比赛。
  • 2024年4月29日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2024年5月6日 - 最终提交截止日期。在此日期之前,您必须提交最终的解决方案。
学习大模型、推荐系统、算法竞赛
添加👇微信拉你进群
加入了之前的社群不需要重复添加~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论