暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle GM Kazuki:表格赛关键技术

Coggle数据科学 2022-02-16
851
  • 标题:Essential techniques for tabular competition | Kazuki Onodera

  • 简介:在类型的数据中有哪些核心的关键点呢,本文将从数据分析和规律发现的角度进行介绍。

  • 链接:https://www.youtube.com/watch?v=nbcDy1wFWlg

个人介绍

Kazuki Onodera来自日本,毕业于神奈川大学,现在在NVIDIA工作,职位是Senior Deep Learning Data Scientist。

Kazuki擅长结构化比赛,已经累计获得7枚金牌,Kaggle最高排名15名。

专访内容

数据统计

Kazuki首先介绍对结构化数据的统计操作,非常建议对数据集的取值空间进行统计。

这里的统计结果可以得到热门的列的取值,以及列的取值空间情况。需注意这个和pandas的describe函数不同。

数据分析

对于字段可以分析特征与标签的分布关系,这样就可以很直观的找到数据中哪些字段与标签强关系。

这里可以借助密度分布度或者柱状图来进行展示,与标签的关系非常明显。

id特征挖掘

在表格数据中样本按照id
进行标识,是比赛数据和逻辑的主键。

  • Home Credit
    比赛中,SK_ID_CURR
    是贷款记录的记录。
  • Instacart Market Basket
    比赛中,order_id
    是订单的记录。

通过对id
的分组统计,我们可以找到样本分布的规律,并找到样本与标签的关系。

id重复用户

通过id
进行分析可以挖掘出特征,还可以挖掘出重复的样本。在Home Credit
比赛中,通过分析不同字段的取值可以发现有相同的用户对应不同的SK_ID_CURR
贷款记录。

查找方法可以直接通过查找记录的重复值,或者通过排序找到重读的样本。

什么是优秀表格赛?

最后Kazuki分享了对优秀表格赛的定义:

  • 比赛应该没有leak的出现!
  • 比赛排名shake最好不要出现。
  • 比赛任务要足够有趣且有难度。

专访收获

Kazuki的思路非常清晰,对比赛任务和流程把控的比较好。想做好比赛,还是要根据id
深入挖掘特征。

更多干货获取

  1. Kaggle竞赛讲义:公众号回复讲义
    获取
  2. 年度竞赛年鉴:公众号回复2020
    获取
  3. 推荐系统知识卡片:公众号回复推荐系统
    获取
  4. 数据科学速查表(传统CTR、深度学习CTR、Graph Embedding、多任务学习):公众号回复速查表
    获取
  5. 历届腾讯广告算法大赛答辩PPT:公众号回复腾讯赛
    获取
  6. KDD Cup历史比赛合集:公众号回复KDD2020
    获取

学习交流群已成立
学习推荐系统,算法竞赛,组队参赛
添加👇微信拉你进群
加入了之前的社群不需要重复添加~



文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论