暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

Kaggle知识点:比赛类型介绍

Coggle数据科学 2022-02-16
1392

在Kaggle平台上,经常有好多个比赛可供选择。如下图所示,为正在进行比赛的截图。那么对于入门同学(从没参加过一次Kaggle比赛)如何选择一场适合的比赛呢?


本文将对Kaggle平台上的比赛按照类型进行划分,并对每种类型的比赛进行介绍。总有一个比赛适合你,文末还给出了快速上手Kaggle比赛的指南。


比赛类型


在Kaggle平台上比赛按照维度划分为:


按照比赛的形式:比赛可以划分为Getting Started、PlayGround、Research和Featured四类。其中Getting Started是难度最低的比赛,非常适合入门学习,比如TItanic和House Prices。



PlayGround类型的比赛难度稍微高一点,但难度也不会太高,适合针对特定问题进行深度学习。比如Dogs vs. Cats就是典型的图像分类的学习赛。


Research比赛是学术类型的比赛,Featured是商业公司的比赛。这两类比赛在赛题背景和难度上都更难,适合深入学习。需要注意的是,在Kaggle中只有Research和Featured类型的比赛会累计积分和奖牌。


按照比赛阶段:比赛可以划分为One-Stage、Two-Stage和Kernel赛,或者分为非Kernel赛和Kernle赛。非Kernel赛通过选手提交预测结果文件进行打分,Kernel赛需要选手通过Notebook进行预测打分。

需要注意的是,Kernel赛的Notebook提交是有运行时间和联网要求限制的。所以Kernel赛的复杂度会更高一些。在选择一个赛题时,可以根据自身的基础来选择,也可以根据赛题的要求进行选择。


比赛页面


在Kaggle平台上,举办方将每一个比赛都划分为如下的页面。在Notebooks页面中会有参赛选手公开的Notebook,也可以自己新建一个运行。


学习路线


对于入门学习Kaggle的同学来说,在选择好一场比赛之后,如何开始学习呢?这个要跟自身的知识背景出发。

如果你对赛题数据/任务比较熟悉,那么直接可以下载数据集开始建模;反之可以查看赛题的Notebook页面和Discussion页面找到其他选手分享的资源。

然后就可以按照如下流程开始:理解赛题内容、赛题数据、特种工程、构建模型和模型集成,不断迭代提高模型精度。

以Kaggle上的Real or Not? NLP with Disaster Tweets为例,这个比赛是一个对推特上推文进行分类的比赛,具体来说是NLP领域中的文本分类比赛。如果你对文本分类有一点了解,那么就可以直接上手做了。

按照文本分类的思路,可以按照如下思路迭代模型:

好的,本文就到这里。希望大家能找到适合自己的比赛,并参与其中学有所成。端午安康~

Datawhale竞赛群已成立

可扫码加入Datawhale竞赛学习社群

如果加入了之前的社群请不需要重复添加!

▲长按加群


若进群失败,可加负责人微信后,再回复关键词 - 竞赛 即可进群。


文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论