暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle GM Abhishek:竞赛你也可以!

Coggle数据科学 2022-02-16
1122
  • 标题:Approaching (almost) Any Machine Learning Problem

  • 简介:Kaggle比赛的流程、特征工程和解题注意事项

  • 链接:https://www.youtube.com/watch?v=uWVR_axaVwk

个人简介

Abhishek Thakur是boost.ai公司的Chief Data Scientist,Kaggle最高排名第三名。Abhishek是一个博主,非常热爱分享技术。

分享内容

本次分享非常干货,内容如下:

  • Types of machine learning problems
  • Evaluation metrics
  • Cross validation
  • Categorical data handling
  • Numeric data handling
  • Text data handling
  • Hyperparameter tuning

问题定义

在完成Kaggle竞赛的过程中,首先需要识别问题类型,这个非常重要。

  • 问题是有监督,还是无监督?
  • 问题是分类任务,还是回归任务?
  • 问题数据什么类型,标签是什么类型?

  • 问题的评价的指标是什么?

构建Pipline

在识别问题类型后,接下来就需要构建完整的Pipline,从赛题数据读取、特征工程到模型训练。

类别数据编码

  • Convert to numbers : LabelEncoder
  • Convert to one hot: OneHotEncoder
  • Convert to binary: LabelBinarizer
  • Convert to counts
  • Convert to embeddings: tf/keras
  • Creating more categories?
  • Using factorization machines? (libfm/libffm)

数值数据编码

  • Transformations
  • Binning
  • Interactions

特征筛选

  • Recursively eliminating the features
  • Based on model
  • Select top N features: SelectKBest
  • Selecting a percentile: SelectPercentile
  • Mutual information based
  • Chi2 based

文本数据处理

  • Length of question1
  • Length of question2
  • Difference in the two lengths
  • Character length of question1
  • Character length of question2
  • Number of words in question1
  • Number of words in question2
  • Common words in question1 and question2

Fuzzy特征

  • Uses Levenshtein distance
  • QRatio
  • WRatio
  • Token set ratio
  • Token sort ratio
  • Partial token set ratio
  • Partial token sort ratio

Word2Vec特征

其他文本特征

  1. Language detection
  2. Clean up
  3. Tokenization
  4. Stemming
  5. Synonyms & stop words
  6. Spell correction
  7. Compound splitting
  8. Entity recognition

模型调参

  • Grid search
  • Random search
  • Bayesian optimization
  • Optimize by hand

专访收获

Abhishek的竞赛思路非常干货,对竞赛的细节分享的蛮多。Abhishek分享的原始PPT包含100+页,非常值得收藏和阅读。

更多干货获取

  1. Kaggle竞赛讲义:公众号回复讲义
    获取
  2. 年度竞赛年鉴:公众号回复2020
    获取
  3. 推荐系统知识卡片:公众号回复推荐系统
    获取
  4. 数据科学速查表(传统CTR、深度学习CTR、Graph Embedding、多任务学习):公众号回复速查表
    获取
  5. 历届腾讯广告算法大赛答辩PPT:公众号回复腾讯赛
    获取
  6. KDD Cup历史比赛合集:公众号回复KDD2020
    获取

学习交流群已成立
学习推荐系统,算法竞赛,组队参赛
添加👇微信拉你进群
加入了之前的社群不需要重复添加~


文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论