标题:Approaching (almost) Any Machine Learning Problem
简介:Kaggle比赛的流程、特征工程和解题注意事项
链接:https://www.youtube.com/watch?v=uWVR_axaVwk
个人简介
Abhishek Thakur是boost.ai公司的Chief Data Scientist,Kaggle最高排名第三名。Abhishek是一个博主,非常热爱分享技术。

分享内容
本次分享非常干货,内容如下:
Types of machine learning problems Evaluation metrics Cross validation Categorical data handling Numeric data handling Text data handling Hyperparameter tuning
问题定义
在完成Kaggle竞赛的过程中,首先需要识别问题类型,这个非常重要。
问题是有监督,还是无监督? 问题是分类任务,还是回归任务? 问题数据什么类型,标签是什么类型?

问题的评价的指标是什么?
构建Pipline
在识别问题类型后,接下来就需要构建完整的Pipline,从赛题数据读取、特征工程到模型训练。


类别数据编码
Convert to numbers : LabelEncoder Convert to one hot: OneHotEncoder Convert to binary: LabelBinarizer Convert to counts Convert to embeddings: tf/keras Creating more categories? Using factorization machines? (libfm/libffm)
数值数据编码
Transformations Binning Interactions

特征筛选
Recursively eliminating the features Based on model Select top N features: SelectKBest Selecting a percentile: SelectPercentile Mutual information based Chi2 based
文本数据处理
Length of question1 Length of question2 Difference in the two lengths Character length of question1 Character length of question2 Number of words in question1 Number of words in question2 Common words in question1 and question2


Fuzzy特征
Uses Levenshtein distance QRatio WRatio Token set ratio Token sort ratio Partial token set ratio Partial token sort ratio
Word2Vec特征

其他文本特征
Language detection Clean up Tokenization Stemming Synonyms & stop words Spell correction Compound splitting Entity recognition
模型调参
Grid search Random search Bayesian optimization Optimize by hand


专访收获
Abhishek的竞赛思路非常干货,对竞赛的细节分享的蛮多。Abhishek分享的原始PPT包含100+页,非常值得收藏和阅读。
更多干货获取
Kaggle竞赛讲义:公众号回复 讲义
获取年度竞赛年鉴:公众号回复 2020
获取推荐系统知识卡片:公众号回复 推荐系统
获取数据科学速查表(传统CTR、深度学习CTR、Graph Embedding、多任务学习):公众号回复 速查表
获取历届腾讯广告算法大赛答辩PPT:公众号回复 腾讯赛
获取KDD Cup历史比赛合集:公众号回复 KDD2020
获取


文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




