Kaggle GM CPMP：GPU不仅用于炼丹

464

个人介绍

Jean-Francois Puget （Kaggle ID CPMP）很早就获得了PhD学位，并在Constraint Programming 和 Math Programming领域发表了70多篇学术论文。

近年来Puget开始在Kaggle上时间机器学习，并参加了多场比赛。Puget是competition and discussion grandmaster, Kaggle排名最高前10。Puget现在NVIDIA工作。

https://www.kaggle.com/cpmpml

Puget首先列举了现有比较成熟的数据科学框架，这些框架都与CPU联系紧密。此时CPU的计算能力限制了这些操作。

然后Puget介绍了GPU的性能，多核计算，通讯带宽上限高。之后Puget介绍了RAPIDS
，一个可以使用GPU完成数据读取、模型训练与验证的工具。

在RAPIDS
中主要的是两个库：

需注意的是RAPIDS
现在只支持GPU，且暂时需要用conda或docker安装，不支持pip。

在TReNDS Neuroimaging比赛中，cuML
与sklearn的速度对比：

sklean
的svm，运行时间1个小时 https://www.kaggle.com/cpmpml/scikit-learn-svm-on-trends-neuroimaging
cuML
的svm，运行时间1分钟 https://www.kaggle.com/cpmpml/rapids-svm-on-trends-neuroimaging

cuML
的语法和APIsklean
非常相似，所以用起来没有难度。

Puget首先介绍了Target Encoding原理和平滑操作，并讲解了具体的代码。

在参加RecSys 2020比赛中，cuDF
和原生pandas
进行target encoding的速度对比：

同时cuML
也将Target Encoding进行了封装，可以直接调用函数完成计算。

https://docs.rapids.ai/api/cuml/stable/api.html#cuml.preprocessing.TargetEncoder

现在XGBoost也支持GPU，可以通过GPU完成速度加速，加速比10倍以上。

Puget在讲解完案例后，还进行了一些问答答疑。问题主要是cuDF
与cuML
相关。在听完完整的专访后，我的感受有以下几点：

cuDF
与cuML
确实是能够利用GPU加速数据分析和模型训练，但现在安装比较费劲，但Kaggle环境以及支持这些。
cuML
现在支持的机器学习方法比较少，如果有遇到支持的函数，可以考虑使用cuML
。
如果想尝试新事物，还是推荐学习的。https://github.com/rapidsai/cudf https://github.com/rapidsai/cuml

学习交流群已成立

学习竞赛，竞赛组队

添加👇微信拉你进群

加入了之前的社群不需要重复添加~

文章转载自Coggle数据科学，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。