暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Coggle专访LTZ:我的竞赛上岸经历

Coggle数据科学 2023-12-08
226

问题1:个人简介

给大家介绍下自己吧,个人信息、个人社交(github、知乎、csdn)地址、个人经历、竞赛经历

大家好,我是LTZ,男,20届硕士毕业。现在北京某网络安全厂商,做安全风控相关工作。有很多小伙伴对网络安全的了解可能是入侵各种系统的黑客或者电视剧《亲爱的,热爱的》里主攻攻防比赛的韩商言。其实我平日的工作大多发现各种日志异常和潜在风险,以及和需求方扯皮。

当我收到Coggle数据科学
的采访邀请时,我比较惊讶,因为我没有太多的优秀履历,我就作为千千万万的萌新小白来分享自己的经验吧!

我最早接触算法比赛是在前年的京东电商比赛,推荐系统,靠着baseline和线性回归模型进了Top50的复赛,今年比较好的成绩就是AIWIN的第七名了,这是我第一次入围Top10,也为我之后参加的比赛提供了信心。

问题2:学习过程

知识点的学习过程、对什么方便比较熟悉?

我觉得提高比赛成绩的一个方法,就是复盘。每次参加比赛,不论是否进入复赛,成绩如何。

如果认真去参加了,就需要在每次比赛后进行一次复盘,吸收各位大佬的各种经验,各种奇思妙想,各种感悟,以及代码的写法作为自己的宝贵经验,这样下次参加类似的比赛时,可以举一反三,取得更好的成绩。站在巨人的肩膀(抱着大佬的大腿)走的更远。

问题3:竞赛经历

参加过什么竞赛,有什么收获,或者难忘的经历?

在AIWIN比赛的复赛阶段,是需要将最终模型部署在官方提供的服务器上,这里涉及环境的配置和代码工程化的能力,由于服务器不接入外网,所有的依赖包都要手动导入。

在截止日期的前一天晚上,下班后开始做代码的整理,部署,直到凌晨五点才搞完,只睡了三个小时,就去工作了,不过付出还是有收获的,也算成功进入了TOP10。代码工程化的能力真的很重要,要学着写出简洁优质的代码。

问题4:竞赛分享

可以选一个知识点或者竞赛进行分享。

AIWIN比赛的赛题是“互联网舆情企业风险事件的识别和预警”,参赛选手从给定的互联网信息中提取、识别出企业主体名称,以及标记风险标签(内容包含新闻标题、正文、及对应标签等)。

这个比赛的任务主要是两方面NER企业实体识别任务
舆情新闻类别分类任务
,任务都很明确。需要从新闻的标题和正文中找到企业主体,并且舆情标签类型分类成功,只有两者都正确才可以提高分数。

这道题实体识别任务上我使用BERT预训练模型,由于这道题不限制外部数据,对外部数据的应用,我觉得是提高识别率的关键。在答辩时,看到TOP1的队伍,为每个企业实体构建了一个检索系统,通过外部的信息,关联了各个实体的股票名,股票id,缩写,别称等等,使得实体的附加信息更多,使得模型的识别率更高。

在分类模型上,我使用的就是传的TFIDF+机器学习
模型方案,在我这里也试用了一些深度学习模型,可能由于数据量大小的问题,并没有很好的收益。由于这道题目是允许进行后处理的,在模型的输出结果后,可以通过数据分析,人为增加一些规则,但一定要注意不要因为规则而过拟合。

最后,希望小伙伴们一起加油,多多上分,多多拿奖,成功上岸。

学习交流群已成立
学习推荐系统,算法竞赛,组队参赛
添加👇微信拉你进群
加入了之前的社群不需要重复添加~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论