竞赛总结：科大讯飞2023 人岗匹配挑战赛

Coggle数据科学 2024-01-18

964

赛题名称：人岗匹配挑战赛2023
赛题类型：文本匹配
赛题任务：基于提供的样本构建模型，预测简历与岗位匹配与否。

比赛地址：https://challenge.xfyun.cn/topic/info?type=person-post-matching-2023

视频答辩地址：https://www.bilibili.com/video/BV1nb4y1T7kr?p=47

赛题背景

讯飞智聘是一款面向企业招聘全流程的智能化解决方案。运用科大讯飞先进的智能语音、自然语言理解、计算机视觉等AI技术及大数据能力，具备业界领先的简历解析、人岗匹配、AI面试、AI外呼等产品功能，助力企业提升招聘效率，降低招聘成本。

人岗匹配是企业招聘面临一个重大挑战，尤其在校园招聘等集中招聘的场景下，面对海量的简历，如何快速分类筛选出最适合招聘岗位的简历，以及在内推和猎头场景下，如何为一份简历找到合适的岗位，做到人适其岗、岗适其人，提升人岗匹配的效率和准确度，是困扰每一个HR和面试官的难题。

赛题任务

智能人岗匹配需要强大的数据作为支撑，本次大赛提供了大量的岗位JD和求职者简历的加密脱敏数据作为训练样本，参赛选手需基于提供的样本构建模型，预测简历与岗位匹配与否。

赛题数据

岗位JD数据包含4个特征字段：岗位ID, 岗位名称, 岗位介绍, 岗位要求

评价指标

本模型依据提交的结果文件，采用macro-F1 score进行评价。

本赛题提供训练集下载数据，选手在本地进行算法调试，在比赛页面提交模型进行在线推理。

优胜方案

第一名

数据预处理

数据拼接：将求职者简历中的不同字段（如教育背景、工作经历等）拼接成一条长文本，岗位JD也同样处理。
匿名化处理：由于数据是匿名化的，构建了一个专门的词表，从零开始进行预训练。

特征工程

文本表示：使用了基于Transformer的预训练模型（如BERT或Nezha），考虑到数据长度和模型复杂度，选择了8层的结构。
注意力机制：在预训练模型输出的隐层表示上，添加了注意力机制或RNN等结构来进一步提升特征表示。

模型架构

分类器设计：在预训练模型的基础上，融合了不同层的表示，并进行了Self-attention加权的特征融合。
层数调整：根据比赛数据特点，调整了模型层数和维度，以优化性能。

模型训练

损失函数：使用了Focal Loss来解决类别不均衡问题，提高模型对少数类的识别能力。
优化策略：应用了如对抗训练（FGM）和指数移动平均（EMA）等策略来避免过拟合。

模型评估

交叉验证：采用了5折交叉验证，确保模型的泛化能力。
评估指标：主要关注Macro F1分数，以评估分类的准确率。

结果分析

线上推理：通过分层采样，进行线上推理，最终取得了0.62的分数，并在比赛中取得了第一位。
效果提升：通过Focal Loss和其他优化策略，模型效果从0.60提升至0.627。

第二名

方案采用了传统的机器学习方法，通过分模块建模、特征提取和模型融合，实现了对人岗匹配的预测。在优化过程中，通过调整权重和多类F1值优化，提高了模型性能。虽然特征工程方面较为简单，但整体方案在比赛中取得了较好的成绩。

数据预处理

数据划分：将数据分为不同的模块，如教育经历、求职需求、工作经历等。
特征提取：对每个模块进行TF-IDF特征提取，得到文本特征。

模型构建

LGB模型：对每个模块分别进行LGB学习器的训练，得到预测结果。
XGB模型：将LGB模型的预测结果作为输入，进行XGB模型的训练。
模型融合：将XGB模型的预测结果与LGB模型的预测结果进行融合，得到最终的预测值。

模型优化

类别不均衡问题：通过调整权重，优化F1值，解决类别不均衡问题。
多类F1值优化：对每个权重进行优化，实现多类F1值的优化。

特征工程

个人信息与职位相似度：计算个人信息与每个职位之间的相似度，作为特征。
统计特征：提取一些简单的统计特征，如教育经历的段数等。

模型评估

基准模型：最初使用基准模型，得分约为0.50。
统计特征加入：加入统计特征后，得分提升至0.53。
分维度建模：将数据分为多个模块进行建模，得分提升至0.58。
F1优化：进行F1优化后，得分略有提升。

第三名

方案采用了数据增强、模型集成和分层结构等方法，以提高人工匹配器的性能。虽然特征工程方面较为简单，但整体方案在比赛中取得了较好的成绩。

数据预处理

数据读取：直接读取每条求职者简历样本的纯文本。
数据清洗：删除无意义的符号，如无文字的数字序号。

数据增强

岗位信息伪装：将岗位信息伪装成求职者简历，以增强数据。
排列组合：对岗位名称、岗位介绍和岗位要求进行多种排列组合，生成新的样本。
去重：去除重复的文本ids，保留每个ids的一个，以增加样本多样性。

特征工程

文本特征提取：使用1-3 Gram的N-Gram模型提取文本特征。
简单特征：提取一些简单的特征，如词频等。

模型构建

模型集成：采用模型集成的方法，使用7种不同的模型类型。
基础模型训练：根据设置的参数，得到12个基础模型。
模型集成策略：将训练集拆分成5份，每个模型训练一份，得到60个模型。
特征拼接：将60个模型对测试集的预测值与文本特征拼接，作为新的特征。
模型分层：采用三层模型结构，每层重复上述操作，最后进行模型选择。

模型优化思路

数据增强：尝试更多的排列组合，以增强数据。
任务转换：将文本分类任务转换为文本匹配任务，加入更多招聘者信息。
特征工程：尝试使用更多特征提取方法，如FastText、Glove、WordVector等。
模型训练：尝试使用BERT等预训练模型进行训练。
模型融合：将不同模型的预测概率进行融合，如平均、加权和等。
对比学习：尝试使用对比学习方法，如SIMCSE等。
模型优化：尝试使用模型优化技巧，如模型蒸馏等。

人岗匹配预测模型

文章转载自Coggle数据科学，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

竞赛总结：科大讯飞2023 人岗匹配挑战赛

赛题背景

赛题任务

赛题数据

评价指标

优胜方案

第一名

数据预处理

特征工程

模型架构

模型训练

模型评估

结果分析

第二名

数据预处理

模型构建

模型优化

特征工程

模型评估

第三名

数据预处理

数据增强

特征工程

模型构建

模型优化思路

评论