暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

竞赛总结:科大讯飞2023 人岗匹配挑战赛

Coggle数据科学 2024-01-18
952
  • 赛题名称:人岗匹配挑战赛2023
  • 赛题类型:文本匹配
  • 赛题任务:基于提供的样本构建模型,预测简历与岗位匹配与否。

比赛地址:https://challenge.xfyun.cn/topic/info?type=person-post-matching-2023

视频答辩地址:https://www.bilibili.com/video/BV1nb4y1T7kr?p=47

赛题背景

讯飞智聘是一款面向企业招聘全流程的智能化解决方案。运用科大讯飞先进的智能语音、自然语言理解、计算机视觉等AI技术及大数据能力,具备业界领先的简历解析、人岗匹配、AI面试、AI外呼等产品功能,助力企业提升招聘效率,降低招聘成本。

人岗匹配是企业招聘面临一个重大挑战,尤其在校园招聘等集中招聘的场景下,面对海量的简历,如何快速分类筛选出最适合招聘岗位的简历,以及在内推和猎头场景下,如何为一份简历找到合适的岗位,做到人适其岗、岗适其人,提升人岗匹配的效率和准确度,是困扰每一个HR和面试官的难题。

赛题任务

智能人岗匹配需要强大的数据作为支撑,本次大赛提供了大量的岗位JD和求职者简历的加密脱敏数据作为训练样本,参赛选手需基于提供的样本构建模型,预测简历与岗位匹配与否。

赛题数据

岗位JD数据包含4个特征字段:岗位ID, 岗位名称, 岗位介绍, 岗位要求

求职者简历数据包含如下字段

评价指标

本模型依据提交的结果文件,采用macro-F1 score进行评价。

本赛题提供训练集下载数据,选手在本地进行算法调试,在比赛页面提交模型进行在线推理。

优胜方案

第一名

数据预处理

  • 数据拼接:将求职者简历中的不同字段(如教育背景、工作经历等)拼接成一条长文本,岗位JD也同样处理。
  • 匿名化处理:由于数据是匿名化的,构建了一个专门的词表,从零开始进行预训练。

特征工程

  • 文本表示:使用了基于Transformer的预训练模型(如BERT或Nezha),考虑到数据长度和模型复杂度,选择了8层的结构。
  • 注意力机制:在预训练模型输出的隐层表示上,添加了注意力机制或RNN等结构来进一步提升特征表示。

模型架构

  • 分类器设计:在预训练模型的基础上,融合了不同层的表示,并进行了Self-attention加权的特征融合。
  • 层数调整:根据比赛数据特点,调整了模型层数和维度,以优化性能。

模型训练

  • 损失函数:使用了Focal Loss来解决类别不均衡问题,提高模型对少数类的识别能力。
  • 优化策略:应用了如对抗训练(FGM)和指数移动平均(EMA)等策略来避免过拟合。

模型评估

  • 交叉验证:采用了5折交叉验证,确保模型的泛化能力。
  • 评估指标:主要关注Macro F1分数,以评估分类的准确率。

结果分析

  • 线上推理:通过分层采样,进行线上推理,最终取得了0.62的分数,并在比赛中取得了第一位。
  • 效果提升:通过Focal Loss和其他优化策略,模型效果从0.60提升至0.627。

第二名

方案采用了传统的机器学习方法,通过分模块建模、特征提取和模型融合,实现了对人岗匹配的预测。在优化过程中,通过调整权重和多类F1值优化,提高了模型性能。虽然特征工程方面较为简单,但整体方案在比赛中取得了较好的成绩。

数据预处理

  • 数据划分:将数据分为不同的模块,如教育经历、求职需求、工作经历等。
  • 特征提取:对每个模块进行TF-IDF特征提取,得到文本特征。

模型构建

  • LGB模型:对每个模块分别进行LGB学习器的训练,得到预测结果。
  • XGB模型:将LGB模型的预测结果作为输入,进行XGB模型的训练。
  • 模型融合:将XGB模型的预测结果与LGB模型的预测结果进行融合,得到最终的预测值。

模型优化

  • 类别不均衡问题:通过调整权重,优化F1值,解决类别不均衡问题。
  • 多类F1值优化:对每个权重进行优化,实现多类F1值的优化。

特征工程

  • 个人信息与职位相似度:计算个人信息与每个职位之间的相似度,作为特征。
  • 统计特征:提取一些简单的统计特征,如教育经历的段数等。

模型评估

  • 基准模型:最初使用基准模型,得分约为0.50。
  • 统计特征加入:加入统计特征后,得分提升至0.53。
  • 分维度建模:将数据分为多个模块进行建模,得分提升至0.58。
  • F1优化:进行F1优化后,得分略有提升。

第三名

方案采用了数据增强、模型集成和分层结构等方法,以提高人工匹配器的性能。虽然特征工程方面较为简单,但整体方案在比赛中取得了较好的成绩。

数据预处理

  • 数据读取:直接读取每条求职者简历样本的纯文本。
  • 数据清洗:删除无意义的符号,如无文字的数字序号。

数据增强

  • 岗位信息伪装:将岗位信息伪装成求职者简历,以增强数据。
  • 排列组合:对岗位名称、岗位介绍和岗位要求进行多种排列组合,生成新的样本。
  • 去重:去除重复的文本ids,保留每个ids的一个,以增加样本多样性。

特征工程

  • 文本特征提取:使用1-3 Gram的N-Gram模型提取文本特征。
  • 简单特征:提取一些简单的特征,如词频等。

模型构建

  • 模型集成:采用模型集成的方法,使用7种不同的模型类型。
  • 基础模型训练:根据设置的参数,得到12个基础模型。
  • 模型集成策略:将训练集拆分成5份,每个模型训练一份,得到60个模型。
  • 特征拼接:将60个模型对测试集的预测值与文本特征拼接,作为新的特征。
  • 模型分层:采用三层模型结构,每层重复上述操作,最后进行模型选择。

模型优化思路

  • 数据增强:尝试更多的排列组合,以增强数据。
  • 任务转换:将文本分类任务转换为文本匹配任务,加入更多招聘者信息。
  • 特征工程:尝试使用更多特征提取方法,如FastText、Glove、WordVector等。
  • 模型训练:尝试使用BERT等预训练模型进行训练。
  • 模型融合:将不同模型的预测概率进行融合,如平均、加权和等。
  • 对比学习:尝试使用对比学习方法,如SIMCSE等。
  • 模型优化:尝试使用模型优化技巧,如模型蒸馏等。


文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论