暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle赛题解析:删除文本中个人信息

Coggle数据科学 2024-01-22
441
  • 赛题名称:The Learning Agency Lab - PII Data Detection
  • 赛题任务:从教育数据中检测并删除个人信息
  • 赛题类型:自然语言处理
  • 赛题链接👇:

https://www.kaggle.com/competitions/pii-detection-removal-from-educational-data

赛题背景

在当今充斥着来自教育科技、在线学习和研究等各方面的丰富教育数据的时代,广泛存在的个人身份信息(PII)是一个关键挑战。PII的存在是分析和创建推动教育进步的开放数据集的障碍,因为公开发布数据会使学生面临风险。为了降低这些风险,在教育数据公开发布之前对其进行PII的筛查和清理是至关重要的,而数据科学可以简化这一过程。

目前,手动审查整个数据集以查找PII是最可靠的筛查方法,但这导致了巨大的成本,并限制了教育数据集的可扩展性。虽然存在依赖命名实体识别(NER)的自动PII检测技术,但这些技术对于格式相同的PII(如电子邮件和电话号码)效果最好。PII检测系统在正确标记姓名并区分敏感姓名(例如学生的姓名)和非敏感姓名(例如引用的作者)方面存在困难。

比赛主办方范德堡大学是位于田纳西州纳什维尔的一所私立研究型大学。它提供70个本科专业以及跨足10个学院和学校的全方位研究生和专业学位。校园拥有先进的实验室,致力于激发和培养跨学科研究,促进突破性发现。

在这次比赛中,范德堡大学与The Learning Agency Lab合作,后者是总部位于亚利桑那州的独立非营利组织,专注于为社会公益发展基于学习的工具和项目的科学。通过创建可靠的自动化技术来检测PII,您的工作将促使更多高质量的公共教育数据集问世。研究人员随后可以利用此前无法获得的数据潜力,开发有益于教师和学生的有效工具和干预措施。

赛题任务

比赛的目标是开发一个模型,能够检测学生写作中的个人身份信息(PII)。您的努力将自动化检测和删除教育数据中的PII,从而降低发布教育数据集的成本。这将支持学习科学研究和教育工具的开发。

可靠的自动化技术可以使研究人员和行业能够利用大规模公共教育数据集的潜力,以支持为教师和学生提供有效工具和干预措施的开发。

评价指标

提交的评估依据是 𝐹𝛽,这是一个分类指标,赋予召回率和精确度不同的权重。𝛽的值设定为5,这意味着召回率的权重是精确度的5倍。

在这种评估中,𝐹𝛽的计算方式可能如下所示:

其中:

  • Precision(精确度)是指被分类器正确标记的正例样本数量与所有被分类为正例的样本数量之比。
  • Recall(召回率)是指被分类器正确标记的正例样本数量与所有实际正例样本数量之比。
  • 𝛽(Beta)是一个权重因子,值为5,根据题设的要求。

提交结果

针对测试集中的每个文档,您需要预测哪些标记值具有正面的PII标签。您只应包括对正面PII标签值的预测,而不应包括外部标签 O。提交的每一行应对应于在唯一的文档-标记对中找到的单个标签。此外,评估指标要求有一个包含预测标签枚举的row_id。

row_id,document,token,label
0,7,9,B-NAME_STUDENT
1,7,10,I-NAME_STUDENT
2,10,0,B-NAME_STUDENT
etc.

赛题数据集

该竞赛数据集包含约22,000篇由参加大规模在线开放课程的学生撰写的文章。这些文章是针对单一作业提示编写的,要求学生将课程材料应用于现实世界的问题。竞赛的主要目标是在这些文章中注释个人身份信息(PII)。

为了保护学生的隐私,数据集中的原始PII已通过部分自动化的过程替换为相同类型的替代标识符。其中大多数的文章(70%)被保留为测试集,因此鼓励参赛者利用公开可用的外部数据集来增强他们的训练数据。

PII 类型

竞争者被要求对以下七种类型的PII进行标注:

  1. NAME_STUDENT
    - 学生的全名或部分名字(不一定是文章的作者),不包括教师、作者和其他人的名字。
  2. EMAIL
    - 学生的电子邮件地址。
  3. USERNAME
    - 学生在任何平台上的用户名。
  4. ID_NUM
    - 用于识别学生的数字或字符序列,例如学生ID或社会安全号码。
  5. PHONE_NUM
    - 与学生关联的电话号码。
  6. URL_PERSONAL
    - 用于识别学生的URL。
  7. STREET_ADDRESS
    - 与学生关联的完整或部分街道地址,例如他们的家庭地址。

文件和字段信息

数据以JSON格式提供,包括文档标识符、文章的全文、标记列表、有关空格的信息以及标记注释。标记遵循BIO(Beginning, Inner, Outer)格式,以“B-”表示实体的开头,“I-”表示实体的继续。不包含PII的标记为“O”。

  • testtrain.json - 测试和训练数据。此页面上的测试数据仅供说明,将在代码重新运行期间替换为隐藏的测试集。

    • (int): 文章的索引。
    • document
      (int): 文章的整数ID。
    • full_text
      (string): 文章的UTF-8表示。
    • tokens
      (list): 每个标记的字符串表示。
    • trailing_whitespace
      (list): 布尔值,指示每个标记后是否有空格。
    • labels
      (list) [仅训练数据]: 以BIO格式表示的标记。
  • sample_submission.csv - 正确提交格式的示例。有关详细信息,请参阅概览页面的提交文件部分。

赛题赛程

  • 2024年1月17日 - 开始日期。
  • 2024年4月16日 - 参赛截止日期。您必须在此日期之前接受比赛规则才能参与竞赛。
  • 2024年4月16日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2024年4月23日 - 最终提交截止日期。


学习大模型、推荐系统、算法竞赛
添加👇微信拉你进群

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论