暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle赛题解析:检测AI生成文本

Coggle数据科学 2023-11-03
742
  • 赛题名称:Detect AI Generated Text
  • 赛题类型:文本分类、自然语言处理
  • 赛题任务:识别哪篇文章是由大型语言模型撰写的
  • 赛题链接👇:

https://www.kaggle.com/competitions/llm-detect-ai-generated-text/

比赛介绍

赛题涉及建立一个模型来区分中学和高中学生所写的文章与由大型语言模型(LLM)所写的文章。由于LLMs的广泛使用,很多人担心它们将取代或改变通常由人类完成的工作。教育工作者特别担心它们对学生技能发展的影响,尽管很多人对LLMs最终成为帮助学生提高写作技能的有用工具持乐观态度。

在学术界对LLMs的主要担忧之一是它们可能助长抄袭行为。LLMs是在大规模文本和代码数据集上训练的,这意味着它们能够生成与人类写作非常相似的文本。

赛题任务

您在这个竞赛中的工作可以帮助识别LLM的痕迹,并推动LLM文本检测的技术前沿。通过使用各种主题的中等长度文本以及多个未知的生成模型,我们旨在复制典型的检测情景,并鼓励学习能够横跨多个模型泛化的特征。

评估指标

提交的内容根据预测概率与观察目标之间的 ROC 曲线下面积进行评估。

对于测试集中的每个 id,您必须预测生成该文章的概率。该文件应包含标头并具有以下格式:

id,generated
0000aaaa,0.1
1111bbbb,0.9
2222cccc,0.4
...

数据集描述

这个竞赛数据集包含大约10,000篇文章,其中一部分由学生撰写,一部分由各种大型语言模型(LLMs)生成。竞赛的目标是确定一篇文章是否由LLM生成。

所有的文章都是作为对七个不同的作文题目之一的回应而写的。在每个题目中,学生被要求阅读一个或多个源文本,然后写出回应。这些信息可能会或者不会作为LLM生成文章的输入。

两个题目的作文构成了训练集,其余的作文构成了隐藏的测试集。几乎所有的训练集作文都是由学生写的,只有少数生成的作文作为示例。您可以考虑生成更多的作文来用作训练数据。

文件和字段信息

  • {test/train}_essays.csv
    • id
      - 每篇文章的唯一标识符。
    • prompt_id
      - 识别文章是回应哪个作文题目写的。
    • text
      - 文章正文。
    • generated
      - 文章是由学生写的 (0
      ) 还是由LLM生成的 (1
      )。这个字段是目标变量,在test_essays.csv
      中不包括。
  • train_prompts.csv
    • 文章是根据这些字段中的信息编写的。
    • prompt_id
      - 每个作文题目的唯一标识符。
    • prompt_name
      - 作文题目的标题。
    • instructions
      - 给学生的指示。
    • source_text
      - 文章或文章的文本,这些文章是学生在回应中编写的,采用Markdown格式。
  • sample_submission.csv - 一个格式正确的提交文件。

赛题赛程

  • 2023 年 10 月 31 日 - 开始日期。
  • 2024 年 1 月 15 日 - 报名截止日期。
  • 2024 年 1 月 15 日 - 合并截止日期。
  • 2024 年 1 月 22 日 - 提交截止日期。

 竞赛交流群 邀请函  #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论