暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle赛题解析:打字与写作质量预测

Coggle数据科学 2023-10-07
493
  • 赛题名称:Linking Writing Processes to Writing Quality
  • 赛题任务:通过打字来预测论文质量
  • 赛题类型:数据挖掘
  • 赛题链接👇:

https://www.kaggle.com/competitions/linking-writing-processes-to-writing-quality

比赛介绍

在写作过程中,总结复杂的行为动作和认知活动是困难的。作者可能会使用不同的技巧来规划和修改他们的工作,展示不同的暂停模式,或者在整个写作过程中有策略地分配时间。许多这些小动作可能会影响写作质量。尽管如此,大多数写作评估仅关注最终成果。数据科学可能能够揭示写作过程的关键方面。

这个竞赛的目标是预测文章的整体写作质量。打字行为是否会影响一篇文章的质量?您将开发一个模型,该模型经过大量键盘输入记录的数据集进行训练,这些数据集捕捉了写作过程中的各种特征。

评估指标

我们使用均方根误差(Root Mean Squared Error,RMSE)来评分提交的结果,其定义如下:

其中,𝑦𝑖是每个实例𝑖的原始值,𝑦ˆ𝑖是预测值,n是总实例数。

数据集介绍

这个竞赛的数据集包括约5000份用户在撰写文章过程中的输入日志,包括键盘输入和鼠标点击。每篇文章都在0到6的评分范围内进行了评分。您的目标是根据用户输入的日志来预测文章的评分。

  • train_logs.csv
    • Nonproduction
      - 事件不以任何方式改变文本
    • Input
      - 事件向文章添加文本
    • Remove/Cut
      - 事件从文章中删除文本
    • Paste
      - 事件通过粘贴输入更改文本
    • Replace
      - 事件将文本的一部分替换为另一个字符串
    • Move From [x1, y1] To [x2, y2]
      - 事件将跨越字符索引 x1
      y1
      的文本部分移动到新位置 x2
      y2
    • 用作训练数据的输入日志。为了防止重新生成文章文本,所有的字母数字字符输入都已被替换为 "anonymous" 字符;标点符号和其他特殊字符没有被匿名化。
    • id
      - 文章的唯一ID
    • event_id
      - 事件的索引,按时间顺序排列
    • down_time
      - 按下事件的时间(以毫秒为单位)
    • up_time
      - 弹起事件的时间(以毫秒为单位)
    • action_time
      - 事件的持续时间(down_time
      up_time
      的差值)
    • activity
      - 事件所属的活动类别
    • down_event
      - 键盘/鼠标按下时的事件名称
    • up_event
      - 键盘/鼠标释放时的事件名称
    • text_change
      - 事件导致的文本更改(如果有的话)
    • cursor_position
      - 事件后文本光标的字符索引
    • word_count
      - 事件后文章的字数

请注意,测试集中可能会存在在训练集中未出现的事件。因此,您的解决方案应对未见过的事件具有鲁棒性。

  • test_logs.csv
    - 用作测试数据的输入日志,包含与 train_logs.csv
    相同的字段。公开版本的此文件中的日志仅用作示例以说明格式。
  • train_scores.csv
    • id
      - 文章的唯一ID
    • score
      - 文章获得的评分(最高6分,是竞赛的预测目标)

赛题赛程

  • 2024 年 1 月 2 日 - 报名截止日期
  • 2024 年 1 月 9 日 - 团队合并截止日期
  • 2024 年 1 月 9 日 - 最终提交截止日期

 竞赛交流群 邀请函  #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 37000+来自竞赛爱好者一起交流~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论