赛题名称:Linking Writing Processes to Writing Quality 赛题任务:通过打字来预测论文质量 赛题类型:数据挖掘 赛题链接👇:
https://www.kaggle.com/competitions/linking-writing-processes-to-writing-quality
比赛介绍
在写作过程中,总结复杂的行为动作和认知活动是困难的。作者可能会使用不同的技巧来规划和修改他们的工作,展示不同的暂停模式,或者在整个写作过程中有策略地分配时间。许多这些小动作可能会影响写作质量。尽管如此,大多数写作评估仅关注最终成果。数据科学可能能够揭示写作过程的关键方面。
这个竞赛的目标是预测文章的整体写作质量。打字行为是否会影响一篇文章的质量?您将开发一个模型,该模型经过大量键盘输入记录的数据集进行训练,这些数据集捕捉了写作过程中的各种特征。
评估指标
我们使用均方根误差(Root Mean Squared Error,RMSE)来评分提交的结果,其定义如下:
其中,𝑦𝑖是每个实例𝑖的原始值,𝑦ˆ𝑖是预测值,n是总实例数。
数据集介绍
这个竞赛的数据集包括约5000份用户在撰写文章过程中的输入日志,包括键盘输入和鼠标点击。每篇文章都在0到6的评分范围内进行了评分。您的目标是根据用户输入的日志来预测文章的评分。
train_logs.csvNonproduction
- 事件不以任何方式改变文本Input
- 事件向文章添加文本Remove/Cut
- 事件从文章中删除文本Paste
- 事件通过粘贴输入更改文本Replace
- 事件将文本的一部分替换为另一个字符串Move From [x1, y1] To [x2, y2]
- 事件将跨越字符索引x1
、y1
的文本部分移动到新位置x2
、y2用作训练数据的输入日志。为了防止重新生成文章文本,所有的字母数字字符输入都已被替换为 "anonymous" 字符;标点符号和其他特殊字符没有被匿名化。 id
- 文章的唯一IDevent_id
- 事件的索引,按时间顺序排列down_time
- 按下事件的时间(以毫秒为单位)up_time
- 弹起事件的时间(以毫秒为单位)action_time
- 事件的持续时间(down_time
和up_time
的差值)activity
- 事件所属的活动类别down_event
- 键盘/鼠标按下时的事件名称up_event
- 键盘/鼠标释放时的事件名称text_change
- 事件导致的文本更改(如果有的话)cursor_position
- 事件后文本光标的字符索引word_count
- 事件后文章的字数
请注意,测试集中可能会存在在训练集中未出现的事件。因此,您的解决方案应对未见过的事件具有鲁棒性。
test_logs.csv
- 用作测试数据的输入日志,包含与train_logs.csv
相同的字段。公开版本的此文件中的日志仅用作示例以说明格式。train_scores.csvid
- 文章的唯一IDscore
- 文章获得的评分(最高6分,是竞赛的预测目标)
赛题赛程
2024 年 1 月 2 日 - 报名截止日期 2024 年 1 月 9 日 - 团队合并截止日期 2024 年 1 月 9 日 - 最终提交截止日期
# 竞赛交流群 邀请函 #

每天大模型、算法竞赛、干货资讯

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




