暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

WSDM Cup 2024 对话式多文档问答

Coggle数据科学 2024-01-08
343
  • 比赛名称:WSDM 2024 Conversational Multi-Doc QA
  • 比赛类型:自然语言处理、文本问答

比赛介绍

比赛页面:https://sites.google.com/view/wsdm24-docqa

小红书是一个拥有数以亿计用户的社交平台,用户在这里分享和发现生活中的美好,并从海量的笔记中获取相关信息和实用的生活经验。平台利用先进的AI技术,如深度学习和大语言模型等,以提升用户个性化的互动体验,更好地满足用户对高效、准确信息获取的需求。

比赛由小红书技术团队和 WSDM(ACM国际网络搜索和数据挖掘会议)共同发起的「WSDM Cup 2024:对话式多文档问答挑战赛」。该挑战赛旨在解决基于大语言模型的对话问答机器人在处理当前或热门话题时面临的挑战。 通常情况下,为模型提供相关文档以供参考是一种解决方案,但这往往会导致文档过多或误导语言模型的问题。

挑战中将使用来自小红书的一系列文档,其中包含相关和不相关的内容。参与者的系统将在真实世界数据上进行训练,并根据语义和词汇相关性的表现进行评估。

比赛奖金

前三名的团队将分别获得2000美元、1000美元和500美元的奖金,并被邀请到墨西哥展示他们的解决方案。

比赛时间轴

  • 2023年12月25日:启动了对话式多文档问答竞赛的第一阶段(评估集)。
  • 2024年2月1日:进入第二阶段(测试集)。在这个阶段取得的排名将用于确定最终奖项名单。比赛注册关闭。
  • 2024年2月15日(太平洋时间晚上11:59):第二阶段评估服务器关闭。
  • 2024年3月4日至8日:在墨西哥梅里达举行的对话式多文档问答研讨会。前三名团队将进行演示展示。

比赛数据集

训练/评估/测试数据都以json
格式提供,每个样本包括以下字段:

  • uuid
    :字符串,每个示例的唯一标识符
  • history
    :字符串元组列表,顺序的问答对
  • documents
    :字符串列表,最多包含5个参考文档
  • question
    :字符串,用户提问
  • answer
    :字符串,参考答案(在评估/测试数据中未提供)
  • keywords
    :字符串列表,参考答案中最好提到的关键词(在训练/评估/测试集中都未给出)

训练集样本:

{
"uuid""xxxxx",
"history": [
 {"question": xxx, "history": xxx},
 {"question": xxx, "history": xxx},
 ...
],
"documents"
[
"Jun 17th through Fri the 21st, 2024 at the Seattle Convention Center, Vancouver Convention Center.""Workshops within a “track” will take place in the same room (or be co-located), and workshop organizers will be asked to work closely with others in their track ..."
...
],

"question""Where will CVPR 2024 happen?",
"answer""CVPR 2024 will happen at the Seattle Convention Center, Vancouver.",
"keywords"# Will not be given.
[
"Vancouver""CVPR 2024""Seattle Convention Center"

}

测试集提交样例:

[
{
"uuid""xxxxx",
"prediction""CVPR 2024 will happen at the Seattle Convention Center, Vancouver."
},
...
]

比赛规则

确保您的模型参数不超过140亿(14B)。提交截止日期后将审查整体解决方案。

提交格式: 参与者应以json
格式提交结果,其中每一行实际上是一个示例,包含以下字段:

  • uuid
    :整数,每个测试示例的唯一标识符
  • prediction
    :字符串,您的答案

评价标准:

  • 关键词召回(Keywords Recall): 答案是否包含通过精确匹配查看的真实和特定关键词(请参见示例数据中的关键词字段)。
  • ROUGE-L: 答案是否与参考答案相似,通过模糊匹配查看(请参见示例数据中的答案字段)。

整体表现将通过检查在第二阶段(测试集)排行榜上这些指标的平均排名来确定。在团队平均排名相同时,将优先考虑ROUGE-L得分较高的团队。

学习大模型、推荐系统、算法竞赛
添加👇微信拉你进群
加入了之前的社群不需要重复添加~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论