Kaggle赛题解析：还原大模型提示词

Coggle数据科学 2024-02-29

1084

赛题名称：LLM Prompt Recovery
赛题任务：恢复大模型的提示词
赛题类型：大语言模型
赛题链接👇：

https://www.kaggle.com/competitions/llm-prompt-recovery

unsetunset赛题背景unsetunset

NLP 工作流程越来越多地涉及重写文本，但关于如何有效使用LLM仍有很多东西需要学习。这次机器学习竞赛旨在以一种新颖的方式深入研究这个问题。

本次比赛的挑战是恢复用于重写给定文本的 LLM 提示。参赛选手将针对包含 1300 多个原始文本的数据集进行测试，每个文本都与来自 Google 新开放模型系列 Gemma 的重写版本配对。

unsetunset赛题任务unsetunset

大语言模型（LLM）通常用于重写文本或对文本进行风格更改。本次比赛的目标是恢复用于转换给定文本的 LLM 提示。

unsetunset评价指标unsetunset

对于提交中的每一行和相应的groundtruth，使用sentence-t5-base来计算相应的嵌入向量。每个预测/预期对的分数是使用锐化余弦相似度（使用指数 3）计算的。SCS 用于减弱通过嵌入向量为错误答案给出的慷慨分数。不要将任何 rewrite_prompt 留空，因为空答案将引发错误。

提交文件应包含标题并具有以下格式：

id,rewrite_prompt
000aaa,"Rewrite this essay but do it using the writing style of Dr. Seuss"
111bbb,"Rewrite this essay but do it using the writing style of William Shakespeare"
222ccc,"Rewrite this essay but do it using the writing style of Tupac Shakur"
...

unsetunset提交结果unsetunset

对于测试集中的每个案例（case_id），您需要预测目标分数的概率。文件应包含一个标题，并具有以下格式：

case_id,score
57543,0.1
57544,0.9
57545,0.5
etc.

unsetunset赛题时间轴unsetunset

2024 年 2 月 27 日 - 开始日期
2024 年 4 月 9 日 - 报名截止日期
2024 年 4 月 9 日 - 团队合并截止日期
2024 年 4 月 16 日 - 最终提交截止日期

unsetunset赛题数据集unsetunset

这个竞赛数据集是关于文本重写的，数据集中包含了文本段落，这些段落是由名为Gemma 7b的LLM（大型语言模型）根据一些未公开的提示进行了重写。竞赛的目标是确定使用了哪些提示来生成这些重写文本。

train.csv
和 test.csv
：包含以下列：

id
：每行的唯一标识符。
original_text
：文本段落的原始提示。
rewrite_prompt
：提供给Gemma的提示。
rewritten_text
：Gemma生成的重写文本。

sample_submission.csv
：提交文件的示例，格式正确，包含以下列：

id
：行的唯一标识符。
rewrite_prompt
：你需要提交的重写提示。

需要注意的是：

训练集和测试集中仅提供了一个示例。
你需要生成更多的数据来训练你的模型。你可以参考提供的示例 notebook 来生成更多的数据。

想要一起参赛？

可以在下面论坛中一起讨论：http://discussion.coggle.club/

或添加下面微信如竞赛群：

学习大模型、推荐系统、算法竞赛

添加👇微信拉你进群

加入了之前的社群不需要重复添加~

文章转载自Coggle数据科学，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。