Kaggle赛题解析：斯坦福RNA结构预测

Coggle数据科学 2023-09-15

591

赛题名称：Stanford Ribonanza RNA Folding
赛题类型：RNA分子结构预测
赛题链接👇：

https://www.kaggle.com/competitions/stanford-ribonanza-rna-folding/

比赛介绍

比赛旨在解决RNA分子结构预测的问题，同时也要预测出与每个RNA分子位置相关的化学映射配置文件。这些配置文件可以与针对RNA的每个位置收集到的数据进行比较。

RNA是生物学中至关重要的分子，对于大多数生物功能都不可或缺。更好地理解如何操纵RNA可能有助于开启可编程医学的时代，包括治疗胰腺癌和阿尔茨海默病的首个药物，以及急需的抗生素和应对气候变化的新生物技术方法。

比赛目标是创建一个模型，可以预测任何RNA分子的结构以及由此产生的化学映射配置文件。这些配置文件可以与RNA的每个位置收集到的数据进行比较。这个模型可能会在未来被世界上的每个生物学家和生物技术学家使用。

评估指标

在这个比赛中，提交的模型性能将使用均方绝对误差（MAE）进行评分，其计算方式如下：

其中，是评分地面实际值的数量，和分别是实际值和预测值。在计算 MAE 之前，值将被剪切在0和1之间，即：

其中，是原始数据值。

在每个RNA序列的每个位置上，将会有两个地面实际值，分别对应于来自两种化学映射实验的反应性，即 DMS_MaP 和 2A3_MaP。模型的性能将根据这些地面实际值与预测值之间的MAE来评估。MAE越小，模型的性能越好。

数据集描述

在这个比赛中，你将预测RNA序列对两种化学修饰剂DMS和2A3的反应性。这些数据可以通过突变分析（MaP）实验通过高通量测序来有效测量，而受到化学修饰保护的位置可能形成碱基对或其他类型的RNA结构。

文件介绍

train_data.csv - 训练数据
test_sequences.csv - 测试集序列，没有与地面实际值相关的列。
sample_submission.csv - 一个示例提交文件，格式正确。

列介绍

id
- 整数（0,1,…）, 用于标识样本提交中的每个序列位置。
id_min
, id_max
- (整数) 每个测试序列的最小和最大 id
值。
sequence_id
- (字符串) 为每个序列分配的任意标识符，如 8cdfeef00
。
sequence
- (字符串) 描述RNA序列，对于每个样本，是A
、G
、U
和C
的组合。长度应在115到457个字符之间。
experiment_type
- (字符串) 要描述生成每个配置文件所使用的化学映射实验的类型，可以是 DMS_MaP
或 2A3_MaP
。参考资料：DMS，2A3。
dataset_name
- (字符串) 提取反应性配置文件的高通量测序数据集的名称。
reads
- (整数) 分配给RNA序列的高通量测序实验中的reads数量，其突变已被列入反应性配置文件。
signal_to_noise
- (浮点数) 配置文件的信号/噪声值，定义为 mean(测量值超过探测到的nt的测量值)/mean(测量值超过探测到的nt的统计误差)。
SN_filter
- (布尔值) 取0或1，取决于配置文件是否具有 signal_to_noise
> 1.0 和 reads
> 100。在评估中，只有 DMS_MaP
和 2A3_MaP
配置文件都通过了这个筛选条件的序列才会用于评分提交。
reactivity_0001
, reactivity_0002
,… - (浮点数) 训练数据中的浮点数数组，应与RNA序列的长度相同，定义了RNA的反应性配置文件。对于比最大RNA长度短的序列，超过序列长度的位置为 null
。由于技术原因，序列的早期和晚期的一些位置也不能被探测到，它们的反应性值也为 null
。
reactivity_error_0001
, reactivity_error_0002
,… - (浮点数) 浮点数数组，应与相应的 reactivity_*
列的长度相同，表示由高通量测序实验中的统计统计误差计算得出的 reactivity
的实验值中的误差。
reactivity_DMS_MaP
, reactivity_2A3_MaP
- (浮点数) 示例提交值。
future
- (布尔值) 在比赛开始后（但在最终评分之前）收集数据的序列标记为1。

赛题赛程

2023 年 9 月 7 日 - 开始日期。
2023 年 11 月 30 日 - 报名截止日期。
2023 年 11 月 30 日 - 合并截止日期。
2023 年 12 月 7 日 - 提交截止日期。

解题思路

以下是解题思路的一些关键点：

非结构化序列数据：在这个比赛中处理的是RNA序列数据，这是一种非常典型的非结构化序列数据
回归任务：任务是预测RNA序列的反应性配置文件，这是一个回归任务。具体来说，你需要预测每个RNA序列位置的反应性值，这些反应性值是浮点数。
构建深度学习模型：考虑到RNA序列的复杂性和数据的多样性，构建深度学习模型可能是解决这个问题的有效方法

# 竞赛交流群邀请函 #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

浮点数

文章转载自Coggle数据科学，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。