暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle赛题解析:大脑活动模式分类

Coggle数据科学 2024-01-11
695
  • 赛题名称:HMS - Harmful Brain Activity Classification
  • 赛题类型:EEG信号分类、时序信号分类
  • 赛题任务:对病人的癫痫发作和其他有害大脑活动模式进行分类

https://www.kaggle.com/competitions/hms-harmful-brain-activity-classification

赛题背景

通过开发一个模型,对从危重病房患者记录的脑电图(EEG)信号进行检测和分类,从而实现对癫痫发作和其他有害脑活动的准确识别。参赛者需要利用机器学习和深度学习等技术,针对医院患者的EEG数据进行训练,以提高脑电图模式分类的准确性。

过有效地识别脑电图中的异常模式,可以更快速、准确地进行神经重症监护、癫痫治疗以及药物研发。这一领域的进展可能使医生和脑科研究人员能够更早地检测到癫痫发作或其他脑损伤,为患者提供更快速、更准确的治疗,对神经科学和医学研究有着潜在的革命性影响。通过这个比赛,参与者有机会推动EEG信号处理领域的创新,为神经重症护理、癫痫治疗以及药物研发等领域的发展贡献力量。

赛题任务

比赛的目标是利用机器学习和深度学习技术,自动分析危重病患者记录的脑电图(EEG)信号。其主要任务是检测和分类EEG数据中的特定模式,包括癫痫发作(SZ)、广泛周期性放电(GPD)、局限性周期性放电(LPD)、局限性节律性三相电流活动(LRDA)、广泛节律性三相电流活动(GRDA)以及“其他”。

评价方法

提交的模型将根据预测概率与观察目标之间的Kullback-Leibler散度进行评估。Kullback-Leibler散度是一种衡量两个概率分布之间差异的度量。

对于测试集中的每个eeg_id,您需要为每个投票列预测一个概率。提交文件应包含标题,并采用以下格式:

eeg_id,seizure_vote,lpd_vote,gpd_vote,lrda_vote,grda_vote,other_vote
0,0.166,0.166,0.166,0.166,0.166,0.166
1,0.166,0.166,0.166,0.166,0.166,0.166
etc.

赛题数据

这是一个代码竞赛。测试集只提供了少量示例供下载。当评分您的提交时,测试文件夹将被替换为包含完整测试集的版本。

  • train.csv:训练集的元数据。专家标注员审查了50秒长的EEG样本以及匹配的涵盖相同时间窗口的10分钟窗口内的谱图,并标记了中央10秒。许多这些样本是重叠的,并已合并。train.csv
    提供了元数据,允许您提取标记人员注释的原始子集。
    • eeg_id
      - 整个EEG记录的唯一标识符。
    • eeg_sub_id
      - 适用于此行标签的特定50秒长子样本的ID。
    • eeg_label_offset_seconds
      - 合并的EEG开始和此子样本之间的时间。
    • spectrogram_id
      - 整个EEG记录的唯一标识符。
    • spectrogram_sub_id
      - 适用于此行标签的特定10分钟子样本的ID。
    • spectogram_label_offset_seconds
      - 合并的谱图开始和此子样本之间的时间。
    • label_id
      - 此标签集的ID。
    • patient_id
      - 捐赠数据的患者的ID。
    • expert_consensus
      - 共识标注者标签。仅为方便提供。
    • [seizure/lpd/gpd/lrda/grda/other]_vote
      - 给定脑活动类别的标注者投票计数。活动类别的全名如下:lpd
      :局限性周期性放电,gpd
      :广泛周期性放电,lrd
      :局限性节律性三相电流活动,grda
      :广泛节律性三相电流活动。这些模式的详细解释在此处提供。
  • test.csv:测试集的元数据。由于测试集中没有重叠的样本,因此训练元数据中的许多列不适用。
    • eeg_id
    • spectrogram_id
    • patient_id
  • sample_submission.csv
    • eeg_id
    • [seizure/lpd/gpd/lrda/grda/other]_vote
      - 目标列。您的预测必须是概率。请注意,测试样本的标注者数量在3到20之间。
  • train_eegs/:一个或多个重叠样本的EEG数据。使用train.csv中的元数据选择特定的标注子集。列名是EEG导联的各个电极位置的名称,只有一个例外。EKG列用于记录来自心脏的心电图信号。所有EEG数据(包括训练和测试)都以每秒200个样本的频率收集。
  • test_eegs/ :确切的50秒EEG数据。
  • train_spectrograms/:组装的EEG数据的谱图。使用train.csv中的元数据选择特定的标注子集。列名指示赫兹的频率和EEG电极的记录区域。后者简称为LL = 左侧横向; RL = 右侧横向; LP = 左侧经矢状; RP = 右侧经矢状。
  • test_spectrograms/ :使用确切的10分钟EEG数据组装的谱图。
  • example_figures/ :概览选项卡中使用的示例案例图像的较大版本。

解题思路

  • 读取 train.csv
    ,了解每个样本的标签信息,包括 eeg_id
    spectrogram_id
    patient_id
    等。
  • 检查标签的分布,确保了解每个类别的数量。从 train_eegs
    文件夹中加载EEG数据,可能需要将数据进行标准化或归一化。
  • 使用训练集进行模型训练,根据Kullback-Leibler散度进行损失函数的计算。
  • 考虑使用交叉验证来评估模型的性能。
  • 使用测试集进行模型评估,生成预测结果。提交预测结果,查看Kaggle比赛评分。
学习大模型、推荐系统、算法竞赛
添加👇微信拉你进群
加入了之前的社群不需要重复添加~



文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论