Pfob et
al.
BMC
Medical
Research
Methodology
(2022)
22:282
https://doi.org/10.1186/s12874-022-01758-8
介绍数据预处理、超参数调优和
模型比较的技术
andr<s:1> pfob1,2†,Sheng - Chieh lu2,3†和 Chris
sidy‑Gibbons 2,3*
†
André Pfob and Sheng-Chieh Lu contributed equally to this
work.
*Correspondence: cgibbons@mdanderson.org
3
Section of Patient‑Centered Analytics, The University of Texas MD
Anderson Cancer Center, Houston, TX 77030, USA
Full list of author information is available at the end of the
article
I 简介
过去几年,全球医学界对人工智能(AI)和机器学习(ML)
的兴趣急剧增加。AI/机器学习技术的使用可以通过提供
个性化的结果预测和减少标准化过程中的冗余来改善对
患者的护理,从而使临床医生能够花更多的时间与患者
在一起[1-7]。而协议
背景:人们越来越热衷于将机器学习(ML)和人工智能(AI)技术应用于临床研究和实践。然而,关于
如何在医学中开发强大的高质量 ML 和 AI 的指导很少。在本文中,我们提供了一个实用的技术
示例,这些技术有助于开发高质量的 ML 系统,包括使用开源软件和数据进行数据预处理、超参
数调优和模型比较。
方法:我们使用开源软件和公开可用的数据集来训练和验证多个 ML 模型,以根据乳房 x 线摄影
图像特征和患者年龄将乳房肿块分类为良性或恶性。我们将算法预测与组织病理学评估的基本事
实进行了比较。我们提供了随附的代码行逐步说明。
研究结果:五种算法在基于乳房 x 线摄影图像特征和患者年龄将乳房肿块分类为良性或恶性方面
的表现在统计学上是相同的(P > 0.05)。弹性净惩罚 logistic 回归的接受者工作特征曲线下面积
(AUROC)为 0.89 (95% CI 0.85 -0.94),极端梯度增强树为 0.88 (95% CI 0.83 -0.93),多变量
自适应回归样条算法为 0.88 (95% CI 0.83 -0.93),支持向量机为 0.89 (95% CI 0.84 -0.93),
神经网络为 0.89 (95% CI 0.84 -0.93)。解释:我们的论文允许对使用 ML 算法感兴趣的临床医生
和医学研究人员理解和重建全面 ML 分析的要素。遵循我们的说明可能有助于提高医学 ML 研
究中的模型泛化性和可重复性。
文档被以下合辑收录
评论