暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Nat Med | AI从开发到落地的经验教训

Xiaxia Lab 2023-06-08
163




点击蓝字,关注我们

第一作者:Kasumi Widner

通讯作者:Yun Liu

第一机构:Google Health

DOI:10.1038/s41591-023-02293-9



01

医疗AI的起点

     基于人工智能的视网膜疾病筛查工具在印度和泰国的应用凸显了引入医学人工智能的神话(Myth)和现实(Reality),这可能会形成后续工具的框架。

    2015 年,谷歌的研究人员开始开发基于深度学习的人工智能系统,用于从视网膜眼底图像中检测糖尿病性视网膜病变。截至今年,这种基于人工智能的工具,即Automated Retinal Disease Assessment (ARDA),用于筛查难以及时诊断的人群,并已筛查超过 200,000 人的糖尿病性视网膜病变。




02

医疗AI开发的Myth和Reality


    将AI转化为有用的临床工具的过程面临了意想不到的挑战—实际中开发和部署医疗 AI 工具与作者的期望形成鲜明对比。


M

数据越多,模型越好

R

尽管足够的数据量对于开发准确的 AI 模型很重要,但数据和标签质量更重要,尤其是随着 AI 的进步,数据量变得不那么重要

M

只需要AI专家

R

尽管AI专家是开发医学人工智能模型的核心贡献者,但构建一个完整、运行良好的人工智能系统需要一个多学科团队

M

AI性能带来临床信心

R

建立用户对医学人工智能的信心需要时间和仔细的验证

M

将AI应用到日常工作流程中非常简单

R

人工智能应该围绕人类设计,不能背道而驰

M

启动意味着成功

R

需要通过持续监控和迭代才能确保AI的高性能




03

数据质量比数量更重要

    作者从输入数据标签两个方面阐述如何提高数据质量。


    对不同数据集进行训练有助于提高 AI 的泛化性并产生更高质量的 AI 模型。在作者的AI算法开发中,作者与多个地理位置的合作伙伴合作,以确保多个方面的多样性,如:参与者人口统计多样性(年龄、性别、种族和民族);图像采集多样性(临床环境、相机硬件、相机操作员的专业知识);和疾病谱多样性(患糖尿病的年数、疾病的严重程度)。


    作者开发可扩展的软件基础设施,让全球不同的评分员群体进行大规模评分。为了缩小评分者之间的评分差异,作者通过改进评分指南和创建测验来验证评分者对任务的理解和对工具的熟悉程度以提高评分一致性。当参考标准从使用评分者的多数意见更新为由小组裁定的等级时,AI 模型的性能进一步提高。为了促进裁定,作者为评分者开发了一种工具,用于双盲地异步讨论分歧并达成共识。




04

多学科专家

    AI专家对于开发AI很重要,然而,来自多学科的其他专家也同样重要(表2)。其中,临床医生在定义 AI 模型应该预测什么以满足临床相关目标方面至关重要。不同领域承担着不同环节的工作:


人工智能:通过为所需的医疗 AI 任务选择、设计或定制机器学习方法来开发 AI 算法。

业务与产品:定义产品,确定最终用户和客户,并了解自我维持企业所需的价值主张、报销和其他方面。

临床事务和运作:指导产品方向并制定和实施临床验证和数据管理策略。

数据科学与统计:广泛验证 AI 算法,了解所犯的任何错误,并探索改进的解决方案。

道德与法律:制定道德准则并了解 AI 模型的法律边界。

健康公平:确定潜在的健康差异并探索公平的解决方案,指导研究和产品决策。

人机交互与用户体验:了解技术的社会潜力和用户需求,优化端到端的用户体验。

计划和项目管理:确保个人和团队之间的顺利执行和协调。

监管和质量:确保人工智能模型符合法规,同时满足特定的质量标准。

软件工程与信息技术:从技术上将 AI 模型交付给医院,并对其性能进行持续监控。




05

医疗AI的实际效用

    AI开发者需要仔细验证以评估模型的预期性能和临床适用性。回顾性研究是在不影响患者护理的情况下证明 AI 算法的性能和泛化性性的良好开端。ARDA 最初使用来自美国、法国和印度的数据集进行训练和验证。该研究证明了ARDA 在不同种族人群中的稳健表现,并为其在随后分析的其他人群和亚群中的普遍性提供了信心。


    在回顾性验证之后,前瞻性研究可以帮助评估现实世界人类环境中的功效,包括环境变量的影响。,尽管ARDA在泰国的前瞻性研究中保持了总体性能,但该研究揭示了将AI部署到医疗保健系统中的意想不到的挑战,如在现实世界约束下拍摄的图像质量低。


    除了临床验证外,医疗器械的市场使用还需要获得监管部门的批准或许可。与当地监管机构的密切合作对于安全引入符合当地标准的设备至关重要。




06

将医疗AI应用在日常

    当 AI 被引入临床工作流程时,它需要对用户(医生)有用。例如,协助眼科医生进行糖尿病视网膜病变检查的 AI 工具并没有用处,因为他们已经具备了这方面的专业知识。因此作者将AI的用例转移到没有眼科医生的筛查环境,以受益自动诊断。


    与任何医疗设备开发一样,医疗 AI 模型开发成本高昂,并且需要漫长的验证过程。在大量投资之前测试其在现实世界中的应用的一种方法是模拟工作流程。例如,评估ARDA在无眼科专家评估的情况下为个人提供即时诊断的价值。




07

部署后监控

    对于医疗 AI 模型,建立主动监控系统至关重要,因为新用户或环境因素会影响 AI 性能。作者通过眼科医生和ARDA对随机图像样本的裁定进行比较以评估 AI 性能。这些评估可以作为反馈回路,在必要时为模型改进和模型纠正提供信息。



Xiaxia Lab

     科研|教学|数据

联系邮箱|xyu3@qq.com



点击“阅读原文”,可查看完整文章

文章转载自Xiaxia Lab,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论