大型语言模型 (LLM) 在医疗保健、金融、教育和社交媒体等各个领域取得了重大进展。LLM理解和处理大量复杂数据的能力在这方面被证明是无价的。
在医疗行业,临床医生依靠广泛的数据源(例如临床记录、实验室结果、生命体征和观察结果、医学照片和基因组数据)来提供高质量的护理。尽管生物医学AI取得了显着进步,但当今使用的大多数人工智能模型仅限于处理单一任务并分析单一模式的数据,很难同时分析多个来源的信息,例如,同时从临床记录和基因序列中获得有意义的见解。
然而,改变医疗人工智能的潜力在于完善的基础模型,它可以通过上下文学习或几次微调来适应不同的任务和设置。这些模型使用自我监督或无监督学习目标对大量数据进行训练。

为了应对这一限制,谷歌研究院和谷歌 DeepMind 的合作推出了 MultiMedBench,这是一个由 14 种不同生物医学任务组成的特殊基准。该基准测试是开发和评估通用生物医学人工智能系统的宝贵资源,包含 7 种生物医学数据类型,拥有超过 100 万个样本。MultiMedBench 中包含的任务涵盖了广泛的困难,例如回答医学问题、分析皮肤病学和乳房 X 光检查图像、生成和总结放射学报告以及识别基因组变异。

作为研究的一部分,该团队还开发了 Med-PaLM Multimodal (Med-PaLM M) 的概念验证模型,这是一种能够理解和编码各种类型生物医学数据的大规模多模态生成模型。它正是通过使用MultiMedBench 的开源基准对 PaLM-E(Google AI 的一种语言模型)在医学领域进行微调和改进而构建的。

Med-PaLM M 展示了卓越的灵活性,在 MultiMedBench 上的所有任务中都表现出色,通常大幅优于专业模型,甚至超过 PaLM-E,证明了使模型适应生物医学数据的重要性。
构建大规模生物医学人工智能背后的关键思想是使用语言作为不同任务的通用框架。这使得人工智能能够结合各种来源的知识,并更有效地跨任务转移技能。令人兴奋的是,初步证据表明 Med-PaLM M 可以推广到新的医疗任务和概念,并在无需特定训练的情况下执行多模态推理。例如,它可以仅使用基于语言的指令和提示来准确识别和描述胸部 X 光片中的结核病,尽管它以前从未在图像中遇到过这种疾病。
为了评估 Med-PaLM M 的临床适用性,放射科医生对 AI 生成的跨模型规模的报告进行了评估。Med-PaLM M 的临床显着错误率与之前研究中的放射科医生的错误率相当,这表明其具有潜在的临床实用性。在对 246 份回顾性胸部 X 光检查进行的并排排名中,在高达 40.5% 的病例中,临床医生表示对 Med-PaLM M 报告的偏好高于放射科医生生成的报告。

此外,它展示了对医学概念和任务的零样本泛化,表明该模型能够针对未经过明确训练的医疗情况进行推理和决策。这对于生物医学人工智能模型来说是一个令人难以置信的有前途的进步。
MultiMedBench 和 Med-PaLM M 的开发不仅引入了新的多模式生物医学基准,而且还展示了第一个通用生物医学人工智能系统,该系统在多项任务上的性能可与最先进的专家模型相媲美或更优。这代表着生物医学 AI 领域向前迈出了重要一步,它为未来创建人工智能驱动的医疗解决方案提供了充满希望的可能性。Med-PaLM M 中新兴功能的证据,例如零样本医学推理、对新医学概念和任务的泛化以及跨任务的积极迁移,提示了此类系统在下游数据稀缺的生物医学应用中的巨大潜力。
但在这些进步能够完全应用于现实世界的医疗保健环境之前,还需要进一步的研究和开发。同样,虽然通用生物医学人工智能系统在医疗应用有无限潜力,但用于训练和验证的大量生物数据的可用性仍然是一个挑战。但随着生物医学数据生成和创新的不断增加,此类模型的潜在影响和应用一定会持续扩大,从基础生物医学发现到护理服务。
我们正处于医疗数据分析和应用方式潜在突破的边缘。这场革命有望带来更好的干预措施、改善患者护理并加快研究速度。因此,所有医疗保健利益相关者和参与者都需要了解并关注这些快速发展的人工智能技术。
本文只代表个人的观点,不包含任何投资建议;文中信息不当或不准确的地方,欢迎留言或私信指正。文章信息均来自于公开可获取的内容,文章附图均来自于公开可获取的渠道,若涉及隐私及保密信息或若有侵权请联系删除。




