

分享嘉宾:徐迟博士 华为 高级工程师
编辑整理:Alfred 北京理工大学
出品平台:DataFunTalk
导读:大家好,我是华为云的徐迟,我的研究方向是计算机辅助药物设计和新药研发。今天跟大家分享一下个性化联邦学习助力AI在药物研发中的应用。
主要围绕以下几方面展开:
药物筛选的挑战和关键问题
AI药物研发探索与实践
个性化联邦学习助力AI在药物研发中的应用
1. 新药研发的意义

新药研发的意义是非常大的。目前世界上一共有4500种疾病,其中有90%都是无药可治的。复杂性的、突发性的疾病会非常严重的损害人们的生命健康,所以研发新药是一个非常刚性的需求。
新药研发也是医药产业发展的一个很重要的需求,现在全球的医药产业的规模是非常大的,并且是一直在快速增长的。2019年全球药品(处方药)的市场总金额达到了1.11万亿美金,创新药大概占了1/3。新美乐累计销售额达到了1500亿美金,索菲不韦上市当年的销售额突破了100亿美金。
2. 药物研发的流程
新药研发的流程大概包括药物发现、预临床研究、临床研究和审批上市。其本质是针对指定的靶点,不断地设计、筛选、优化化合物,从成百上千的化合物中挑选出对靶点有效的一个化合物,并且满足对人体安全性要求。
3. 药物发现的挑战和关键问题

药物发现有很多的关键挑战和问题。新药研发的特点可用四个词来概括:高风险,高投入,高回报和长周期。高投入,前面已经介绍过了,15年前平均一个药上市投入大概是八亿美金,五年前达到了26亿美金。据统计,平均一个新药研发上市大概要12年的时间。如果从靶点设计开始计算时间的话,那么它的耗时会更加漫长,而且前期的探索内容会很多,一般是由大学或研究机构来进行的,转化慢是研究周期长的一个原因。
1. 近年来药物研发领域发生了哪些技术变革?

近些年药物研发领域其实累积了很多的新技术。信息技术的快速发展使得我们可以更好地收集、整合、分析海量的大数据。并且AI技术使得我们可以快速地深入挖掘这些数据,所以IT和BT的融合很有可能成为新药研发的一个新范式。AI药物研发,其实是一个非常复杂的系统工程,它涉及到了物理、化学、生物以及AI技术。
2. 人工智能可以加速新药研发的多个环节

AI技术包括监督学习、强化学习、生成模型、可解释器和图计算等等。麦肯锡公司已经预测了人工智能的十大发展趋势,可以通过AI技术来快速地获得低成本的新型药物和治疗方式。每一个子领域都可以用相关的AI技术来进行赋能和辅助加速。比如,大分子抗体的优化,蛋白质结构的预测,多组学的分析和生物标记物的发现等等。
3. 人工智能药物发现概念开始得到验证
人工智能药物研发这个概念从2016年就开始被提出来,到2019年的时候已经得到了一些验证。现在有很多AI公司和药企达成了AI合作项目,并且一些药物已经进入了临床。比如,非常有名的InsilicoMedicine应用自己的AI平台快速发现了DRY1的候选。从立项到发现候选药物只用了46天的时间,但这个流程以前往往是要花几年的时间。这个案例也比较显著地显示了AI能够提升药物研发的效率。
4. 华为云医疗智能体AI平台

我们团队主要是做华为云医疗智能体AI平台。这个平台主要是基于华为的Ascend+Kunpeng服务集群和ModelArts的一站式开发平台和管理。上面我们集成了医疗领域的更多的算法、工具、模型和一些自动化的流水线。我们最终的目的是希望能打造一个全站、开放和专业的企业级的研发平台。
5. 药物所&EIHealth合作成果
① iPhord——从一级序列预测蛋白质/抗体3D结构

对于小分子药物研发来说,靶点蛋白的结构是非常重要的。经常把靶点蛋白比喻成一把锁,药物就像一个钥匙。如果这个锁的结构不够清楚的话,那么寻找钥匙就会比较困难。比如,新冠病毒就是一个全新的病毒,在没有实验提出新冠病毒相关靶点的情况下,研究人员其实很难进行相关业务设计的。我们和药物所合作利用开放数据库database里面一些高质量的蛋白质3D结构,通过AI算法以蛋白质一级序列来预测它的三级结构,从而预测一些未知结构的蛋白质3D结构。
今年,谷歌在蛋白质结构预测上取得了非常好的结果。但其实它还是有一些问题没有解决,比如小分子药物结合诱导蛋白质构象的变化,还有蛋白和蛋白的相互作用。这些可能也会在后续的研究中来重点关注。
② 药物重定向预测——老药新用,加速药物寻求新应用

就像前面介绍的一样,药物研发的周期很长,投入很高。所以如果研发后期发生失败的话,代价是非常高的。但是有一个比较高效的方法就是老药新用。因为已经上市的药物,其实已经知道了它的相关的副作用,并且通过了相关的安全性评估,那么在这个基础上继续去研发的话,就可以加速药物研发的进度。比较有名的例子是沙度利安,它是用于多发性髓瘤的治疗。
③ AutoOmics——快速发现生物标记物,加速临床研究

和药物所科学家一起合作开发了多组所学的自动建模工具AutoOmics来快速发现生物标记,加速过程床研究。我们提供了一个新的多模型方法,可以使得AI模型的构建和训练自动进行。
④ 利用华为云高性能算力,加速药物筛选

利用计算机进行药物筛选来寻找能够治愈疾病的分子,因为寻找治疗疾病分子其实是科学家非常关心的一件事情。根据靶标和小分子的3D结构来计算病毒蛋白和药物之间的结合,从而实现从海量的小分子里面筛选出与病毒蛋白结合最紧密的候选药物,从而快速的为药物研发和临床试验提供一个方向。我们通过华为的15000核的超大算力,快速地完成了新冠21个蛋白与8500个药物的筛选工作。把筛选时长从原来的30天缩短到了一天。这项工作作为ACS期刊的JCIM的封面文章,现在已经发表。
6. 药物扩展空间数据集:DrugspaceX

像前面介绍,已知药物为出发点的效率是最高的。所以我们根据现有的药物活性和天然化合物的结构,利用官能团的转化得到了一个规模在一亿左右的化合物库DrugspaceX。它无论是在新颖性、多样性还是长效性上都还是比较好的,这为我们进行药物筛选提供一个很好的基础。
7. 面对疫情 快速启动 应急攻关
去年疫情期间,我们和药物所在内的很多家单位紧密配合,开展了相关的药物研发。一月份的时候,成立了抗新冠病毒攻关团队。二月份我们筛选到了新冠的抗病毒候选小分子。此外,我们还利用华为云针对新冠蛋白的其他靶点,构建一个沟通量的虚拟筛选,除了3CL水解酶以外,还包括木瓜类蛋白酶和RNA酶筛选老药天然化合物和一些商品化合物。




1. 联邦学习:一种分布式机器学习技术

联邦学习是非常有价值的分布式学习的概念。药物本身作为研发数据,它是有非常巨大的价值的,它本身被视为商业机密,所以基本上不太会共享。联邦学习,作为一种分布式的学习,就可以很好的打破这种数据壁垒,突破药物的数据孤岛。
联邦学习基本的流程是,各个参与的药厂公司或研究所从一个指定的中心服务器下载一个空的AI算法,在本地利用自己的数据来训练这个模型,然后把参数加密以后上传到中心服务器进行聚合,再反复迭代。
2. 药物所&EIHealth合作成果
① 基于AutoGenome构建药物研发AI算法

选择使用药物结构预测水溶性强弱,使用药物结构预测心脏毒性和使用药物结构预测AKT1活性来举例。首先,中心服务器下放的空模型是很重要的,必须把空模型的算法做好,之后才可以把这个模型下放到各个成员,让他们不断更新迭代。所以针对这个模型的选型,首先是用自己的算法AutoGenome来构建相关的任务。上图中可以看到,我们是在三个任务显示了我们AutoGenome的算法和传统方法的性能比较。
② FedAMP——个性化联邦学习整合算法

在得到一个很好的基础模型以后,算法本身也是很重要的。通常大家基本上是用FedAvg(平均化的联邦)。但我们提出了FedAMP(个性化的联邦),因为直接平分平均化的联邦不是特别合理。比如说会遇到数据投毒的问题,或者是每家的数据质量不一样,如果有的标签是错误的话,直接把这个模型的权重平均化,就可能会导致模型的污染。所以个性化联邦首先检测每个产品方的模型权重,我们会让权重的相似度分布比较接近的贡献会更大一些,然后如果他们不那么相似的话,那么参与方之间的模型的贡献就会稍小一些。这样很好地区分好质量和差质量,以及正确Label和错误Label的参与方。在这上图的几个实际案例里面,我们也发现FedAMP的性能是优于FedAvg的。
3. 药物联邦学习服务

基于华为云ModelArts平台发布了药物联邦学习来帮助药企更方便的使用。利用联邦学习,只要通过简单的四步就可以:
第一步是盟主创建联邦;
第二步就是盟主邀请合作方加入联邦,让参与者同意加入;
第三步就是联邦成员的部署代理,配置联盟运行环境;
最后,盟主发起联邦,各个成员就可以实时的看联邦状态,进行联邦结果的查看等。
4. 大规模药物虚拟筛选云服务

利用云平台可以比较方便地进行药物筛选结构的可视化,并且用超大算力很好地提高药物筛选的效率。这个工作就是针对新冠蛋白做的,每一行就是一个药物,每列就是一个蛋白,中间是展示结合的一个情况。这是我们的一个云平台,大家也可以上传自己的数据,进行提交筛选的任务。
Q:安全聚合使用的是什么方式来保护参与方的模型的参数?
A:因为数据在客户本地,相当于是模型上传到中心服务器之前进行相关的加密操作。
今天的分享就到这里,谢谢大家。
在文末分享、点赞、在看,给个3连击呗~
分享嘉宾:

关于我们:
🧐分享、点赞、在看,给个3连击呗!👇




