暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

案例 | 用大数据预测病人状况来拯救生命

Cloudera中国 2016-03-18
238
点击上方“公众号” 可以订阅哦!
1
综述
Cerner公司, 一个长期以来在医疗保健IT领域内占据着领先地位的公司,现在正处于一场革新之中。今天,它所提供的解决方法和服务在全世界超过14,000家的医疗机构,比如医院、集成送货网络、移动办公室以及医生办公室被广泛使用着。

但是Cerner的目标不止于提供软件和解决方案。该公司正在将更多的精力放在电子医疗记录(EMR)上面,以此来全面改善医疗与护理服务。Cerner致力于将世界范围内的医疗保健数据同质化并规范化,从而减少成本,增加医疗保健服务的效率,同时也提升病人的治疗效果。

公司通过由Cloudera 企业数据平台 (EDH) 支撑的大数据平台,建立了一套全面的人口健康体系。
2
挑战
正如Cerner的副总裁及院士David Edwards所描述的一样,“我们的愿景是将所有的这一类信息都集中到一个共有的平台,然后让它变得有意义 – 结果证明,这确实一个很有挑战性的问题。”

当Cerner团队开始搭建这一平台时,他们设定了几个关键的目标。这个平台需要:

▪  能够集中世界上所有的健康数据
 安全的,可追踪的,以及能审计
 可归类并可发掘
 任何时候,对任何需求都能用

“在我们第一次尝试建立这个共有平台时,我们立即就遇到了障碍,“Ryan Brush说道,他是Cerner高级总监及杰出工程师。“当时大多数能用的工具都不太适合解决这个全球医疗保健数据挑战所带来的量级和复杂性。我们一开始比较谨慎-只是在医疗记录中建立了搜索索引-即便如此,也要消耗大量的计算资源。”

要往前推进这个项目,Cerner需要一个切实可行的方法能让庞大的数据集消耗大量CPU资源,同时不能失去敏捷性。

“我们需要在搜索处理算法上的快速复制能力”,Brush继续说。“我们原来的事件驱动模型使我们可以通过事件管道来运行所有数据,但显然并没有优化我们想做的事情。”
关键亮点
行业
▪  医疗保健

位置
▪  总部:美国密苏里州堪萨市
▪  世界各地均有分支机构

所支持的业务应用
▪  全面了解人口健康数据来提升病人治疗和效果

影响
▪  从无限数据源聚合海量数据的无可比拟的能力
▪  改善病人诊断,可衡量增加挽救病人的数量
▪  提升医疗保健设施在运营和财务上的表现

投入使用的技术
▪  Hadoop平台:Cloudera 企业数据平台版
本 (EDH)
▪  使用的组件:Apache Crunch,Apache HBase,Apache Hive, Apache Kafka, Apache Oozie, Apache Storm,Cloudera Manager,MapReduce
▪  服务器: HP
▪  Data Mart: HP Vertica
B▪  I以及分析工具: SAP Business Objects, SAS

大数据规模
▪  目前在Cloudera上超过2PB的数据量
▪  多租户环境支持数百名客户
相比之前只能孤立地看拼图的一小块,我们现在在治疗成果和财务上都能取得非常好的成效。这都是因为我们能将所有数据汇集到一起,并按需取值。企业数据平台使我们可以真正做到这一点。”
Ryan Brush, 高级总监和杰出工程师,Cerner

3
解决方案
Cerner团队在寻找新锐技术来帮助他们克服传统方法中存在的限制。Apache Hadoop提供了一个可行的方案。2009年,Brush从Apache下载了原始开源代码,而且已经在几个不同的用例上取得了出色的成果。在2010年,他采用了Cloudera包含Apache Hadoop的发行版 (CDH),因为它与Apache HBase的集成可以随意访问Hadoop中的数据。

当Cerner决定在2013年搭建其基于Hadoop的综合人口医疗平台时,团队已经明白他们需要合作伙伴。“Hadoop是一个非常复杂的技术生态系统,而我们是一个医疗保健公司,不是一个基础架构公司”,Edwards解释说。“我们决定寻找一个能够帮忙解决基础架构问题的合作伙伴,让我们可以把精力集中在我们一直在试图解决的真正和医疗保健相关的问题上。”

Edward的团队选择了几家领先的商业Hadoop供应商加入进来,并且提出了以下的评估标准,细分到对每一项服务的打分:

▪  管理工具
▪  可扩展性以及性能
▪  支持品质和选择
▪  提供培训
▪  有能力完成数据科学和专门分析
▪  在开源Hadoop社区中的参与和领导地位
▪  与合作伙伴的集成
▪  安全
▪  高可获性和灾难恢复选项
▪  数据管理工具
▪  价格

Cloudera获得了最高评分。Cerner早已了解并喜欢CDH,而且对于Cloudera一直积极为开源社区作代码贡献的工程师,他们也心存尊敬。这些都让更进一步的决定变得更简单。

Brush补充说,“除了我们评估的定量结果以外,我们感觉Cloudera的方法和我们的理念更加契合。比如说建造一个更加简单而且规范的资料库来扩充平台的受众。我们也很高兴看到像Crunch和Kite这种核心开源项目是由Cloudera的工程师在负责。”

现在,Cerner的企业数据平台在一个多租户的环境中存储了超过2PB的数据,支持着几百个客户。“我们的部署在快速扩张,因此我们使用了Cloudera Manager来进行管理”,Edwards说。“它提供了一个整体环境的整体视角,并且让我们可以从一个中心点来管理多个集群。”

该平台摄取不同的EMR,HL7,健康信息交易,医疗保险赔付数据,从专营的或者客户所属的数据源定制抽取,用Apache Kafka来摄取实时的数据流,然后用Apache Storm将数据推送到合适的HBase或者HDFS集群。Cerner同时也在尝试将其他实时组件添加到这个平台,比如说Apache Flume, Apache Samza (孵化中),以及Apache Spark。
数据通过大容量加载 (bulk load) 的方式,从Cloudera环境迁移到Cerner的HP Vertica数据市场,让数据科学家、SAP BO用户以及SAS用户都可以与Hadoop数据交互使用,可以用所熟悉的工具进行广泛的报告和分析。这帮助他们理解要改善某人口群体会带来的最大的风险和机会。比如说,Cerner给处理多个慢性病的质量分数进行计算,分析者就可以使用Business Objects来查看通过提升分数哪些病情就可以获取最大效果。最终结果是:对医疗保健资源的更好使用。

Cerner也在开始通过Hadoop上的SAS来进行深度数据科学,比如构建一个预测模型来避免再次入院。这些用例预计将很快增长。

Cerner团队也在评估像Cloudera Search和Impala之类的工具,使机构内部用户可以与Cloudera中的数据直接交互。而且,他们也在考虑通过SAS/ACCESS 到Impala的接口,将SAS直接与Cloudera连接。

Cerner也采取了措施来保证大数据平台的安全性和数据的完整性。特别是在医疗保健领域,技术解决方案只有能提供免除危机的机制,才能被认为是一项切实可行的数据管理技术。Edwards说,“我们的Cloudera环境掌握着病人的实际数据,所以必须要确保一切数据得到完全保护。我们已经设计好基础架构来确保所有信息处于多层防火墙后的安全性,从数据访问的开始即有多层授权机制。”

Cloudera建议Cerner在静止状态下给数据加密,并且与Kerberos进行集成。Edwards的团队很重视Cloudera对提升Hadoop安全所作的贡献。Cerner正在积极评估像Apache Sentry之类的工具,来补充团队现在的架构。
我们的客户反馈说,新系统因为可以比以前更有效地预测病人是否会感染,从而拯救了数百人的生命。”
Ryan Brush, 高级总监和杰出工程师,Cerner
4
影响:改善洞察,拯救生命
传统的医疗保健IT解决方案往往规模有限,且受限于特定的数据源。Cerner的EDH的特别之处在于,它汇集的数据来源数量几乎是无限的,可以用来构建对任何病人、病情和趋势的一个极其完整的描述。结果,“相比之前只能孤立地看拼图的一小块,我们现在在治疗成果和财务上都能取得非常好的成效。”Brush说。“这都是因为我们能将所有数据汇集到一起,并按需取值。企业数据平台使我们可以真正做到这一点。”

每一个运行在Cerner数据中心的项目都有其独特的价值。“显然医疗保健有许多的系统性问题。我们正在使用数据构建一个全景图来了解全局,运用这些获得的知识来解决那些问题”,Brush评论说。“比如,除了增强我们的人口健康管理产品以外,集中化的平台让我们有能力来预测出院病人因为相同或者类似病情重新入院的可能性。”

通过同样的策略,Cerner可以准确得出一个人的血液感染几率。“我们的客户反馈说,新系统因为可以比以前更有效地预测病人是否会感染,从而拯救了数百人的生命。”

Edwards总结说,“我们的真正目标是让技术变得无形,用户所看到的只是他们的努力所带来的价值。我们只想把注意力放在结果和成果上,而不是过程上。Cloudera平台就是在实现这种价值的技术,它使我们得以构建这些应用来帮助医疗保健系统改善病人慢性病管理。我们现在有能力聚合并分类这些信息,以一种前所未有的方式审视这些数据。”
关于Cloudera
Cloudera通过提供基于Apache Hadoop的首个统一化的大数据平台,正在对企业 数据管理进行变革。Cloudera为企业提供一个集存储、访问、处理、保护以及分析 所有数据的一个平台,使企业能够增加现有投资的价值,同时从根本上革新从数据 中挖掘价值的方式。Cloudera的开源大数据平台在全球使用最为广泛,而Cloudera为开源Hadoop生态系统的贡献量最大。同时作为Hadoop的领先职业教育机构,Cloudera已经培训了来自世界各地的22,000多名学员。超过1400家合作伙伴和一个经验丰富的服务团队在致力于交付更多价值。只有Cloudera可以提供主 动且预见性的支持来运营一个企业数据中心。全球各行各业的领先企业,以及公共部门的顶级机构都在生产环境中使用Cloudera。
www.cloudera.com

文章转载自Cloudera中国,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论