暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据治理 ETL解决方案

CTO老王 2019-09-11
1022


数据特征 同样也是医院面临的问题

1)数据异构

多平台,多种接口,数据类型没有一个标准,只能是点对点的对接大量数据,内容冗杂,过程繁复,速度缓慢。

2 主题分散性

就诊信息分布在不同的平台上,不能够形成以患者为中心的所有电子化就诊信息集成,不能提供完整、全面、准确、及时的患者临床信息。

3)数据量大

在大数据背景下,行业应用的数据量通常都以亿级别计算,存储通常在TB/PB级别甚至更多。

解决问题 剖析医院数据使用困境

(1)  实现以患者为中心的医疗信息采集、清洗、存储、加载和决策辅助。构建医疗信息咨询、检索、展示和医疗决策支持平台。

(2)  基于数据中心的全量数据,构建应用主题库,为医院临床辅助、精细化运营管理、科研管理提供强有力的数据支撑。

(3) 实现亿级别数据量查询、统计、分析秒处理展示。

 

产品介绍

产品概述

ETLExtraction-Transformation-Loading)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETLBI(商业智能)项目重要的一个环节。

 

产品框架

 


数据集中:全量数据、数据清洗、数据适配、数据存储

数据标准化:主数据、词汇字典、数据映射

实施服务:多量数据在线、多种接口形式、快速查询、降低业务负载

安全审计:数据审计、数据盘点、权限认证、隐私处理

运维监控:群集监控、故障排除、扩容扩展、应急处理

 

1)全量历史结构化数据采集

通过图形化的数据采集核对工具,对历史数据进行采集、清洗和存储。同时支持监测采集数据和原系统数据对比,保证数据条目的一致性、时效性。

2)结构化流数据清洗治理

数据质量治理、数据清洗、数据关系串联、数据重组

待图

3)结构化数据实时接入

采用Flume技术,完成医院实时数据的转换接入

待图

3)非结构化数据实时接入

采用Flume技术,完成医院实时数据的转换接入

待图

5)数据标准体系

集中管理主数据、数据元标准化定义、自动同步基础数据

 

6)数据安全体系

数据安全审计、数据盘点核对、数据脱敏处理、集群运维监控

 

7)大数据生态系统

Hadoop生态系统中集成了大量的工具和组件来满足不同计算和存储需求,比如HDFS分布式文件系统、HBase列式数据库、Hive数据仓库、Kafka服务编排、MapReduce服务调度、impala类SQL数据仓库等,可以方便地进行数据存储和分析计算


8)对外开放数据服务

通过丰富的对外服务方式,提供实时的信息查询,降低业务系统压力,保证数据全生命周期的完整性和关联性,支持第三方智能化应用等嫁接服务

 

 

产品优势

 

1)多种数据源

支持多种数据源,一键接入,无需繁琐配置。

2)零代码

简单易用的用户体验,零代码建立传输任务,降低企业用户使用门槛。

3)大规模开发

支持大规模数据集成,(待修改)。

4)实时融合

实时的数据融合与集成,不让延迟成为瓶颈,保证数据的时效性。

5)开箱即用

简单快速的安装流程,高效部署生产环境,即装即用。

6)错误队列预警

完善的纠错机制与系统状态监控,迅速预警数据问题。

7)多种目的地

支持多种数据目的地,轻松同步,高效利用数据。

8)全程质量管控

高质量体系保障数据传输的安全性与准确性,真正实现数据无忧。

9)极速处理

对数据仓库大规模数据查询的优化,数据处理时,可以以极快的速度处理存储在HDFS中的数据。

 

技术优势

 

(1)具体实时计算分析能力

(2)通过并行任务调度提高计算速度

(3)高性价比,使用低成本存储和服务器构建

(4)高吞吐量,支持高吞吐量访问,消除访问瓶颈

(5)高扩展性,无需停机动态扩容,同时支持横向扩展

(6)高可靠性,支持数据自动检测并保存多份副本,支持任务重新分配

(7)高效性,各数据节点支持动态平衡,保证高速的处理速度

 

 

文章转载自CTO老王,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论