数据治理 ETL解决方案

CTO老王 2019-09-11

1022

数据特征同样也是医院面临的问题

（1）数据异构

多平台，多种接口，数据类型没有一个标准，只能是点对点的对接大量数据，内容冗杂，过程繁复，速度缓慢。

（2） 主题分散性

就诊信息分布在不同的平台上，不能够形成以患者为中心的所有电子化就诊信息集成，不能提供完整、全面、准确、及时的患者临床信息。

（3）数据量大

在大数据背景下，行业应用的数据量通常都以亿级别计算，存储通常在TB/PB级别甚至更多。

解决问题剖析医院数据使用困境

(1) 实现以患者为中心的医疗信息采集、清洗、存储、加载和决策辅助。构建医疗信息咨询、检索、展示和医疗决策支持平台。

(2) 基于数据中心的全量数据，构建应用主题库，为医院临床辅助、精细化运营管理、科研管理提供强有力的数据支撑。

(3) 实现亿级别数据量查询、统计、分析秒处理展示。

产品介绍

产品概述

ETL（Extraction-Transformation-Loading）是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据， ETL是BI（商业智能）项目重要的一个环节。

产品框架

数据集中：全量数据、数据清洗、数据适配、数据存储

数据标准化：主数据、词汇字典、数据映射

实施服务：多量数据在线、多种接口形式、快速查询、降低业务负载

安全审计：数据审计、数据盘点、权限认证、隐私处理

运维监控：群集监控、故障排除、扩容扩展、应急处理

（1）全量历史结构化数据采集

通过图形化的数据采集核对工具，对历史数据进行采集、清洗和存储。同时支持监测采集数据和原系统数据对比，保证数据条目的一致性、时效性。

（2）结构化流数据清洗治理

数据质量治理、数据清洗、数据关系串联、数据重组

待图

（3）结构化数据实时接入

采用Flume技术，完成医院实时数据的转换接入

待图

（3）非结构化数据实时接入

采用Flume技术，完成医院实时数据的转换接入

待图

（5）数据标准体系

集中管理主数据、数据元标准化定义、自动同步基础数据

（6）数据安全体系

数据安全审计、数据盘点核对、数据脱敏处理、集群运维监控

（7）大数据生态系统

Hadoop生态系统中集成了大量的工具和组件来满足不同计算和存储需求，比如HDFS分布式文件系统、HBase列式数据库、Hive数据仓库、Kafka服务编排、MapReduce服务调度、impala类SQL数据仓库等，可以方便地进行数据存储和分析计算

（8）对外开放数据服务

通过丰富的对外服务方式，提供实时的信息查询，降低业务系统压力，保证数据全生命周期的完整性和关联性，支持第三方智能化应用等嫁接服务

产品优势（图）

（1）多种数据源

支持多种数据源，一键接入，无需繁琐配置。

（2）零代码

简单易用的用户体验，零代码建立传输任务，降低企业用户使用门槛。

（3）大规模开发

支持大规模数据集成，（待修改）。

（4）实时融合

实时的数据融合与集成，不让延迟成为瓶颈，保证数据的时效性。

（5）开箱即用

简单快速的安装流程，高效部署生产环境，即装即用。

（6）错误队列预警

完善的纠错机制与系统状态监控，迅速预警数据问题。

（7）多种目的地

支持多种数据目的地，轻松同步，高效利用数据。

（8）全程质量管控

高质量体系保障数据传输的安全性与准确性，真正实现数据无忧。

（9）极速处理

对数据仓库大规模数据查询的优化，数据处理时，可以以极快的速度处理存储在HDFS中的数据。

技术优势（图）

（1）具体实时计算分析能力

（2）通过并行任务调度提高计算速度

（3）高性价比，使用低成本存储和服务器构建

（4）高吞吐量，支持高吞吐量访问，消除访问瓶颈

（5）高扩展性，无需停机动态扩容，同时支持横向扩展

（6）高可靠性，支持数据自动检测并保存多份副本，支持任务重新分配

（7）高效性，各数据节点支持动态平衡，保证高速的处理速度

数据库

文章转载自CTO老王，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。