数据特征
(1)数据异构
多平台,多种接口,数据类型没有一个标准,只能是点对点的对接大量数据,内容冗杂,过程繁复,速度缓慢。
(2) 主题分散性
就诊信息分布在不同的平台上,不能够形成以患者为中心的所有电子化就诊信息集成,不能提供完整、全面、准确、及时的患者临床信息。
(3)数据量大
在大数据背景下,行业应用的数据量通常都以亿级别计算,存储通常在TB/PB级别甚至更多。
(4)数据多态
数据模型在数据出现之后才能确定,数据模型随着数据量增长不断演变。
数据价值
数据流通
院内流通、院外流通
例如:从信息科流通到临床医务人员,从医院流通到卫生管理部分,从省内医院流通到省外医院
数据开放
面向个人:如查阅报告、健康评估、健康档案等;
面向企业、政府:调阅病理取证、获取群体用药信息、医疗数据监管等
数据挖掘
科研:科研统计分析和深度挖掘,如疗效分析等;
临床:如手术风险评估、预测模型建立等;
其他:医院管理、趋势分析等
产品介绍
产品的定义
颐东数仓依据卫生部统计信息中心2011年发布的《基于电子病历的医院信息平台建设技术解决方案》建立标准化医院数据资产目录。
颐东数仓以医院基础业务活动为索引,提供HIS、LIS、EMR等多数据源业务表字段绑定规则。实现零代码绑架,业务人员即可通过页面配置绑定规则。
颐东数仓将根据配置自动生成调度任务,并通过Hadoop生态圈sqoop技术实现对业务系统的数据抽取。提供全量数据抽取与增量数据抽取两种方式,抽取过程实现透明、可追溯。
解决的问题
(1) 实现以患者为中心的医疗信息采集、清洗、存储、加载和决策辅助。保障原始数据来源追溯、主数据标准唯一、数据应用及时高效。
(2) 实现基于数据中心的全量数据,构建应用主题库,为医院临床辅助、精细化运营管理、科研管理提供强有力的数据支撑。
(3) 实现“数据湖”数据资产目录,提高数据价值。
(4) 实现亿级别数据量查询、统计、分析秒处理展示。
产品功能
数据集成
院内分散、异构数据依据颐东数仓资产目录表字段规则映射,并通过ETL工具实现历史数据、实时数据抽取转换。业务系统或集成平台之间进行数据字典与码表的映射转换,解决系统之间的数据一致性问题。新旧系统切换或系统升级,历史数据在新编码体系和分类体系下的转换和对接。
数据稽查
用户可以根据需求上传需要比对的数据及相应标准,通过软件对数据进行一致性和准确性稽核。
疾病稽查
源编码 | 源名称 | 稽核后编码 | 稽核后名称 |
K50.003 | 节段性回肠炎 | K50.002 | 回肠克罗恩病 |
D57.304 | HB-S特性 | D57.300 | 镰状细胞特性 |
P12.801 | 先锋头 | P12.800 | 头皮产伤,其他的 |
注:数据稽核执行标准为“《疾病分类与代码》(GBT 14396-2016)国标版”,“稽核后编码”为标准编码,“稽核后名称”为标准编码对应的名称,供客户参 考。 |
药品稽查
源编码 | 源名称 | 稽核后编码 | 稽核后名称 |
10710031 | 枇杷叶膏 | 30102095 | 枇杷叶 |
10710017 | 儿童清肺丸 | 31599039 | 儿童清肺 |
12101053 | 环精煎 | 30606019 | 还精煎 |
12101049 | 六味地黄丸 | 30604090 | 六味地黄 |
12102023 | 颈复康冲剂(颗粒) | 31101304 | 颈复康 |
10605020 | 消痔灵 | 31402052 | 消痔灵 |
注:数据稽核执行标准为“国家药管平台药品基本数据库(3.0版)”,“稽核后编码”为标准编码,“稽核后名称”为标准编码对应的名称,供客户参考。 |
医疗知识库
主数据管理
共用代码 | 药品字典 | 疾病字典 | 手术字典 | 检查检验 | 费用代码 |
国籍 名族 | 药品名称 | 疾病编码 | 手术编码 | 检验项目 | 费用类别 |
婚姻 职业 | 生产厂商 | 疾病名称 | 手术名称 | 样本类型 | 费用类型 |
籍贯 职称 | 剂型 规格 | 诊断类别 | 手术级别 | 采集部位 | 保险类别 |
职务 血型 | 给药方式 | 主编码 | 手术方式 | 检查项目 | 收费项目 |
性别 亲属 | 用药频率 | 附加编码 | 麻醉方式 | 检查部位 | 核算项目 |
肿瘤形态 | 检查方式 | 项目类型 | |||
学编码 |
疾病、手术标准
类别 | 标准名称 | |||||||||||
疾病 |
| |||||||||||
手术 | 《手术操作分类与代码》(2017版) 国家临床1.1版手术与操作(ICD-9-CM-3)北京2018版 北京版RC022-ICD-9手术编码 北京市住院病案首页手术操作名称与代码标准V5.0版本 北京市住院病案首页手术操作名称与代码标准V6.01版本 国家临床版2.0手术操作编码(ICD-9-CM3)
|
产品应用
1)数据治理⬇
数据治理是治理多元异构的数据,治理数据资产,突出医疗价值,确保数据质量控制数据治理的过程要确保数据的完整性(事件、表单、记录、表项),一致性(主数据一致性、逻辑一致性),唯一性(无二义冗余、指标及计算口径),及时性,原始性,可溯源性及可测量性。
解决的问题:数据重复、一码多病、数据杂乱、脏数据多
治理的方案:通过颐东数仓建立院内数据资产目录索引大数据中心
2)大数据中心⬆

3)数据集市⬆
根据临床科室构建应用主题库,为医院临床辅助、精细化运营管理、科研管理提供强有力的数据支撑。
4)数据上报⬆
解决针对卫计委统计信息中心以《江苏省健康信息平台共享数据集》为基准上传的数据的数据稽核与表结构转换。
5)精准治理⬆
单病种科研知识库,辅助治理。
产品特性
(1)多种数据源
支持多种数据源,一键接入,无需繁琐配置。
(2)零代码
简单易用的用户体验,零代码建立传输任务,降低企业用户使用门槛。
(3)实时融合
实时的数据融合与集成,不让延迟成为瓶颈,保证数据的时效性。
(4)开箱即用
简单快速的安装流程,高效部署生产环境,即装即用。
(5)错误队列预警
群集监控、故障排除、扩容扩展、应急处理,完善纠错与预警机制。
(6)安全审计
数据审计、数据盘点、权限认证、隐私处理
(7)全程质量管控
高质量体系保障数据传输的安全性与准确性,真正实现数据无忧。
(8)数据服务
开放接口,开放数据,开放服务,支持第三方嫁接服务
(9)大数据生态系统
Hadoop生态系统中集成了大量的工具和组件来满足不同计算和存储需求,比如HDFS分布式文件系统、HBase列式数据库、Hive数据仓库、Kafka服务编排、MapReduce服务调度、impala类SQL数据仓库等,可以方便地进行数据存储和分析计算
产品架构

数据仓库(ETL) + 自然语言处理(NPL)+大数据技术(Hadoop)+安全通信(OAuth2.0、密码学、CAS)
建设方案
一、数据资产目录建设
依据卫生部信息化工作领导小组办公室卫生部统计信息中心2011年3月发布的《基于电子病历的医院信息平台建设技术解决方案——业务部分》。
临床服务域
包含12个二级类目:患者标识、患者服务、入出转、医嘱、病历文书、护理文书、检验、检查、手术麻醉、治疗、输血、健康体检,业务子域共计26个。
医院管理域
包含4个二级类目:医疗管理、人力资源管理、财务管理、物资及后勤服务管理。共有业务子域共26个。
平台应用域
包含5个二级类目:区域医疗协同、管理决策、临床决策、公共卫生信息上报、患者公众服务。共有业务子域20个。
梳理建设以业务活动为核心的数据资产目录,如图一:

二、数据中心建设
根据业务活动创建主题,如图二:

梳理数据元标识符,保证每一个数据元的标识符具有唯一性(基本数据集:城乡居民健康档案、疾病管理、医疗服务、电子病历等)
1、数据元标识符“DE08.10.052.00”来源依据《TCHIA 7.3-2018 高血压专科电子病历数据集 第3部分:高血压门(急)诊处方》,如图三:

2、数据允许值“WS218--2002”来源依据《WS 218-2002 卫生机构(组织)分类与代码》,如图四:

关联映射业务系统表字段,并创建调度任务,如图五:

映射多表情况下,需要选择关联表主外键字段,如图六:

调度任务可支持针对单表、全表,历史数据抽取,实时数据监听抽取俩种模式,如果图七:

三、数据质量质控
具有对数据质量进行评估的完整的指标体系。至少应该有完整性(事件、表单、记录、表项),一致性(主数据一致性、逻辑一致性),唯一性(无二义冗余、指标及计算口径),及时性,原始性,可溯源性及可测量性。
四、数据中台建设
根据数据资产目录快速定位业务主题,如图八:

根据不同业务场景,自定义勾选数据元名称,自动生成API或新的主题库(数据集市)。




