1、什么是元数据
任何系统中的数据可以分为数据和元数据。
数据是指实际的数据,就是我们能看到的一条条记录。
而元数据指用来描述一个表的特征的系统数据,比如表的字段信息、访问权限、拥有者以及数据块的分布信息等等。比如Hive中有自己的元数据,里面存了Hive每张表的表名、列信息、索引等信息。
定义:“元数据是指描述数据的数据,主要描述数据属性的信息,用来支持如存储位置、历史数据、资源查找、文件记录等功能。”
按照用途可以将元数据分为技术元数据和业务元数据。
技术元数据是指数据仓库的设计和管理人员用于开发和日常管理数据仓库用的数据,包括数据源信息、数据转换描述、数据仓库对象和数据结构的定义、数据清理和更新规则、数据源映射、用户访问权限等。
业务元数据从业务角度描述了数据仓库中的数据,提供了介于使用者和系统之间的语义层,使不懂计算机的业务人员读懂数据仓库的数据。包括数据模型、对象名和属性名等。
2、为什么要做元数据
很多数据仓库项目实战中会忽略元数据的作用,从而产生了诸多问题。

数据仓库建设者经常会忘了数据采集规则而增加工作量,用户会为数据仓库里的数据权限、数据质量而烦恼,开发人员会因不知道调用哪张表哪个字段而发愁等等问题。
因此,元数据管理是数据仓库建设必不可少的环节。
3、元数据管理的作用
在数据仓库里,元数据管理能起到意想不到的作用。
定义了数据源和数据仓库中数据的对应关系和转换规则,顺利保障了数据集成工作。
定义语义层,帮助用户理解和使用数据仓库中的数据。
借助元数据管理了解数据的来龙去脉,保障数据的质量。
有效管理数据仓库的业务流和数据流,使得系统不依赖特定人员,提升系统扩展性。
4、元数据管理标准
目前,很多数据仓库产品,对元数据都有各自的定义,都不愿与其他厂商共享,用户无法选择一家公司为其建设数据仓库,因此创建、管理和共享元数据很耗时而且容易出错。要解决这个问题,就必须用标准的语言描述和定义数据仓库元数据,并提供标准的元数据交换机制。

[x]CWM模型
OMG(Object Management Group) 对象管理组织在2000年发布了CWM规范,旨在推动数据仓库、智能商务和知识管理方面元数据的共享和交换。
CWM描述了数据仓库元数据交换的语法和语义及用于跨平台之间的元数据交换机制,它由三个部分组成。
1)CWM元数据模型
CWM元模型描述了数据仓库的组成元素,用户可以按照这些元模型开发相应的组件。
2) CWM DTD 和CWM XML
CWM提供元模型到XML的转换,各种分析工具和元数据库可以利用这些模板为自己的元模型生成DTD和XML文档,就可以和其它的工具之间进行元数据交换。
3)CWM IDL
CWM 提供CWM中规定的IDL接口,就可以被其它支持CWM的工具和数据仓库调用,这大大增强了CWM的灵活性和适用性。
目前市场上基于该标准的元数据管理工具有pentaho的metadata editor、普元metacube 、石竹metaone、Ibm datastage&Metastage。
[x]OIM模型
MDC成立于1995年,是一个致力于建立与厂商无关的、不依赖于具体技术的企业元数据管理标准的非赢利技术联盟,该联盟有150多个会员, 1999年MDC将OIM作为元数据标准。
OIM的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。OMI 采用统一建模语言UML 进行描述,并被组织成易于使用、易于扩展的多个主题范围,包括:
1)分析与设计(Analysis and Design):主要用于软件分析、设计和建模。
2)对象与组件(Object and Component):涉及面向对象开发技术的方方面面。
3)数据库与数据仓库(Database and Warehousing):为数据库模式管理、复用和建立数据仓库提供元数据概念支持。
4)业务工程(Business Engineering):包括业务目标(Business Goal)包、组织元素(Organizational Elements)包、业务规则(Business Rules)包、商业流程(Business Processes)包等。
5)知识管理(Knowledge Management):包括知识描述(Knowledge Descriptions)包和语义定义(Semantic Definitions)包。
目前市场上基于该标准的元数据管理工具有微软的Repositry和CA的Repositry。
5、元数据管理系统
目前,市场已经有很多款元数据管理产品,大多参差不齐。

开源产品:pentaho的metadata editor
商用产品:普元metacube 、石竹metaone、Informatica PowerCenter、Ibm datastage&Metastage
元数据管理功能:
1)元数据采集管理:关系数据库适配器、建模工具适配器、ETL工具、前端工具、脚本适配器、excel适配器、附件模板导入
2)元数据统一视图:元数据浏览、元数据检索、数据地图
3)元数据管理:生命周期管理、权限管理、版本管理、变更管理
4)元数据分析:血缘分析、影响分析、重要程度分析




