在“拿来主义”的数据库市场中,天云数据坚定不疑地走硬核路线。十余年沉浸在数据库技术世界里,如今天云数据HTAP数据库Hubble融合了Oracle交易和MPP数仓的数据库替代升级,在新型大数据环境中扮演了越来越重要的角色。
酒香也怕巷子深,细说Hubble数据库硬核技术——多源异构。
一、什么是多源异构?
多源异构:简单来说就是多个数据源,不同的数据存储架构。
多个数据来源,可以是 Mysql、Oracle这些数据库中文件;也可以是一些非结构化的 HDFS、ES等非结构化数据库中的文件;还可以是有通过 WEB 页面传递过来的 RESTful、Josn 字符串。
异构主要指数据结构上的差异性。数据结构层把纷繁复杂的数据归为三大类,针对每一类数据设计了相应的数据存储模型,确保了城市操作系统的扩展性和一致性。这三类数据包括:
结构化数据:以银行系统数据为代表,通常以人或者机构的ID为锚点来聚合不同的信息,如名称、职业、收入等;后续会演变出基础库、主题库、专题库等一系列组织形式。
非结构化数据:以视频、图像、语音和文本为代表,后续大多需要经过分析处理变成结构化数据才能被使用。
时空数据:以地理信息、物联网、轨迹数据为代表。
二、为什么要用多源异构?
随着大数据与人工智能技术的应用普及,海量多源异构数据急剧增加,特别是非结构化数据的增加,当遇到复杂多场景混合事务分析型数据管理必然要涉及水平拆分,一旦进行拆分,就避免不了“原本在同一数据库里的查询,就变成跨多个数据库实例的查询”问题。
随着技术的不断迭代,现在的数据库不仅仅只有关系型数据而且也有Nosql数据库等,这就对跨库关联提出了更大的挑战。
大数据的核心就是多源异构,每个源的数据都有自身的逻辑,有不同的形式进行描述。
而如何把多个数据源、不同存储架构的数据进行统一治理、融合、分析,体现出整体数据中的现象和规律就很有必要。
三、Hubble硬核技术价值
Hubble数据库通过插件模式设计可以把Mysql、Oracle、Hbase、Hive等作为数据源,同时支持跨数据源查询。提供适配的多源异构数据资源接入方式,包括数据源的配置、数据任务的同步、数据的分发与调度、数据的ETL加工等。
Hubble可以做到:
统一服务入口,接入各类数据库源系统;
自由编写SQL,实现数据访问服务;
无需将数据完全搬迁,即可以现有数据即席分析探查。
“技术至上,技术人员至上”的理念让天云数据在技术上“开花结果”,述说着属于Hubble的硬核故事。




