Hubble硬核技术干货集锦——多源异构

原创 Hubble 2023-01-30

1796

在“拿来主义”的数据库市场中，天云数据坚定不疑地走硬核路线。十余年沉浸在数据库技术世界里，如今天云数据HTAP数据库Hubble融合了Oracle交易和MPP数仓的数据库替代升级，在新型大数据环境中扮演了越来越重要的角色。

酒香也怕巷子深，细说Hubble数据库硬核技术——多源异构。

一、什么是多源异构？

多源异构：简单来说就是多个数据源，不同的数据存储架构。

多个数据来源，可以是 Mysql、Oracle这些数据库中文件；也可以是一些非结构化的 HDFS、ES等非结构化数据库中的文件；还可以是有通过 WEB 页面传递过来的 RESTful、Josn 字符串。

异构主要指数据结构上的差异性。数据结构层把纷繁复杂的数据归为三大类，针对每一类数据设计了相应的数据存储模型，确保了城市操作系统的扩展性和一致性。这三类数据包括：

结构化数据：以银行系统数据为代表，通常以人或者机构的ID为锚点来聚合不同的信息，如名称、职业、收入等；后续会演变出基础库、主题库、专题库等一系列组织形式。

非结构化数据：以视频、图像、语音和文本为代表，后续大多需要经过分析处理变成结构化数据才能被使用。

时空数据：以地理信息、物联网、轨迹数据为代表。

二、为什么要用多源异构？

随着大数据与人工智能技术的应用普及，海量多源异构数据急剧增加，特别是非结构化数据的增加，当遇到复杂多场景混合事务分析型数据管理必然要涉及水平拆分，一旦进行拆分，就避免不了“原本在同一数据库里的查询，就变成跨多个数据库实例的查询”问题。

随着技术的不断迭代，现在的数据库不仅仅只有关系型数据而且也有Nosql数据库等，这就对跨库关联提出了更大的挑战。

大数据的核心就是多源异构，每个源的数据都有自身的逻辑，有不同的形式进行描述。

而如何把多个数据源、不同存储架构的数据进行统一治理、融合、分析，体现出整体数据中的现象和规律就很有必要。

三、Hubble硬核技术价值

Hubble数据库通过插件模式设计可以把Mysql、Oracle、Hbase、Hive等作为数据源，同时支持跨数据源查询。提供适配的多源异构数据资源接入方式，包括数据源的配置、数据任务的同步、数据的分发与调度、数据的ETL加工等。

Hubble可以做到：

“技术至上，技术人员至上”的理念让天云数据在技术上“开花结果”，述说着属于Hubble的硬核故事。

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者