暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Hubble硬核技术干货集锦——多源异构

原创 Hubble 2023-01-30
1796

在“拿来主义”的数据库市场中,天云数据坚定不疑地走硬核路线。十余年沉浸在数据库技术世界里,如今天云数据HTAP数据库Hubble融合了Oracle交易和MPP数仓的数据库替代升级,在新型大数据环境中扮演了越来越重要的角色。

酒香也怕巷子深,细说Hubble数据库硬核技术——多源异构

一、什么是多源异构?

多源异构:简单来说就是多个数据源,不同的数据存储架构。

多个数据来源,可以是 Mysql、Oracle这些数据库中文件;也可以是一些非结构化的 HDFS、ES等非结构化数据库中的文件;还可以是有通过 WEB 页面传递过来的 RESTful、Josn 字符串。

异构主要指数据结构上的差异性。数据结构层把纷繁复杂的数据归为三大类,针对每一类数据设计了相应的数据存储模型,确保了城市操作系统的扩展性和一致性。这三类数据包括:

结构化数据:以银行系统数据为代表,通常以人或者机构的ID为锚点来聚合不同的信息,如名称、职业、收入等;后续会演变出基础库、主题库、专题库等一系列组织形式。

非结构化数据:以视频、图像、语音和文本为代表,后续大多需要经过分析处理变成结构化数据才能被使用。

时空数据:以地理信息、物联网、轨迹数据为代表。

二、为什么要用多源异构?

随着大数据与人工智能技术的应用普及,海量多源异构数据急剧增加,特别是非结构化数据的增加,当遇到复杂多场景混合事务分析型数据管理必然要涉及水平拆分,一旦进行拆分,就避免不了“原本在同一数据库里的查询,就变成跨多个数据库实例的查询”问题。

随着技术的不断迭代,现在的数据库不仅仅只有关系型数据而且也有Nosql数据库等,这就对跨库关联提出了更大的挑战。

大数据的核心就是多源异构,每个源的数据都有自身的逻辑,有不同的形式进行描述。

而如何把多个数据源、不同存储架构的数据进行统一治理、融合、分析,体现出整体数据中的现象和规律就很有必要。

三、Hubble硬核技术价值

Hubble数据库通过插件模式设计可以把Mysql、Oracle、Hbase、Hive等作为数据源,同时支持跨数据源查询。提供适配的多源异构数据资源接入方式,包括数据源的配置、数据任务的同步、数据的分发与调度、数据的ETL加工等。

Hubble可以做到:

  1. 统一服务入口,接入各类数据库源系统;

  2. 自由编写SQL,实现数据访问服务;

  3. 无需将数据完全搬迁,即可以现有数据即席分析探查。

“技术至上,技术人员至上”的理念让天云数据在技术上“开花结果”,述说着属于Hubble的硬核故事。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论