暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数字经济5-10年的制胜局:你了解困扰企业的“数据孤岛”吗?

偶数科技 2021-02-06
3452

在信息爆炸、数字经济的环境下,数据孤岛问题受到了学术界、商业领域甚至是国家层面的广泛关注。

TechRepublic将数据孤岛定义为:一个输出远远小于输入的系统。并认为据孤岛问题是关系到所有企业、机构、组织在5-10年的“近未来”中能否生存下去的重要问题。

《哈佛商业评论》在一篇研究报告中曾提到:数据孤岛问题,将大大提高企业使用数据的成本,并且成本将随着孤岛持续存在时间的增加而持续上升。

《人民日报》也曾就数据孤岛问题刊发社论,报道中指出:消除数据孤岛、拔掉数据烟囱、补齐数据管理短板,对提升科技创新水平和效率、促进协同创新具有重大意义。

今天,就让小偶来带大家看一下,究竟什么是数据孤岛?数据孤岛带来了怎样的负面影响?企业又该如何突围这座“数据围城”?

数据孤岛的概念演变

很多人不知道,“数据孤岛”可不是一个新创的热词,最初这一概念是与如何保守商业机密紧密相关的。在18世纪的近代商业活动中,商人们将不同业务的账簿、合同等文件分别捆扎密封起来,并放入不同保险箱中保存,这便是数据孤岛最早的含义。

但随着计算机、数据科学与现代商业的持续发展,当下如果我们再提到“数据孤岛”这个词,其含义早已经与它最初的样子天差地别。

现在数据孤岛一般是指:企业将不同的业务、部门之间的数据各自存储、定义,导致企业中的数据像一个个孤岛一样被分割成若干个不易相互联动的部分。简而言之就是企业内部数据间缺乏关联性,数据库无法彼此兼容。

因其各部分之间缺乏关联性的特点,数据孤岛又被称为“数据烟囱”,这为企业发展带来了多方面的桎梏。

  • 让企业不能顺畅的进行内部数据沟通,大大影响了业务敏捷性;

  • 还变相降低了企业数据平台的有效性能,造成了严重的资源浪费。

随着大数据时代社会总数据量的持续爆发,数据孤岛对企业产生的负面影响与日俱增。

数据因何变成了“孤岛”?

数据孤岛问题的影响愈来愈大,与数字经济的持续快速发展是分不开的。

面对膨胀的数字化应用规模,企业对数据的计算需求和存储需求都呈现爆发增长的态势。许多企业因其巨大业务量产生的海量数据,由于传统数仓系统扩展性不足,无法用统一的集群承载所有的数据,只能将各个业务的相关数据都放置在分别部署的集群中。

在一些大型企业中,甚至一个业务的全部数据也要部署在多个集群之内。并且多集群之间的数据共享十分困难,为了实现数据共享只能对部分数据进行多份冗余存储,给运维带来了极大的负担。

在市场环境瞬息万变的当下,相当一部分企业为了抓住商业机会,业务需求十分紧迫,连续的快速上线新业务,这些新业务产生的数据,都被分别存储在不同部门各自的系统之中,而企业又缺乏统一的顶层设计,使得与各业务相关连的众多数据库之间缺乏联动。

还有一些企业,出于商业安全角度“不把鸡蛋全都放在一个篮子里”的考虑,选择部署多个集群,将数据分门别类的存储在不同的数据库系统中,主动的跳进了“数据孤岛”的围城之中。

数据孤岛问题的存在,使企业内部的数据交流变得十分低效,决策反应变得愈发迟钝,严重影响到企业的发展。

打破数据孤岛的“围城”

无论造成企业数据孤岛问题的直接原因是什么,根本上都是由于企业内部各数据系统之间缺乏联动、各自为战,缺少一个“大一统”式的数据系统来满足企业在数据方面的需求。

想要切实解决这一问题,就要让企业内部的系统高效联动起来或者将所有的数据和应用都置于一个数据平台当中。

许多数字化较为领先的大型企业,已经意识到了数据孤岛的严重负面影响,并开始着手通过构建统一数据平台、数据湖去解决这一问题,但在实践过程当中,却又遭遇了数据基础设施上的障碍。

受制于传统交易型数据库、MPP数据仓库十几个节点的可扩展数量上限,这些拥有海量数据的企业仍要部署多个集群,事实上只是将数据孤岛的“面积”变大、数量变少,并不能真正的解决问题。

直到近年来云原生数仓出现和成熟,使企业构建统一数据平台,消除数据孤岛出现了一条切实可行的路径。

构建统一的数据平台,需要将之前部署在多集群中分散的、不同格式的巨量历史数据汇集起来,迁移到新的系统之中。这就对数据平台的兼容性和扩展性提出了很高的要求。

云原生数仓具备很高的兼容性,以偶数科技开发的OushuDB为例:OushuDB具备完善的SQL标准、ACID特性的支持能力,兼容过去采用Oracle、DB2等传统交易型数据库、MPP数据库的数字化应用,并支持对接访问Hive、HDFS等Hadoop原生组件,从而兼容过去采用SQL-on-Hadoop数据库的数字化应用。强兼容性让企业内部的各数据系统之间能够建立顺畅的连接。

其计算、存储分离的技术架构,让云原生数仓系统支持数千节点的集群规模,尽可能避免了多集群部署情况的出现。并且企业可以根据自身业务的实际需要,自由的选择扩充数据系统内部的计算或存储节点,避免了传统数据平台因节点中存储计算绑定,而在扩充时造成的资源浪费现象,使构建“大一统”式的数据平台变得可行且易行。同时云原生架构的高性能使得数仓系统的查询速度十分迅捷,满足了企业对决策依据及时性的需求。

此外强共享性的架构特点让云原生数仓即便不得不采取复数集群部署的模式,也能够以很低的成本实现集群间的数据共享。就像是在原本会成为数据孤岛的各集群之间架起了宽阔通畅的桥梁。

云原生数仓打破了数据孤岛的围城,不仅使企业能够有效沉淀数据资产,实现高效的数据共享利用,更大程度的发挥数据价值,而且还会为企业数据基础设施未来的进化奠定坚实的基础,为企业实现长期发展提供更有力的支撑。


偶 数 科 技

⌈偶数科技⌋是一家领先的AI和大数据产品、解决方案提供商,致力于赋能全球各行业客户。公司的愿景和使命是 “让人类只为兴趣而工作”。偶数科技的产品已在金融、电信、制造、公安、能源和互联网等行业得到广泛的部署和应用。目前⌈偶数科技⌋已经获得多轮国际顶级VC的投资,是微软加速器成员企业,并入选美国著名商业杂志《快公司》“中国最佳创新公司50”榜单。

推荐阅读

 探秘“数据管理”70年:从人工管理到人工智能

∞ 数据奔腾向云 加速暴增之时:数据库行业的2021会是什么样?

∞ “开源、自研、新机遇”偶数科技携手PostgreSQL中文社区共论开源事业未来蓝图

最后修改时间:2021-02-06 09:50:14
文章转载自偶数科技,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论