虽然新兴的下一代数据架构群——结构、网格和云——极具吸引力,但它仍然充满未知数。这些方法为更大程度的数据民主化提供了机会,但也增加了复杂性。
在转向此架构之前,了解数据结构和网格之间的区别也很重要。
数据网格是一种高度分散的自助服务架构,其中数据集由跨企业的业务部门管理或控制。Data Fabric 是一种更加集中的架构,它支持元数据,旨在集成不同的、多个数据平台和管道,从而简化对这些资产的访问。“Data Fabric 强调数据的虚拟化和集中化,通过集成位于不同系统和不同云环境中的不同数据源来创建统一的数据基础架构,”Launch Consulting 的数据经理 Anil Dangol 说。“另一方面,数据网格强调数据的去中心化,提倡将数据作为一种产品,每个团队都拥有数据产品。”
Neo4j 的首席科学家 Jim Webber 指出,织物和网格“都处于技术发展的早期阶段”。Information Today, Inc. 的一个部门 Unisphere Research 对 200 多名 IT 领导者进行的一项调查发现,人们对这些现代数据架构持谨慎态度。虽然只有不到五分之一的企业在使用数据网格和结构架构的某些变体,但许多企业都在谨慎地关注这些技术(“向现代数据架构的转变:2022 年数据交付和消费模式调查”,2022 年 5 月)。
相反,基于云的架构相对成熟,并且正在提供更强大的功能。“几乎所有正在构建新数据格局的组织都在利用基于云的技术,”凯捷洞察和数据副总裁史蒂夫琼斯说。“即使是传统的提取、转换和基于负载的架构也能从云的力量中获益,使动态容量能够加快处理速度,而无需大规模的持续基础设施。”
数据“是数字支持的核心,当今大多数组织正在从一刀切的数据战略转向更现代的平台,该平台专注于支持数据产品、重点数据存储、机器学习或人工智能解决方案,以及其他数据服务,”Altimetrik 的数据架构师 Pranabesh Sarkar 说。“重点是建立一个集成的数据生态系统,利用建立在数据湖、网格或数据结构上的基础。”
Jones 解释说,转向数据结构和网格需要对数据管理和分析流程进行广泛的重新思考。公司“仍在学习如何从被动的、交易后的数据架构过渡到支持数据驱动组织的架构。这与其说是架构问题,不如说是治理和文化问题。一些组织已经进行了转向数据网格基础设施的技术转变,但如果没有相关的文化改变,他们最终会陷入相似的境地——只是使用不同的技术。”
构建数据结构可能比网格更容易过渡。目前,“企业越来越倾向于结构,以便他们能够掌握数据,”Webber 说。“这是我们在 Neo4j 上看到的一种常见模式,带有元数据知识图。Mesh 似乎适合那些更喜欢冒险的人,团队将他们的数据提供到网格中供其他人使用。” Webber 补充说,目前最引人注目的网格用例是帮助“孤立数据的可发现性和重用性”。
近年来,数据被提升并转移到云中,这也产生了自己的问题。
“然而,随着这种快速迁移,涉及到很多数据设计模式,需要将数据复制到多个不同的地方,”Dangol 说。“它没有完全将数据作为一种产品来解决,这带来了很多挑战,例如数据治理和安全、存储、质量和数据生命周期管理。数据网格和数据结构试图以自己的方式解决这些问题。”
Exasol 的首席技术官 Mathias Golombek 说,数据网格的吸引力源于“将数据视为一种产品,这将数据所有权责任推给了具有领域理解的团队来创建、编目和存储数据”。“在数据创建阶段执行此操作可以提高数据的可见性并使其更易于使用,并阻止任何人类知识孤岛的形成。这开启了数据民主化。员工可以专注于实验、创新以及从数据中创造更多价值。无论如何,这就是理论。”
实现的优势
建立在云上的数据结构和网格可能会以前所未有的方式开放数据流程。“在技术层面,下一代数据架构支持更好的数据发现和访问,从而实现数据民主化、简化和敏捷的数据流、更快的洞察力和价值实现时间,以及人工智能应用产业化的能力,”他说。 Kyndryl 数据和人工智能服务执行董事兼首席技术官 Naveen Kamat。“在业务层面,这可能意味着您现在正在实现从客户体验到生产力和收入最大化的一系列全新业务成果。”
通过下一代数据架构实现数据的快速可用性意味着更快速的业务响应。Jones 说:“运营速度数据将改善业务成果,在这种情况下,行动时的洞察力会推动更好的业务绩效。” “这是下一代数据架构的矛尖,着眼于数据驱动应用程序存在的位置,而不是简单地将数据转储到数据存储中的应用程序。然后看看谁受益,以及谁负责提供这些利益。最重要的是,专注于你想要实现的文化变革。”
普华永道 (PwC) 数据、分析和 AI 合伙人布雷特·格林斯坦 (Bret Greenstein) 表示,随着它们以各自的步伐前进,这些下一代架构已成为新兴数据现代化工作的关键组成部分——只有约 20% 的公司已经完成了这些工作。“最初,在 3 到 5 年前,公司通过将他们拥有的遗留数据系统提升并转移到云中来采用云。这是一种快速的方法,但它对实现新的业务成果或简化和加速企业中的数据流没有任何作用。然而,在过去几年中,更具战略性的数据现代化方法已成为实现下一代数据架构的主导模式。这种方法利用数据网格原则,在云端,
总的来说,去中心化的数据创建“带来了更多的可见性,并使数据更容易消化和使用,”Golombek 说。“它还有助于真正实现数据民主化,因为数据消费者不必担心数据发现,可以专注于实验、创新和从数据中产生新价值。由于分散的数据操作和配置的数据基础设施即服务,数据网格带来了更大的敏捷性和可扩展性,团队专注于相关的数据产品。它还支持创建一个联合的全球治理,以实现互操作性并简化对数据的访问。”
遇到的障碍
转向下一代数据架构是一段旅程,而不是一夜之间的冲刺。“它们的设计和实施可能很复杂且具有挑战性,需要专业知识和专业知识,”CData 高级技术布道者 Jerod Johnson 说。“这会使组织难以充分理解和利用这些架构提供的功能。” 此外,“采用下一代数据架构可能需要对现有系统和流程进行重大更改,这既困难又耗时。将新技术与遗留系统集成可能是一项具有挑战性的任务,可能需要额外的资源、专业知识和测试。”
还有资金问题和商业承诺。“现代架构的实施和维护成本可能很高,需要在硬件、软件和人员方面进行大量投资,”约翰逊说。“这对某些组织来说可能是一个障碍,尤其是较小的组织。”
Redgate Software 的产品倡导者 Grant Fritchey 说,即使在大型企业中,也没有“足够的知识和经验的人来适当地运行这些东西”。“您最终不仅会得到不安全或无法正常运行的数据存储,还可能会丢失数据,或者更糟糕的是,会增加不必要的成本。”
此外,实施数据网格或数据结构可能会在大型企业中取得更大的成功,但对于小型公司或初创公司来说过于复杂。“它可能适用于每个团队拥有自己特定领域的大型组织,但不适用于 IT 人员管理和拥有公司所有数据的小型组织,”Dangol 说。
Dangol 补充说,网格的其他挑战包括数据一致性、数据治理、数据质量、复杂性和互操作性。对于 Data Fabric,挑战包括“各种源系统的复杂数据集成,确保在集中式环境中进行适当的数据治理,维护可扩展的基础架构、数据质量以及在中央环境中维护数据的成本。”
数据安全也是一个问题。“新系统也会引入新的安全风险,尤其是在处理大量敏感数据时,例如基于云的数据架构,”Johnson 说。“组织将需要投资安全措施来防范这些风险,这可能既昂贵又复杂。一些组织可能有必须满足的法规要求,而下一代数据架构可能无法遵守这些法规。这可能会使某些行业(例如金融或医疗保健)的组织难以采用这些架构。”
随着这些下一代架构发挥作用,还需要加强数据治理。“数据是一种不可思议的资产,但如果管理不当,它也可能成为一种不可思议的责任,尤其是在合规性方面,”Webber 说。“虽然网状基础设施有助于解决这个问题,但归根结底,你会遇到人员问题。人们真诚地发布他们团队的数据,却发现它真的不应该被分享。治理也会阻碍结构。掌握企业的数据,即使使用此类工具,仍然是一项艰巨的任务,因为通常有多个所有者认为他们的数据是权威的。快刀斩乱麻很难,因为这是一个涉及很多人的人事问题。”
Jones 表示,企业方面要求“对数据负责,将实际业务 KPI 与数据有效性相关联,而未能交付则被视为业务风险和成本”。此外,他补充说,新方法需要克服“与 IT 保持一致的数据团队仍然固守传统的交易后、以报告为中心的数据方法。这意味着对操作控制和准确性的需求被对数据质量管道和手动清理的关注所取代。从以报告为中心的交易后数据仓库转变为企业拥有的、运营速度和洞察力驱动的数据网格的挑战是一种文化挑战——技术只是将这种转变工业化。”
成功的步骤
与任何突破性技术一样,业务需求是第一位的。“开始使用下一代数据架构几乎总是需要从清楚地了解您的业务开始——战略目标、主要利益相关者、当前环境中的痛点、财务限制以及当前环境的成本,”Greenstein 说。“这些是定义正确目标以启动您的业务架构和路线图的基本要素。”
开放的沟通和协作至关重要。“确保所有相关利益相关者都了解这些变化,并确保将使用新架构的团队得到适当的培训,”约翰逊说。“这将有助于最大程度地减少对您组织业务的干扰,并有助于确保顺利过渡到新架构。”
此举还需要解决一系列问题和担忧。“你需要解决你的文化问题,并将你的技术挑战确定为去中心化与集中化、可扩展性、面向产品的数据思维和文化转变,”Dangol 说。“数据网格或数据结构不是一种工具或软件,而是一种管理数据的新思维方式。在数据网格中,我们需要映射数据的部门所有权以找到合适的平衡点。一旦奠定了基础,您就需要找到合适的工具,并确保您拥有正确的架构和对数据的质量控制。”
Sarkar 说,构建下一代数据架构“需要勤奋和良好的规划”。“许多组织仍在努力摆脱中央数据团队建设和管理整个数据平台的传统方法。在新方案中,核心团队的任务是构建和管理具有可重用组件和通用框架的核心平台,以摄取、转换和处理数据,然后其他团队利用这些数据来构建和管理他们的数据产品. 每个组织的旅程都会有所不同。然而,主要原则和原则将基本保持不变。”
原文标题:Data Fabric, Data Mesh, And the Cloud: Data Management Architectures for the Future
原文作者:Joe McKendrick
原文链接:https://www.dbta.com/Editorial/Think-About-It/Data-Fabric-Data-Mesh-And-the-Cloud-Data-Management-Architectures-for-the-Future-157252.aspx




