暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

使用 Delta 共享的三大数据共享用例

原创 谭磊Terry 恩墨学院 2022-09-16
418

随着各种规模的公司希望与客户、供应商和合作伙伴安全地交换数据,数据共享已成为推动业务价值的重要组成部分。根据Gartner 最近的一项调查,促进数据共享的组织将在大多数业务价值指标上优于同行。

现有的数据共享解决方案存在各种挑战,限制了组织内部或跨组织的数据共享,未能实现数据的真正价值。在过去的 30 年中,数据共享解决方案有两种形式:本土解决方案或第三方商业解决方案。借助自主研发的解决方案,数据共享已建立在 SFTP 和 REST API 等传统技术之上,这些技术已变得难以管理、维护或根据新的数据需求进行扩展。或者,商业数据共享解决方案仅允许您与利用同一平台的其他人共享数据,这限制了数据共享并且可能成本高昂。

这些挑战使我们在 Databricks 重新思考数据共享的未来是开放的。在 2021 年数据 + AI 峰会期间,我们宣布了Delta Sharing,这是世界上第一个用于安全和可扩展的实时数据共享的开放协议。我们在 Delta Sharing 背后的愿景是构建一个数据共享解决方案,以简化跨组织的安全实时数据共享,独立于数据所在或使用的平台。借助 Delta Sharing,组织可以轻松共享基于 Apache Parquet 和 Delta Lake 格式的现有大规模数据集,而无需移动数据,并使数据团队能够灵活地使用他们选择的工具查询、可视化和丰富共享数据。

image.png

自私人预览版发布以来,我们已经看到各行各业的客户积极参与协作和开发适合目的且对所有人开放的数据共享解决方案。客户已经使用 Delta Sharing 共享了数 PB 的数据。自宣布以来,Delta Sharing 合作伙伴生态系统也得到了发展,商业和开源客户端都具有内置的 Delta Sharing 连接器,例如PowerBI、Pandas 和 Apache Spark™,许多其他连接器即将发布。

通过与客户的对话,我们确定了三个常见的用例:数据商业化、与外部合作伙伴和客户的数据共享以及业务线数据共享。在这篇博文中,我们探索了每一个最重要的用例,并分享了我们从客户那里听到的一些见解。

用例 1:数据商业化

客户示例:一家金融数据提供商希望通过其传统数据交付渠道减少运营效率低下,并使最终客户更轻松地无缝访问大型新数据集。

挑战

这家数据提供商最近推出了新的大型文本数据集,定期生成数 TB 的数据。提供对这些大型数据集的快速和轻松访问一直是数据提供者面临的一项持久挑战,因为数据集难以为数据接收者批量摄取。使用当前的解决方案,提供商必须将数据复制到外部 SFTP 服务器,这有许多潜在的故障点和增加的延迟。

在接收方,由于其规模和规模,摄取和管理这些数据并不容易。数据接收者必须设置用于摄取的基础设施,这进一步需要 IT 和数据库管理员的批准,导致最终消费者开始使用数据之前可能需要数周甚至更长时间才能完成的延迟。

Delta 共享如何提供帮助

借助 Delta Sharing,数据提供者现在可以无缝地共享大型数据集,并克服 SFTP 服务器的可扩展性问题。这些必须分批提取到 SFTP 的大 TB 大小的文本数据集现在可以通过 Delta Sharing 实时访问。提供者现在可以简单地授予和管理对数据接收者的访问权限,而不是复制数据,从而降低复杂性和延迟。随着可扩展性的提高,数据提供者看到客户采用率显着提高,因为数据消费者可以访问实时数据,而不必定期提取数据集。

用例 2:与外部合作伙伴/客户共享数据

客户示例:一家大型零售商需要与合作伙伴轻松共享产品数据(例如,谷物 SKU 销售),而无需与他们使用相同的数据共享或云计算平台。该零售商希望创建基于 SKU 的分区数据集,以便合作伙伴轻松实时访问相关数据。

挑战

这家零售商正在利用本土 SFTP 和 API 与合作伙伴共享数据,这变得难以管理。该解决方案需要大量的开发资源来维护和运行。该零售商查看了其他数据共享解决方案,但这些解决方案要求其合作伙伴在同一平台上,由于成本考虑和跨不同区域复制数据的运营开销,这对所有各方都不可行。

Delta 共享如何提供帮助

Delta Sharing 对零售商来说是一个令人兴奋的提议,可以跨云平台有效地管理和共享数据,而无需跨区域复制数据。该零售商发现通过 Delta Sharing 可以轻松地为 100 多个合作伙伴管理、创建和审核数据共享。对于每个合作伙伴,零售商都可以轻松创建分区并安全地共享数据,而无需在同一个数据平台上。除了让共享的管理变得简单之外,Delta Sharing 还最大限度地降低了成本,因为数据提供商只需要从底层云提供商那里产生数据出口成本,而不必为数据共享支付任何计算费用。

用例 3:与业务线共享内部数据

客户示例:制造商希望其 15 多个部门和子公司的数据科学家能够访问许可数据以构建预测模型。由于数据敏感性,制造商希望通过强大的治理、控制和审计能力来做到这一点。

挑战

该制造商部署了许多数据湖,使整个组织的团队难以安全有效地访问数据。以定制的方式管理整个组织中的所有这些数据,对权利和治理没有强有力的控制。此外,其中许多数据集的大小为 PB 级,导致人们担心可扩展地共享这些数据的能力。如果没有适当的数据访问控制和治理,管理层对于共享数据犹豫不决。结果,制造商错过了释放价值并为数据科学团队提供更多独特见解的独特机会。

Delta 共享如何提供帮助

借助 Delta Sharing,制造商现在能够在不同的内部实体之间管理和共享数据,而无需移动数据。Delta Sharing 让制造商可以从单一执行点授予、跟踪和审核对共享数据的访问权限。无需移动这些大型数据集,制造商就不必担心管理不同的服务来复制数据。Delta Sharing 使制造商能够以比预期更快的速度安全地共享数据,从而带来立竿见影的好处,因为最终用户可以开始使用以前孤立的独特数据集。制造商也很高兴将内置的 Delta Sharing 连接器与PowerBI 结合使用,这是他们用于数据可视化的首选工具。

Delta 共享入门

Delta Sharing 让与其他组织共享数据变得简单,无论他们使用哪种数据平台。我们很高兴分享第一个提供开放和安全解决方案的解决方案,该解决方案无需专有锁定,可帮助数据团队轻松共享数据、管理跨组织的隐私、安全性和合规性。

要在 Databricks 上尝试 Delta Sharing,请联系您的 Databricks 客户主管或注册以获得早期访问权限。对于我们的许多客户而言,在共享数据时,治理是首要考虑因素。Delta Sharing 与Unity Catalog原生集成,使客户能够添加细粒度的治理和安全控制,从而轻松安全地在内部或外部共享数据。在您的 databricks 帐户中启用 Unity 目录后,请尝试以下快速入门笔记本以开始在 Databricks 上使用 Delta 共享:

创建共享并向数据接收者授予访问权限
连接到共享并访问数据
要试用开源 Delta Sharing 版本,请按照delta.io/sharing上的说明进行操作。

原文标题:Top Three Data Sharing Use Cases With Delta Sharing
原文作者:Jay Bhankharia, Itai Weiss, Matei Zaharia and Sachin Thakur
原文地址:https://www.databricks.com/blog/2022/01/14/top-three-data-sharing-use-cases-with-delta-sharing.html

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论