2023年6月28日,Databricks在其数据 + AI 峰会上推出了其所谓的 Lakehouse Federation 功能。利用这一新功能,企业可以将各种孤立的数据系统整合在一起,跨各种平台发现、查询和管理数据,包括 MySQL 和 PostgreSQL 数据库,以及 Amazon Redshift、Snowflake、Azure SQL 数据库、Azure Synapse 和Google 的 BigQuery,具有由 Databricks 的Unity Catalog提供支持的治理功能。
Databricks 联合创始人兼首席技术专家 Matei Zaharia 告诉我:“[Lakehouse Federation] 致力于扩展我们的平台,以便轻松管理和查询其他系统中的数据。” 他解释说,这项新功能的核心功能之一是查询联合,它允许用户连接不同的数据源并高效地查询它们,同时本质上将其视为 Databricks 内部的标准数据库。
通常,公司可能在为应用程序提供支持的 PostgreSQL 数据库中拥有实时数据,但分析师可能希望将其与数据仓库中的历史数据结合起来,并跨两个系统进行查询。使用 Lakehouse Federation,Databricks 现在可以处理此查询计划(并根据需要缓存数据以保持系统性能)。
当然,理想情况下,Databricks 希望每个人都使用其平台,但现实是,即使企业希望简化其基础设施,移动数据平台也非常困难。“这使您至少可以拥有一个供用户使用的界面以及一个进行管理的位置,”Zaharia 解释道。通常,公司会尝试在内部构建这样的系统,这往往成本高昂且复杂(并且经常失败)。
Zaharia 还指出,Databricks 在这方面有一个有趣的优势,因为它的产品是基于 Apache Spark 构建的,而 Spark 开源生态系统包括各种各样的连接器,Databricks 可以使用这些连接器来构建像 Lakehouse Federation 这样的产品,而无需重新构建许多核心集成工具。
这里的一个优势是,Databricks 还将其数据治理功能分层,使公司能够更轻松地管理跨平台的数据访问。例如,微软长期以来也通过其 Purview 治理解决方案押注于这一点。现在,数据治理比以往任何时候都更加受到企业的关注。
“我们让组织能够通过一个系统访问他们所需的所有数据,这将带来更多创新,而该创新的最大优点是它不会牺牲安全性。通过使客户能够轻松一致地应用规则跨平台并跟踪数据使用情况,我们将帮助他们满足合规性要求,同时推动他们的业务发展,”Zaharia 说。
文章来源:https://sg.news.yahoo.com/databricks-builds-data-mesh-launch-130006395.html?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAAKcDMpop0Lc9FJJXuhInlUxHhNRZzH-mKYSvohOuWOIqPzewweM3yMP_shXyILE9C0ajsmK_pzWJM1SU89CqfPZPg7sp7KwI1nXYBuzufulvvJf_RWQHANTdlk6zNR35VWi6E5IstAUQJZlR-R-UbWG2rr9ExhyupADRLK_m7t0d




