暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Databricks 的 Confluent Streaming:在 Lakehouse 上构建可扩展的实时应用程序

原创 谭磊Terry 恩墨学院 2022-09-16
598

对于许多组织而言,大规模的实时数据收集和数据处理可以为业务和运营洞察力提供巨大优势。对实时数据的需求带来了技术挑战,需要熟练的专家经验来构建自定义集成以实现成功的实时实施。

对于希望实施流式实时应用程序的客户,我们的合作伙伴 Confluent 最近宣布了一个用于 Confluent Cloud 的新 Databricks 连接器。这种全新的全托管连接器专为数据湖库而设计,提供强大的解决方案来构建和扩展实时应用程序,例如应用程序监控、物联网 (IoT)、欺诈检测、个性化和游戏排行榜。组织现在可以使用一种集成功能,将 Confluent Cloud 中的遗留数据和云数据直接传输到 Databricks Lakehouse,以在单个平台上实现商业智能 (BI)、数据分析和机器学习用例。

image.png

利用最好的 Databricks 和 Confluent

通过 Confluent Cloud 将数据直接流式传输到 Databricks 上的 Delta Lake 极大地降低了编写手动代码以构建自定义实时流式管道和托管开源 Kafka 的复杂性,节省了数百小时的工程资源。Delta Lake 提供了传统数据湖所缺乏的可靠性,使组织能够直接在其数据湖上运行分析,从而将获得洞察的时间提高 50 倍。流数据进入 Delta Lake 后,您可以将其与批处理数据统一起来,构建集成数据管道,为您的任务关键型应用程序提供动力。

image.png

2. 使用 SQL 分析为分析师和业务用户流式传输数据

在构建业务就绪型 BI 报告时,查询新鲜且不断更新的数据是一项挑战。处理静态和动态数据需要不同的语义,并且通常需要不同的技能组合。Confluent 为多个数据库提供 CDC 连接器,这些数据库导入最新的事件数据流以作为 Databricks 中的表使用。例如,杂货配送服务需要对购物者可用性数据流进行建模,并将其与实时客户订单相结合,以识别潜在的运输延迟。使用 Confluent 和 Databricks,组织可以在Databricks SQL中准备、加入、丰富和查询流数据集,以对流数据执行极快的分析。

Databricks SQL 的性价比比传统数据仓库高出 12 倍,解锁了数千种优化,为实时应用程序提供增强的性能。最好的部分?它与流行的 BI 工具(如 Tableau 和 Power BI)预先集成,因此流数据已准备好进行一流的 SQL 开发,允许数据分析师和业务用户以熟悉的 SQL 语法编写查询并构建快速仪表板以实现有意义的见解。

3. 使用流数据的 ML 模型进行预测分析

使用 ML 模型构建预测应用程序来对历史数据进行评分需要自己的工具集。将实时流数据添加到组合中,复杂性会变得多倍,因为模型现在必须根据静态历史数据集对新数据进行预测。

Confluent 和 Databricks 可以帮助解决这个问题。通过将来自多个数据源的最新事件流馈送到您的 ML 模型中,转换流数据的方式与您对批处理数据执行计算的方式相同。Databricks 的协作机器学习解决方案标准化从实验到生产的整个 ML 生命周期。ML 解决方案基于 Delta Lake 构建,因此您可以直接从 Confluent Cloud 将千兆字节的流式源数据捕获到 Delta 表中,以创建 ML 模型、实时查询和协作处理这些模型。还有许多其他 Databricks 功能,例如自动化实验跟踪的托管 MLflow 和用于版本控制和基于角色的访问控制的模型注册表。从本质上讲,它简化了跨团队协作,因此您可以在生产中部署基于实时流数据的操作应用程序——大规模和低延迟。

原文标题:Confluent Streaming for Databricks: Build Scalable Real-time Applications on the Lakehouse
原文作者:Hiral Jasani
原文地址:https://www.databricks.com/blog/2022/01/13/confluent-streaming-for-databricks-build-scalable-real-time-applications-on-the-lakehouse.html

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论