暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Cassandra,构建企业级实时 AI 应用的首选数据库

原创 通讯员 2023-06-08
511

为什么 Apache Cassandra 提供构建人工智能应用程序所需的可扩展性、可靠性和速度。


CREDIT: DATASTAX


作者:Patrick McFadin, DataStax 开发人员关系和 Apache Cassandra 项目的贡献者。

Netflix 跟踪每个用户的行为以即时改进其推荐引擎,然后使用这些数据来推荐用户会喜欢的内容。优步实时收集司机、乘客和合作伙伴的数据,然后更新预测引擎,通知客户等待时间或实时向司机推荐路线。FedEx 汇集了数十亿个包裹事件,以优化运营并立即与客户分享递送状态的可见性。

这些领导者在这些实时 AI 功能方面取得成功,很大程度上是因为他们能够在应用程序中移动来自客户、设备、传感器或合作伙伴的大量实时数据。这些数据反过来用于训练和服务机器学习模型。这些公司立即根据这些数据采取行动,实时为数百万客户提供服务。它们都依赖于开源 NoSQL 数据库Apache Cassandra ®

让我们来看看为什么 Cassandra 是构建企业级实时 AI 应用程序的组织的首选数据库。

实时人工智能带来的挑战

据埃森哲称,只有 12% 的人工智能计划成功实现了卓越的增长和业务转型。为什么?简而言之,数据科学家和开发人员一直在尝试在为昨天的需求而构建的复杂基础设施上为下一代业务构建最强大、最复杂的应用程序。

许多传统的 AI/ML 系统及其产生的结果都依赖于数据仓库和批处理。结果:需要一系列复杂的技术、数据移动和转换才能将这些历史数据“引入”ML 系统。这改变并减慢了从输入到决策再到输出的数据流,从而导致错失机会,为客户流失打开大门,或让公认的网络安全威胁模式不被检测和缓解。

数据的速度、类型和数量决定了预测的质量和结果的影响。实时 AI 需要大量数据来训练 ML 模型并做出准确预测或非常快速地生成新内容。这就需要一个高性能的数据库,可以为数据带来机器学习。您已经创建了正确的架构来收集和存储您的数据,而保持低成本的最佳方式是利用您拥有的资源。存储成本问题的解决方案不是增加存储空间,而是增加存储空间。它正在寻找就地处理数据的方法。

进入Cassandra

有多种数据库可用于开发实时 AI 应用程序。MySQL 或 PostgreSQL 等关系数据库可能对用户友好,但它们无法管理网络规模 AI 应用程序所需的大量数据。尽管可以使用像 Redis 这样的开源数据存储,但它们缺乏支持旨在构成业务基础的 AI 应用程序所需的持久性。

为了让实时人工智能发挥其全部潜力,作为其基础的数据库必须是:

  • 高度可扩展以管理海量数据
  • 可靠的连续数据访问
  • 足够快以轻松捕获大数据流
  • 足够灵活以处理各种数据类型。

Cassandra 是一种开源 NoSQL 数据库,其扩展性能和可靠性优于其他任何数据库。得益于基于 Cassandra 构建的实时 AI,许多公司(例如上述公司)已经转变了业务并引领了行业。为什么?

横向可扩展性:随着 AI 应用程序变得越来越复杂,它们需要能够处理不断增加的数据量。Cassandra 的分布式架构基于一致性哈希,它通过在集群中的节点(节点集合)之间均匀分布数据来实现无缝水平扩展。这确保您的 AI 应用程序可以处理大量数据增长而不会影响性能,从统计角度来看这是一个关键因素。

高可用性: Cassandra 的去中心化架构提供了高可用性和容错能力,确保您的 AI 应用程序即使在硬件故障或网络中断期间也能保持运行和响应。此功能对于实时 AI 应用程序尤为重要,因为它们的准确性和效率通常依赖于持续访问数据以进行数学建模和分析。

低延迟:对于实时 AI,必须以非常高的速率捕获用户活动产生的信号;将这些数据快速写入数据库的能力至关重要。Cassandra 的对等架构和可调一致性模型支持快速读写操作,提供实时 AI 应用程序必不可少的低延迟性能。

与许多其他数据存储不同,Cassandra 的设计方式在写入过程中不需要磁盘读取或寻道,因此将数据写入 Cassandra 的速度非常快,并且可以自由地轻松捕获传入信号——无论它们有多快到达。

它确保人工智能算法以最快的速度接收到最新的数据,从而实现更准确、更及时的数学计算和决策。

灵活的数据建模: Cassandra 的 NoSQL 数据模型是无模式的,这意味着存储数据的方法远比其他数据库灵活,从而可以存储和查询 ML 和 AI 应用程序中常见的复杂多样的数据类型。这种灵活性使数据科学家能够随着需求的变化调整他们的数据模型,而不必处理传统关系数据库的限制。

Cassandra社区

Cassandra 开源项目由一些非常聪明的工程师社区构建和维护,这些工程师来自一些最大、最先进的 AI 用户(Apple、Netflix 和 Uber 等),他们不断对功能进行现代化改造和扩展的数据库。例如,即将发布的 Cassandra 5.0 版本将提供矢量搜索,这是一项关键功能,它将为组织应对伴随 AI 工作的海量数据集提供突破性的帮助。

这些优势使 Cassandra 成为实时 AI 应用程序的可靠基础,这些应用程序需要处理大量数据,同时确保持续的数据访问、高性能和适应性。如果您的组织旨在充分发挥 AI 的潜力,那么选择正确的数据库是您旅程中的关键一步。

通过采用像 Cassandra 这样可扩展且持久的解决方案,您可以确保成功执行 AI 计划、降低成本并优化处理。是时候重新考虑您的数据基础架构并投资合适的技术来推动您的增长了。请记住,人工智能战略的成功不仅在于算法的复杂性,还在于数据管理系统的稳健性。

加入不断壮大的企业社区,通过 Cassandra 开创 AI 的未来。抓住今天的机会,让您的企业充分利用实时人工智能。

在此处(https://dtsx.io/42koib1)了解 DataStax 如何使实时 AI 成为可能


关于Patrick McFadin

Patrick McFadin 是 O'Reilly 图书“在 Kubernetes 上管理云原生数据”一书的合著者。他在 DataStax 从事开发人员关系工作,并且是 Apache Cassandra 项目的贡献者。此前,他曾在多家互联网公司担任工程和架构主管。


文章来源:https://www.cio.com/article/481641/bringing-ai-to-your-organization-better-bring-the-right-database.html

最后修改时间:2023-06-08 11:26:40
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论