暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

开源 Apache Cassandra 5.0 数据库正式发布,提供AI支持

通讯员 2024-09-12
562

2024年9月7日消息,开源 Apache Cassandra 5.0 数据库终于正式发布。新的数据库更新为企业提供了提高性能、AI 支持和提高数据效率的承诺。

新版本是自 2021 年 Apache Cassandra 4.0 发布以来的首次主要版本号更改。2022 年还有一个 Apache Cassandra 4.1 更新,增加了可扩展性功能,从那时起,重点就一直放在 5.0 上。Apache Cassandra 是部署最广泛的数据库技术之一,被包括 Apple、Netflix 和 Meta 在内的知名组织以及所有类型的企业使用。Cassandra 是作为多利益相关方开源技术开发的。多个商业供应商都支持 Cassandra,包括 DataStax 以及 Amazon Web Services、Microsoft Azure 和 Google Cloud 上的托管数据库产品。

Cassandra 一直具有的一个关键优势是它是一个大规模分布式的 NoSQL 数据库,它使组织能够在不同位置拥有多个节点,这些节点都保持同步。在 5.0 中,分布式特性通过新的索引方法得到了极大的提升,该方法还提高了整体性能。

Apache Cassandra 5.0 还标志着 Cassandra 的正式开源版本中的向量搜索支持首次亮相。一些商业 Cassandra 供应商,特别是 DataStax,在该技术成为官方稳定 5.0 版本的一部分之前很久就集成了 vector 支持器。

“我们改变了索引在 Cassandra 中的工作方式,这是很大的变化,”开发人员关系副总裁兼 Apache Cassandra 提交者 Patrick McFaddin 告诉 VentureBeat。“它不仅是向量,也是我们执行正常索引的方式。”

为什么 Cassandra 的新数据索引对企业用户很重要

新的数据索引方法将为企业用户提供各种好处。

McFaddin 说,这意味着现在开发人员可以更轻松地使用 Cassandra,并且他们不受非常严格的数据模型的约束。他指出,以前,在数据建模练习中,组织必须非常具体地说明数据模型的构建方式。

“现在我们放宽了要求,”他说。“你可以构建数据模型,进行更改,然后添加索引,以不同的方式使用该数据模型。”

Apache Cassandra 的新索引方法特别值得注意的是,它以高度分布式的方式工作。

“我们的用户在全球拥有 5 个同步的数据中心,位于一个跨越全世界的集群中,”McFaddin 说。

Cassandra 5.0 如何提高数据密度和性能

除了新的索引方法之外,Cassandra 5.0 还引入了统一的压缩策略,可显著提高每个节点的数据密度。

“每个节点可能有 10 TB 或更多,而不是每个节点有 4 TB,”McFadin 说。

每个节点拥有更多数据的能力将通过降低大规模部署的硬件要求来帮助企业用户。它还将降低与管理较少节点相关的运营成本

Cassandra 5.0 还引入了一对新的数据结构,称为 trie memtables 和 trie SSTables。McFadin 解释说,这些功能更改使数据结构保持一致,以实现更快的处理速度并提高数据库的整体性能。他指出,通过调整从用户到磁盘的数据结构,数据库可以减少做不必要工作的时间,从而显著提高性能。

“简而言之,当您查找内存或磁盘或类似数据时,数据库必须经历这个庞大的转换过程,”McFadin 解释说。“trie 功能的作用是使所有内容保持一致,因此不需要进行转换。”

Apache Cassandra 的未来是 ACID 事务

随着 Apache Cassandra 5.0 的正式发布,开源社区可以将全部注意力转向下一步。

McFadin 指出,Cassandra 5.1 的工作实际上自 2023 年 11 月以来一直在进行,此前 5.0 版本的功能冻结生效。展望未来,Cassandra 项目正在努力实现完整的 ACID(原子性、一致性、隔离性、持久性)事务。

“这可能是 Cassandra 数据库 15 年来最令人兴奋的事情,”他说。

文章转载自通讯员,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论