暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

[译文] 弥合开源数据库和数据库业务之间的鸿沟

原创 通讯员 2022-06-22
439

让一群人创建新的数据库管理系统或新的数据存储相对容易。我们之所以知道这一点,是因为在过去 5 年的计算中,为数据提供结构的工具的扩散速度有所增加,而且看起来正在以越来越快的速度增长。这在很大程度上要感谢超大规模企业和云建设者以及学者们的创新,他们只是喜欢在数据库的胆量中闲逛以证明一个观点。

但是,将开源数据库或数据存储项目转变为可以提供企业级匹配和完成并支持更广泛的用例和客户类型和规模的业务,这完全是另一回事。这是一项艰苦的工作,需要很多人、注意力、金钱和运气。

这是 Dipti Borkar、Steven Mih 和 David Simmen 在两年前推出 Ahana以将 Facebook 创建的 Presto 分布式 SQL 引擎的 PrestoDB 变体商业化时所承担的任务,并非巧合的是,与最初的Presto 的创建者采用了 PrestoSQL,现在称为 Trinio,这是 Presto 的变体,由他们的公司商业化,称为 Starburst。在任何一种情况下,这些 Presto 变体都会联合数据库和数据存储,并提供一个通用 SQL 层,允许它们就地进行查询——这是一种非常强大的功能,这是由于遗留数据库的持久性和数据的重要性所必需的。


将它们全部移动到一个地方来查询它太难了,这是公司试图创建数据仓库的方法。即便如此,数据仓库通常也只有汇总数据,虽然一旦数据进入仓库就具有方便的优势,但在仓库中获取数据(并确保它不是垃圾)是一件非常痛苦的事情。简而言之,正如我们几个月前所说,您想要在没有数据仓库的情况下进行数据分析,这与数据库行业的宠儿 Snowflake 使用其云数据仓库所做的完全相反。

越来越多的公司希望使用 PrestoDB 之类的工具来查询数据所在的位置。这就是为什么 Ahana 能够延长其在去年 8 月宣布的 A 轮融资的原因,Google Ventures、Lux Capital、Third Point Ventures 和 Leslie Capital 在其中筹集了 2720 万美元,以增加 Ahana 筹集的 480 万美元种子资金以获得于 2020 年开始。随着 A 系列的扩展,Liberty Global Ventures 是该电信公司的风险投资部门,由在整个欧洲开展业务的同一家公司以及谷歌风险投资公司的更多参与,正在为该系列再注资 720 万美元一只小猫。(我们强烈怀疑 Liberty Global 是 Ahana 的客户,但首席执行官 Steven Mih 不会对此发表评论。)这使得迄今为止的总收入达到 3200 万美元,Mih 补充说,Ahana 并不打算筹集资金。在当前的经济环境下,我们打趣说,如果有人给你钱,你就会找到接受它的理由。

在第一轮 A 轮融资的十个月里,Ahana 的员工增加了一倍多,不到 50 人,并且已经下载了超过 100,000 份其 Ahana 实施的 PrestoDB 副本。Mih 无法说出它在数据库的商业级 Ahana Cloud 实施中拥有多少付费客户。


至于增加公司的工资单,Mih 的谨慎是可以理解的。“我们希望了解全球经济正在发生的事情以及与之相关的可能不利因素,”Mih 告诉The Next Platform,避免使用R词。“如果一些潜在的问题没有发生,那么我们的发展速度会非常快。”

这种增长是由跨数据库平台进行联合查询的需求推动的,多模式数据处理的概念使这一点变得更加明显,Matt Bornstein、Jennifer Li 和 Martin Casado(其中一位OpenFlow 的创建者和 Nicira 的联合创始人之一,Nicira 为 VMware 提供了 NSX 虚拟网络堆栈),所有这些人都在世界范围内为 Andreesen Horowitz 进行良好的技术投资。

这种现代数据处理架构的核心是所谓的数据湖库——部分数据仓库来自过去的日子,部分数据湖来自 Hadoop 时代,但实际上只是便宜且深度的存储,无需使用 MapReduce 来解决机器集群上的非结构化数据。

这张来自 Mih 的图表更加清晰易读地总结了该图表的中心:

“如您所知,有大量数据被注入数据湖中,包括半结构化、结构化和非结构化数据,”Mih 解释道。“随着一切都被商品化,人们会问为什么他们应该将数据放入另一个专有存储中,比如数据仓库,以及为什么他们应该以开放格式保留它。如果他们确实试图将这些数据放入商品化存储中,那么数据仓库上的计算就是专有的。数据湖库的想法是使用开源计算,而用于 SQL 查询处理的 Presto 是主要选项之一。然后对于非 SQL 查询和工作负载,您可以使用 ML 和 AI 框架进行计算,并使用 Parquet 等格式。存储是湖边小屋的商品,而计算层确实是成本所在,

整个多模式数据处理架构有很多移动部分,如果 Ahana 要成功地将 PrestoDB 商业化并在各种关系数据存储中联合分布式查询引擎,它必须变得更容易安装和测试数据湖库的 SQL 核心。这就是新的 Ahana Cloud for Presto 社区版的全部意义所在。它是一个免费且不受限制的数据库版本,可以在任何单个集群上运行,无论大小。(大多数 Presto 客户都有多个集群,这就是订阅将开始的地方。)以下是社区版和完整的 Ahana Cloud for Presto 版之间的区别:



Community Edition 在 Amazon Web Services 云上运行,就像 Presto 的生产 Ahana Cloud 一样,只要它只在单个集群上运行——无论有多少 EC2 实例驱动它——Community Edition 都是免费的。有一些警告。社区版不支持 Graviton、Graviton2 或 Graviton3 实例,它只有社区支持。如果您想要 Ahana Cloud for Presto 企业级版本,您可以无缝升级到它,然后您可以拥有任意数量的集群并在任何 AWS 实例类型上运行,包括 AWS 为其创建的 Graviton Arm 服务器 CPU 系列自己使用。生产版本还具有更高的安全性、性能增强(例如 AWS 上的自动缩放),当然还有 Ahana 雇用的真人提供的技术支持。

现在,Ahana 可以让人们快速开始使用 Presto,并节省他们在数据湖库上设置 Presto 所需的数天或数周时间。只需抓住这个容器,打开它,将其指向数据湖库,然后开始使用 SQL 查询对其进行攻击。每一个 Community Edition 用户都可以永久使用它,并且在拥有第二个集群或需要增强的安全性或性能之前,永远不会为它付费。


作者: Timothy Prickett Morgan

文章来源:https://www.nextplatform.com/2022/06/17/bridging-the-gap-between-open-source-database-and-database-business/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论