DuckDB——谷歌、Facebook 和 Airbnb 使用的进程内分析数据库管理系统——已经发布了 0.5.0 版本。
DuckDB 是阿姆斯特丹 Centrum Wiskunde & Informatica 数学和理论计算研究中心的学者们的创意,它嵌入在一个主机进程中。无需安装、更新或维护 DBMS 服务器软件。
例如,DuckDB Python 包可以直接对 Python 软件库 Pandas 中的数据进行查询,而无需导入或复制数据。DuckDB 用 C++ 编写,在 MIT 许可下是免费和开源的。
DuckDB Labs 提供咨询和支持。联合创始人兼首席执行官 Hannes Mühleisen 也是该代码的共同作者并维护该项目,他告诉The Register,它受到无服务器 OLTP 数据库引擎 SQLite 的启发,他看到了类似方法的机会,但用于分析。
“我们与数据科学从业者进行了很多合作,他们都遇到了这些在计算研究中不再是理论问题的问题——它们在很久以前就得到了解决——但不知何故,软件不适合他们。随着商业软件供应商,该技术包含在其中一些软件包中,但无法访问或隐藏在许多很多层的企业废话后面,”他说。
Mühleisen 和他的联合创始人开始意识到,对 OLAP 可能需要重新考虑数据库架构。“我们采用了流程数据管理系统的想法,其中整个数据库管理器在您所在的流程中运行——例如,Python 甚至 Excel——我们使用这种方法重新设计了一个系统,使其成为 OLAP 同类产品中的第一款” Mühleisen 说,他仍然是他所在学术机构的高级研究员。
DuckDB 也经常被用作更广泛的分析或数据管理堆栈的一部分。例如,如果有人构建了一个收集数据的自定义应用程序,然后想要构建一个 SQL 接口,那么过去他们可能不得不复制数据并将其移动到另一个系统中,这可能会导致同步问题,他说。但是 DuckDB 可以像查询自己的数据一样查询第三方数据集。“你可以在现有的应用程序或数据集之上进行设计。人们会这样做,”他说。
该系统在数据工具制造商中的流行甚至引发了它自己的模因。
第一个版本是在 2019 年,此后一直在稳步普及,用户包括谷歌、Facebook 和Airbnb。
本周该项目发布了它的 0.5.0 迭代。
- 开源数据库:它们是什么以及它们为什么重要?
- Teradata 通过数据湖、MLOps 与云原生竞争对手展开竞争
- Cloudera 为湖屋人群推出 SaaS 平台
- 蚂蚁集团内部数据库集全球发布,包括树莓派版
新功能的亮点包括“核心外”,旨在通过提供中间结果来解决飞行中数据大于内存时可能出现的问题。该项目还添加了连接顺序优化,这是分析数据库中长期存在的问题。Amalgam Insights 的首席执行官兼首席分析师 Hyoun Park 表示,DuckDB 的独特之处在于它是一个小型应用程序,可以在基于代码的流程中快速分析大型数据存储。
“这变得越来越重要,因为工作负载是分布式的,各种分析用例都需要性能,而且大型组织中的分析数据继续逐年翻番,”Park 说。“作为一个易于嵌入特定分析工作的开源数据库,DuckDB 非常适合填补传统单片 OLAP 数据库更加僵化、更昂贵或需要传输和复制工作以支持分析多样性的空白。
“DuckDB 往往可以直接对数据进行查询,无需中间处理,从而提高了处理能力。从纯技术的角度来看,它有点类似于 Actian Vector,它也采用了列向量化 OLAP 查询方式,尽管 Actian 旨在引入数据而不是而不是在特定的流程或工作量中工作。”
但是对于应该和不应该使用该系统的时间和地点有明确的限制。尽管在某些方面它提供了数据仓库的廉价替代方案,并且可以为每个数据科学家在他们的笔记本电脑上提供一个系统,但它并不一定会取代 Teradata、Oracle 和 IBM 等公司的企业数据仓库系统。主页明确指出它不应该用于“用于集中式企业数据仓库的大型客户端/服务器安装”。
“这是您的组织或数据问题的优先级问题。它真的依赖于处理相同数据的每个人吗?如果是这样,那么也许这不是最好的解决方案,”Mühleisen 说。
这是开源数据库,该项目以不寻常的名称出现。虽然 CockroachDB 以其所谓的不可杀死的性质命名,而 MongoDB 是“巨大”的缩写,但 DuckDB 当然是以 Mühleisen 的宠物 Wilbur 命名的,顺便说一下,Wilbur出现在《卫报》上。
该项目正朝着其 1.0 版本的方向努力,之后将不再具有向后突破性的变化。“我认为我们要做很多工作。我们总是说到年底,但我担心今年不会发生,”穆勒森说。
原文标题:DuckDB, database wrangler used by Google, Facebook, and Airbnb, hits 0.5.0
原文作者:Lindsay Clark
原文链接:https://www.theregister.com/2022/09/09/duckdb_0_5_0/




