自从发现并非所有数据都可以整齐地存储在行和列中以来,似乎没有一天又出现了又一个具有自己的查询引擎和独特表或文件格式的新数据库。TileDB已合并为“停止疯狂”,以寻求将阵列建立为通用存储格式的新形式。
与大多数数据库首席执行官不同,TileDB创始人Stavros Papadopoulos来自科学界,而不是技术界。最终成为TileDB的是迈克尔·斯通布雷克(Michael Stonebraker)的另一个麻省理工学院(SciDB)项目,该项目提供了一种适合研究科学家使用的数据库引擎,因为它的阵列结构现在可以作为Paradigm 4购得。由于数据不是强制匹配到列和行中的,因此它可以表示几乎任何类型的数据结构,并且在商业上已被用于构建多维数组,这些数组与早期的非规范化MOLAP数据库有些相似。
但是Papadopoulos发现了SciDB的一个主要缺点-它不能很好地处理数据稀疏性。那就是许多列为空或为空的地方,这种情况对于基因组数据集非常普遍,重点关注物种或个体如何相互区分。对于人们来说,整个人类基因组的典型偏差仅为0.1%。从理论上讲,您可以存储所有冗余数据,但这将浪费大量资源。因此,大多数基因组数据集非常稀疏。
因此,创始人Papadopoulos离开了麻省理工学院的象牙塔,并最初获得了Intel Capital的种子资金支持,创立了TileDB。它通过在优化中建立稀疏性来选择SciDB的不足之处,并且与大多数数据库不同的是,它完全专注于数据存储和管理,但使计算/查询引擎可插入。这与MySQL和MariaDB这样的数据库相反,它们具有共同的计算层,但使存储引擎可插入。因此,例如,TileDB版本数据,支持“时间旅行”(我们假设是通过快照),并处理诸如访问控制,日志记录和管理元数据之类的整理任务。
但是在某些方面,TileDB在云数据库世界中遵循非常相似的设计模式,在该模式中,存储引擎是通用的,但通过不同的API公开。Microsoft Cosmos DB是此方法的最著名的公开示例,它具有一个核心存储层,该层具有用于SQL,JSON,图形和宽列的API。此外,Amazon Aurora和Keyspaces以及Google Cloud Spanner和Cloud Datastore均通过API针对存储引擎运行。
TileDB提供两种产品。它包括 TileDB Embedded(一个用于多维数组的开源,云原生和存储库)和TileDB Cloud(一个无服务器的SaaS产品,用于共享数据和代码并支持当前运行在AWS上并使用S3进行物理存储的高效计算) 。
通过利用云存储,抽象化计算和查询引擎,以及通过设计为无服务器的云产品,TileDB正在提升其扩展能力。该公司最近宣布获得1500万美元的A轮融资,最初瞄准的是基因组学和地理空间中的用例。




