无需注册,您可以拖入一个文件并创建一个功能齐全的数据库,并从任何与 Postgres 兼容的工具中查询 10 亿行。
当英国数字营销专业人士托尼·格兰特 ( Tony Grant ) 着手分析本地企业的数据时,他发现 Excel 功能有限且占用内存过多,即使在功能强大的 Windows 计算机上也是如此。
例如,如果有人在他的家乡林肯市搜索水管工,他希望能够自动找到另外三个最近的水管工。
“这听起来很简单,但当你开始了解英国邮政编码的工作原理时,它就变得没那么有用了。你不能仅仅假设相似的邮政编码彼此靠近,你还需要考虑到仅在英格兰就有近 225 万个不同的邮政编码,不包括威尔士、苏格兰或北爱尔兰,”他在电子邮件中解释道。
随之而来的问题是邮政编码不是自然相邻的,也不等同于一定的土地面积。英国的邮政编码可能只指一所房子,也可能指数百甚至数千所房子。
合乎逻辑的答案是求助于地理坐标,但这会使数据集增加三倍,这使得这成为一项不可能完成的任务,因为 Excel 的限制约为 100 万行。
因此,他着手为该项目寻找在线工具,但发现它们既有限又昂贵。他发现Amazon Web Services对于外行来说过于技术化和行话,而 Airtable 过于注重销售。然后他偶然发现了bit.io,它承诺可以解决这些问题并且非常简单。
“Bit.io 是一个梦想。即使是免费的入门表也有大约 1000 万行。即使我加上苏格兰和威尔士,我仍然只有 25% 满,”他说。
利用 Postgres 生态系统
Bit.io 使用户能够快速创建一个功能齐全的无服务器 Postgres 数据库,并轻松地与团队成员或客户共享。
Bit 联合创始人兼 CEO Adam Fletcher说:“你今天就可以访问 Bit,无需注册,拖一个文件就可以得到一个数据库。 ” “我们只是希望人们使用该软件并立即发现其价值。这对我们来说是一个关键原则。”
这些数据库可与任何可与Postgres一起使用的工具一起使用。用户甚至不必设置帐户,尽管这样做可以解锁更多功能。
您可以通过拖放文件、输入数据文件的 URL、从 R 或Python 应用程序发送数据或使用任何其他 Postgres 或 HTTP 客户端来加载数据。它有一个浏览器内 SQL 编辑器,或者您可以使用 R、Python、Jupyter 笔记本、命令行等工具。
快速获得价值
Fletcher 之前曾担任网络安全供应商 BlueVoyant 的技术主管、医疗保健分析平台 Nuna 的工程总监以及谷歌的网站可靠性工程师。联合创始人Jonathan Mortensen是斯坦福大学的数据科学家,在医疗和网络安全公司领导数据科学。BlueVoyant 收购了他们的开发工具公司 Gyroscope Software。
“我们所到之处都遇到了同样的数据问题,”Fletcher 说。“特别是,在数据生产力和数据有效性以及迭代速度方面存在问题。
“当我们离开收购我上一家公司的公司时,我们说,‘让我们打造那个东西,对每个人来说只是最后一次,对吧?好像每个人似乎都有这个问题。”
基本上,他们想减轻数据摄取和数据共享的麻烦。使其成为无服务器意味着用户不必管理基础设施。
解决摄入问题
Bit.io 使用算法来确定 CSV、JSON 和其他数据的结构,以便加载到 Postgres 中。
“实际上,在任何传统关系数据库中获取数据都非常困难,”Fletcher 说。“你必须用编程语言来做。您必须使用难以使用且非本机的命令行工具来执行此操作。我们刚才说的是,‘看,人们有这些数据集。我们想让他们做的就是拖放他们拥有的数据,而无需对其进行任何操作,它就会变成一个真正的 Postgres 数据库。
“为了做到这一点,我们必须解决几个问题,一个是 CSV 文件,另一个是 Excel 文件,你知道的,就像你到处都能看到的常规表格数据。……没有模式,对吧?所以我们使用了一堆开源工具,然后我们修改了它们,并在此基础上编写了一堆技术,这样我们就可以做一些事情,比如,‘哦,这一列是一个字符串,这一列是一个整数,这个专栏是你知道的,无论如何。并将其输入到 Postgres 列中,这样……你就有了一个真实的模式、真实的列、真实的数据类型,然后支持当你这样做时出现的所有数百万个角落案例,”他说。
“所以它实际上只是提前解决了那种工程/脏数据问题,并确保它尽可能简单。”
定制控制平面
然后是共享问题,Fletcher 将其描述为“以不同的方式困难”。
他说,共享很难,因为 Postgres 附带的身份验证和授权模型。他们决定从 GitHub 获取一个页面,并将授权和身份验证构建到 Postgres 之外的控制平面中。
提取用户和安全信息并将其发送到 Bit 控制平面以确保用户具有正确的访问权限需要 Fletcher 所说的“这方面的编程也很复杂”。
用户可以将他们的数据公开或私有。例如,COVID 数据一直是流行的公共数据集,可以通过只读访问权限共享。
“我们有一些非常有趣的东西,比如爱荷华州的酒类消费。......就像在大流行期间,人们喝得更多吗?爱荷华州碰巧跟踪每一瓶售出的酒和啤酒以及类似的东西,对吧?就像,多么有趣的数据!” 他说。
但内部分享也很重要。例如,作为财务团队的成员,您可以共享只读的账单信息。当团队成员离开公司时,只需单击一个按钮即可撤销访问权限。
拥抱无服务器
除了专注于摄取和共享之外,该团队还构建了代理和 API,以便您可以通过编程方式完成所有这些工作。通过将 Postgres 生态系统与无服务器相结合意味着用户不必管理它或担心扩展。他说该系统已经过每秒 25,000 笔交易的测试。
“它只是自动扩大规模。它只是随着你的前进而增长,然后缩小。如果你不使用它,它会自行关闭,”他说。
前MongoDB首席执行官Max Shireson是 bit.io 的 Battery Ventures 投资者,他认为无服务器是游戏规则的改变者。
“我认为人们有这样的想法,即云将完全具有弹性和灵活性,您不必再担心硬件了。在很多方面,这还不是真的,”他在接受采访时说。
“bit.io 团队正在做的是通过创建无服务器产品来帮助云兑现其对数据的承诺,这意味着当你在那里创建数据库时,你不必告诉它有多少硬件需要运行它或在什么类型的硬件上运行它。它只是为您提供云中的一个端点,该端点可以根据您的需要增长和扩展,而不受机器粒度的限制。
“特别是,当你有很多新的实验性小东西时,可能会有很多开销,对吧?您的新实验性应用程序可能只需要一台机器的 3%,您不想分配整台机器,甚至……相当于一台机器的四分之一——这仍然可能比您需要的多得多。而且这听起来不一定是个大问题。您租用的仍然是相当小的一部分,而且并不贵。但就促进实验和创新而言,真正能够只使用你需要的东西会产生很大的不同。你可能想让 1,000 朵花盛开,但每朵花都不值得花 100 美元买 [因为] 你不知道它会带来什么。
“这就是为什么我认为很多人对这种无服务器数据库的想法感到兴奋,您可以根据需要使用它。也许它真的很小,也许它是中等大小,最终,也许它会长成一个大东西。但它真的很适合做实验。这非常适合入门。”
不过,Bit.io 远非唯一的无服务器数据库。它与无服务器产品竞争,包括 CockroachDB、PlanetScale、Amazon Aurora 和 DynamoDB、Google Firestore 和 Fauna DB。
成长中的创业公司
这家总部位于旧金山的初创公司于 10 月宣布全面推出其数据库即服务产品,并获得了由 Battery Ventures 和 GreatPoint Ventures 领投的 750 万美元种子资金。公司成立于 2019 年,产品自 2021 年以来一直处于内测阶段。
它已经发展到超过 15,000 名用户,包括福特、Visa 和摩根士丹利等公司,用例包括生产 OLTP(在线事务处理)工作负载、构建 Web 应用程序、低代码/无代码后端、数据分析和移动应用程序。
免费层允许用户创建最多三个具有 3GB 存储空间的免费数据库,并通过任何与 Postgres 兼容的工具访问数据来查询 10 亿行。它支持所有主要的编程语言、Tableau 和 PowerBI 等商业智能工具以及 Airbyte、Airflow 和 Dagster 等 ETL(提取、转换、加载)工具。它还提供从开源 SQLite 数据库迁移的能力。
“ bit.io 非常简单地回答了我几乎所有的初始需求。它提供了一个真正简单的服务,不会让普通用户感到困惑,并且当我试图向它扔 250 万行数据时也不会抱怨,”Grant 说。
几乎是事后才想到,他补充说他是盲人,只能通过键盘访问计算机,而不是鼠标。
“这个工具在这种可访问性情况下工作得很好,所以我再次竖起大拇指。”
文章来源:https://thenewstack.io/bit-io-offers-serverless-postgres-to-making-data-sharing-easy/




