在不确定的时代里寻找确定性。
尤记得前几年各行各业还在大谈大数据时代,现如今 AI 的浪潮又在席卷全球。大数据好像还没完全退场,AIGC 也没有真的登场,但企业需求在热点冲击下还是在慢慢变化中。Data Infra 作为一个核心又边缘的部分,如何在激烈动荡中的市场中寻找确定性呢?
曾经繁琐的存储方式让大家痛苦不已,数据存储和计算能力被局限在特定的硬件上,扩展性几乎是天方夜谭。而今天,云计算彻底改变了游戏规则,企业不再需要担心存储容量或计算能力的瓶颈,云服务提供了无限扩展的可能。但云服务并不是万能的,像 S3 这样的对象存储,虽然性价比和扩展性都无可挑剔,但缺乏传统文件系统的安全性和生态兼容性。如何在 AI 浪潮下,用户和自身发展之间找到一个完美的平衡,成为摆在每一个 Data Infra 企业面前的挑战。
本期播客我们邀请到了 JuiceFS 的苏锐和 Greptime 的庄晓丹聊一聊他们作为 Data Infra 创业者的想法,苏锐作为「持续集成」的首个返场嘉宾,会有哪些新的发言呢?此次播客在北美录制,在庄晓丹亲历了 Snowflake 和 Databricks 大会熟悉了北美局势后,或许会有一些更深远的见解。跟随他们创业者的视角,看看 Data Infra 企业的生存困境,聊聊如今 AI 浪潮下的企业转型趋势。欢迎收听本期播客。
[08:55] GreptimeDB 和 JuiceFS 相比有什么不同呢
[11:35] JuiceFS 是如何发展的
[20:20] 云时代的优势在哪
[34:45] 什么时候看到了 AI 的可能性
[41:55] 未来趋势怎么样
如果你也是基础软件或者开源领域的从业者、爱好者,也想和我们聊聊你的经历。可以微信搜索“持续集成”,私信我们立即投稿,一起共创!
存储服务是如何演进的
tison:如果用户已经有一堆 S3 或者其他的 storage,那插件做在哪一层呢?
苏锐:大家基本会延续着那个大的思路去做,所以文件存储里面就三大件,一个是元数据管理,另一部分是数据管理,还有就是一个客户端用来访问数据。我们的插件首先在数据存储这去兼容市面上所有的对象存储,那意味着兼容了十几个不同的开源数据库。
GreptimeDB 和 JuiceFS 相比有什么不同呢
晓丹:从我的角度来看,大家都是把对象存储当成一个主要的存储在用,而不是作为一个 backup,本质上就是把整个架构都构建在对象存储之上,理念上是一样的。
苏锐刚刚说做了 3 年闭源交流了足够多的客户后,才开始做开源版本来满足更多的场景。听下来你们的开源和商业版一开始就设立好了边界,这是跟我们很不一样的地方。
缘起是大家就看到了一个趋势——所有的大数据都在往云上去迁移,就是所谓的 sky computing。类比来讲,把云计算的机房比喻成 PC 的话,就是 S3,就像以前的 HDD,然后 ECS 就相当于 CPU,memory 和算力,存储就是 SSD。在这样的形势下可以把整个机房看成一个操作系统,自然而然都会认为应用的架构就是把 S3 当成未来的主要存储。但我们还是先做的开源,和 JuiceFS 有点不一样。
不过 GreptimeDB 我们最早达成了共识,所有的功能开源要经过一个决议,并不是 by default 的开源。
晓丹:JuiceFS 粗略来讲有一个很大的优势,就是兼容一个标准后,很多上层的应用就不用改。反过来大家都知道了,多一层抽象就是性能的损耗,另一点就是抽象会阻碍利用底层所有的能力,所有的 capability,因为抽象就会屏蔽掉很多的东西,作为一个数据库还是希望尽量把对象存储所有的优点和东西都利用上。
从更长期的角度来说,数据库跟 JuiceFS 专注的点不一样,我们关注的是数据的高速读写,数据的 schema,有组织的结构访问,然后按不同的 workload 来组织索引数据等。但文件的组织方式其实是相对固定的,并不 care 底层的 data layout 是什么样的,只要有 Metadata,然后按固定的目录结构去做就行了。那我们想要的内容组织结构跟文件的数据结构就不一样,那我们希望能跨过这个边界去做,说到底新的事就是在跨越边界。
苏锐:有的,前面三年闭源的时候,第一年真正能够让客户敢用起来的场景,是日志归档或备份经典,这些都不是特别要命的场景。
作为一个市场上新出来的存储产品,而且定位是要做数据的,丢了错了都不行,要命的场景肯定不敢上,所以先丢一个不要命的考验一下。大概过了两年确实有大数据的客户开始用了,可能本身带着对产品的信任,或者说对早期团队的信任去吃了这个“螃蟹”。但长期来看,目前社区里这个场景的用户还是挺多的,但是商业化又转方向了。
现在我们更多地做泛 AI 的应用,比如生成式 AI,自动驾驶,量化策略模型,甚至生物信息科技等等,都在用一种神经网络或者以前传统机器学习的方式。我们所面对的需求是有大量的非结构化数据要管理,然后需要用一个 date pipeline,一步一步地去处理大量的数据,跑一个计算的应用,刚好这些领域其实对 POC 文件系统有更强烈的需求。
云时代的优势在哪
苏锐:土法炼钢可能是本地盘,受限于 EBS 单块盘有容量上限;第二个限制是只能挂在一个实例上,不能多挂载,那一个团队用一份数据的时候拷多遍肯定太傻了。所以大家可能会很早期的时候用一下 EBS,那反过来用共享文件存储的时候, AWS 会提供两个产品,一个是 EFS,一个是基于 lasters 做的 manage service,我们可能赢在性价比的优势,以及前面你说的支持多云、多 region,甚至混合云。
tison:最近一段时间,我在 OpenDAL 社区里面参与的时候会遇到很多的用户——可能是早期大众或者晚期大众这个画像的人,他听说了你们都在搞云或者都在用云对象存储,那到底有没有一个数字?有没有跑过这种 Benchmark?
苏锐:我们相比云很划算,我们也有云服务,然后就看各自的列表价格就行了。比如说我们会把成本优化一下,对比 EFS 的话是很划算的,有一个巨大的价格差。
tison: 是因为大部分的新产品都会计算一个价格差,这样就好对比一个成本。
晓丹:我觉得现在大家都有共识——用云对象存储会更便宜,但很多人比较顾虑的一点是说用了对象存储之后,性能是不是很稳定?可靠性会不会有问题?因为要考虑到网络调用跟内存调用的话的区别可能不止上百倍。
什么时候看到了 AI 的可能性
tison:这是客户先行?还是说你们看到这个趋势再去找客户呢
苏锐:我们看到这个趋势就朝这个方向迭代了。
tison:那就是先去找的客户,其实还蛮少见的。最近 Data Infra 要去往 AI 靠的话都是客户先找过来。
晓丹:我知道各大厂其实也有类似做 JuiceFS 工作的人,ChatGPT 对 AI 的整个形势又有了一些影响,你们对 AI 支持部分有什么特别的优化吗?
晓丹:这也是初创公司的优势,能快速响应。
未来趋势怎么样
晓丹:我最近最大的感受是从Rockset也被 OpenAI 收购,首先对 Infra 公司是一个利好,因为最近大家都知道宏观不怎么好,另一点我们可以看到Rockset一被收购就要求客户迁移。哪怕自己 self host 都没机会,这时候我觉得开源 Infra 的意义所在就是哪怕我这家公司“下班了”,至少还有人来接手。
第二点经过 Snowflake 和 Databrick 和很多公司证明,对象存储,或者说云原生的数据基础设施应该成为大家的共识,可以看到这两家公司坚决地在往 AI 去转型,去帮助企业数据落地,然后整个 Infra data 都在怎么服务好 AI 转型落地的趋势里。所以我在思考当下 Infra 是不是要去做算力站,去做多云存储,类似这样的一些契机,或者这种范式迭代的一个机会,我觉得还是有很多很多的机会可以去创新。
苏锐:我这几年的感觉是 Infra 软件的发展历程确实非常长,很难用短时间去超越,超越一些可能存在很久的产品,所以这类软件都是持续的工程积累,但如果有一些巨大的外部环境变化,比如说从机房变成云,那可能才是给了新软件的一些大的机会吧。
今天 AI 成为所有人的热点的时候,我自己觉得它还是一个特别发散的状态。那之后需要什么?可能今天还没发明出来,现在都还没有形成一个很明白,快速变化的过程。无论做应用还是做中间层,做基础层的人,都在关注着这个变化,包括我们自己也都在关注着,不关注用户在怎么用,更关注 AI 应用有什么大的能力,或者大家在用什么样的、新的 Infra 的上下游生态在做事情,这可能对我们未来做自己的产品有很大的影响。
tison:从今天的角度来看,似乎这一轮 AI 的算法竞争已经差不多有点到顶的意思。或者换一个说法,开始有越来越多厂商更关注做产品化落地,这个时候就会更关心 data Infra 的能力。因为卷算法很多时候是一个很抽象的东西,往上面堆就可以了。
晓丹:倒也不一定,所有的企业其实都关注的是自己内部 AI 应用的落地, AGI 这个东西只能回答一些通识性、常识性的问题,能帮助到一些个体,但企业永远关注的是说 AI 能为我这家企业产生什么价值,那我们就要思考 data Infra 的买家是谁?一个 ToB 的生意,我们就得思考我们会为这样的企业带来什么价值?要回到这一点上来。
这期节目深入地探讨了 AI 浪潮下 Data Infra 企业的挑战和转型,以及云计算时代的数据存储服务,了解更多个人开源和数据库相关请跳转上期播客。欢迎大家给我们来信交流讨论,也非常感谢大家的支持,欢迎持续关注我们的播客节目,我们将为大家带来更多更精彩的内容。





