暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

核心又边缘的 Data Infra 企业——如何走出 AI 浪潮下的生存困境

GreptimeDB 2024-08-12
237
在北美录制


在不确定的时代里寻找确定性。


尤记得前几年各行各业还在大谈大数据时代,现如今 AI 的浪潮又在席卷全球。大数据好像还没完全退场,AIGC 也没有真的登场,但企业需求在热点冲击下还是在慢慢变化中。Data Infra 作为一个核心又边缘的部分,如何在激烈动荡中的市场中寻找确定性呢?


曾经繁琐的存储方式让大家痛苦不已,数据存储和计算能力被局限在特定的硬件上,扩展性几乎是天方夜谭。而今天,云计算彻底改变了游戏规则,企业不再需要担心存储容量或计算能力的瓶颈,云服务提供了无限扩展的可能。但云服务并不是万能的,像 S3 这样的对象存储,虽然性价比和扩展性都无可挑剔,但缺乏传统文件系统的安全性和生态兼容性。如何在 AI 浪潮下,用户和自身发展之间找到一个完美的平衡,成为摆在每一个 Data Infra 企业面前的挑战。


本期播客我们邀请到了 JuiceFS 的苏锐和 Greptime 的庄晓丹聊一聊他们作为 Data Infra 创业者的想法,苏锐作为「持续集成」的首个返场嘉宾,会有哪些新的发言呢?此次播客在北美录制,在庄晓丹亲历了 Snowflake 和 Databricks 大会熟悉了北美局势后,或许会有一些更深远的见解。跟随他们创业者的视角,看看 Data Infra 企业的生存困境,聊聊如今 AI 浪潮下的企业转型趋势。欢迎收听本期播客。






点击前往喜马拉雅订阅持续集成专辑
(访谈文稿内容有删减,更多精彩内容请小宇宙、喜马拉雅等各大平台收听完整音频)



内容时间线
TIMELINE
[03:15] 存储服务是如何演进的

[08:55] GreptimeDB 和 JuiceFS 相比有什么不同呢

[11:35] JuiceFS 是如何发展的

[20:20] 云时代的优势在哪

[34:45] 什么时候看到了 AI 的可能性

[41:55] 未来趋势怎么样


投稿

如果你也是基础软件或者开源领域的从业者、爱好者,也想和我们聊聊你的经历。可以微信搜索“持续集成”,私信我们立即投稿,一起共创!


1

存储服务是如何演进的


苏锐:我们产品做了 6 年多的时间,前面 3 年都在进行很早期的迭代,当时我们只在云上做云服务,整个产品都是闭源的。最早是想解决 Spark 生态下的存储服务,数仓和数据分析这些场景。当时应用栈是从机房搬到了云上,然后发现用 S3 做存储还有很多不足,就希望做一个帮助 S3 提升的产品。既有 S3 的优势,比如说强扩展性,高性价比和数据安全可靠性,同时也希望能补足它与文件存储能力之间的差异

文件存储就是,比如说以前的 HDFS 或者更早的 posix 文件系统,那些文件系统大家用起来会更熟悉,上面也构建了很多的应用生态,但都没有进入 S3。

3 年之后我们又发布了一个 open source 的版本,跟我们自己做的闭源部分有明显的差异。因为在走向市场和客户交流的过程中,我们发现大家对文件存储有一个非常广泛的需求。也有一个不好的消息是大家对文件存储的期待是千差万别的,里面有对数据的规模、可靠性、可用性、性能预算这么多的维度,不同的应用场景下他们的排序全不一样。但我们现有的东西没办法搞定这么多需求,后来就发布了一个开放式的、插件式的设计——开源版,让开发者有能力自己做一些组合,像乐高一样。这个目的是想解决大部分数据规模不是很大,性能要求不是很高,但是能够简单上手并且简易维护的一个东西。所以我们的社区版本定位是——低门槛、好上手、好维护,这样已经能解决大部分的场景了。

tison:如果用户已经有一堆 S3 或者其他的 storage,那插件做在哪一层呢?


苏锐:大家基本会延续着那个大的思路去做,所以文件存储里面就三大件,一个是元数据管理,另一部分是数据管理,还有就是一个客户端用来访问数据。我们的插件首先在数据存储这去兼容市面上所有的对象存储,那意味着兼容了十几个不同的开源数据库。


2


GreptimeDB 和 JuiceFS 相比有什么不同呢


晓丹:从我的角度来看,大家都是把对象存储当成一个主要的存储在用,而不是作为一个 backup,本质上就是把整个架构都构建在对象存储之上,理念上是一样的


苏锐刚刚说做了 3 年闭源交流了足够多的客户后,才开始做开源版本来满足更多的场景。听下来你们的开源和商业版一开始就设立好了边界,这是跟我们很不一样的地方。


缘起是大家就看到了一个趋势——所有的大数据都在往云上去迁移,就是所谓的 sky computing。类比来讲,把云计算的机房比喻成 PC 的话,就是 S3,就像以前的 HDD,然后 ECS 就相当于 CPU,memory 和算力,存储就是 SSD。在这样的形势下可以把整个机房看成一个操作系统,自然而然都会认为应用的架构就是把 S3 当成未来的主要存储。但我们还是先做的开源,和 JuiceFS 有点不一样。


tison:开源,闭源和商业化的边界在什么地方呢?我遇到过几次这个问题,或者说很多商业开源公司对边界都不太清楚。常见的一个边界就是企业功能需求的部分就 close source 去收费,如果是涉及到用户体验或者说 general API 的就保持开源。但是大量的功能在模糊地带,没有那么的清楚。

不过 GreptimeDB 我们最早达成了共识,所有的功能开源要经过一个决议,并不是 by default 的开源

我们做基于对象存储上面的访问,现在有很多开源的解决方案,这种 fundamental 的东西基本上就是开源的。像苏锐说的,开源能够帮助你去 adopt 很多不同的场景。但作为一个商业公司来讲,很多边缘场景没有那么高的 ROI 去做。


3
JuiceFS 是如何发展的

晓丹:JuiceFS 粗略来讲有一个很大的优势,就是兼容一个标准后,很多上层的应用就不用改。反过来大家都知道了,多一层抽象就是性能的损耗,另一点就是抽象会阻碍利用底层所有的能力,所有的 capability,因为抽象就会屏蔽掉很多的东西,作为一个数据库还是希望尽量把对象存储所有的优点和东西都利用上


从更长期的角度来说,数据库跟 JuiceFS 专注的点不一样,我们关注的是数据的高速读写,数据的 schema,有组织的结构访问,然后按不同的 workload 来组织索引数据等但文件的组织方式其实是相对固定的,并不 care 底层的 data layout 是什么样的,只要有 Metadata,然后按固定的目录结构去做就行了。那我们想要的内容组织结构跟文件的数据结构就不一样,那我们希望能跨过这个边界去做,说到底新的事就是在跨越边界。


tison:JuiceFS 可能一开始设计的时候是为了像 Spark 的 engine 一样,能够更好地利用对象存储。那么你们的用户也是这样的用法吗?你的设计初心是给像 Spark 的 execution engine 提供一个数据访问层,那么现在有没有终端用户是这样用的?


苏锐:有的,前面三年闭源的时候,第一年真正能够让客户敢用起来的场景,是日志归档或备份经典,这些都不是特别要命的场景


作为一个市场上新出来的存储产品,而且定位是要做数据的,丢了错了都不行,要命的场景肯定不敢上,所以先丢一个不要命的考验一下。大概过了两年确实有大数据的客户开始用了,可能本身带着对产品的信任,或者说对早期团队的信任去吃了这个“螃蟹”。但长期来看,目前社区里这个场景的用户还是挺多的,但是商业化又转方向了。


现在我们更多地做泛 AI 的应用,比如生成式 AI,自动驾驶,量化策略模型,甚至生物信息科技等等,都在用一种神经网络或者以前传统机器学习的方式。我们所面对的需求是有大量的非结构化数据要管理,然后需要用一个 date pipeline,一步一步地去处理大量的数据,跑一个计算的应用,刚好这些领域其实对 POC 文件系统有更强烈的需求。


4


云时代的优势在哪


苏锐:土法炼钢可能是本地盘,受限于 EBS 单块盘有容量上限;第二个限制是只能挂在一个实例上,不能多挂载,那一个团队用一份数据的时候拷多遍肯定太傻了。所以大家可能会很早期的时候用一下 EBS,那反过来用共享文件存储的时候, AWS 会提供两个产品,一个是 EFS,一个是基于 lasters 做的 manage service,我们可能赢在性价比的优势,以及前面你说的支持多云、多 region,甚至混合云


tison:最近一段时间,我在 OpenDAL 社区里面参与的时候会遇到很多的用户——可能是早期大众或者晚期大众这个画像的人,他听说了你们都在搞云或者都在用云对象存储,那到底有没有一个数字?有没有跑过这种 Benchmark?


苏锐:我们相比云很划算,我们也有云服务,然后就看各自的列表价格就行了。比如说我们会把成本优化一下,对比 EFS 的话是很划算的,有一个巨大的价格差。


晓丹:我印象中阿里云和 AWS 官方自己都也出过这种报告。

tison:  是因为大部分的新产品都会计算一个价格差,这样就好对比一个成本。


晓丹:我觉得现在大家都有共识——用云对象存储会更便宜,但很多人比较顾虑的一点是说用了对象存储之后,性能是不是很稳定?可靠性会不会有问题?因为要考虑到网络调用跟内存调用的话的区别可能不止上百倍。


5




什么时候看到了 AI 的可能性


苏锐:19 年和 20 年很早的时候,我们看到深度学习在流行,涌现了很多做自动驾驶,做人脸识别的公司,这甚至是一个全球范围的趋势。我们就觉得既有的  POC 文件系统跟上层的机学习框架其实适配得很好。那就看看这个领域有没有机会,就发现 CV 领域刚好有一个海量小文件的痛点,当时看了一下市场上的产品也不能在单个 volume 里支持 100 亿文件,就想着可以朝这个方向去迭代一下。

tison:这是客户先行?还是说你们看到这个趋势再去找客户呢


苏锐:我们看到这个趋势就朝这个方向迭代了。


tison:那就是先去找的客户,其实还蛮少见的。最近 Data Infra 要去往 AI 靠的话都是客户先找过来。


晓丹:我知道各大厂其实也有类似做 JuiceFS 工作的人,ChatGPT 对 AI 的整个形势又有了一些影响,你们对 AI 支持部分有什么特别的优化吗?


苏锐:从特性上说就是有最完整 POS 兼容性,刚好也支持 HD S3 的访问,用起来方便,这是兼容性这一层;skill 这一层,我们的设计其实是用便宜的 S3 做存储,然后用靠近计算端的 cache 做吞吐性能的提供者,相当于把存储系统的容量与性能解耦了,在以前的分布式文件或者分布式存储系统里,容量,存量和性能是线性绑定的。我们提供了一个更方便的解耦,用户扩展更容易,性价比也提升了;第三个是中立加上多云支持也是他们需要的一个能力;然后可能我们提供更深的服务,单一产品可以购买订阅式的服务从产品到技术支持都会做得更紧密一些。

晓丹:这也是初创公司的优势,能快速响应。


6



未来趋势怎么样


晓丹:我最近最大的感受是从Rockset也被 OpenAI 收购,首先对 Infra 公司是一个利好,因为最近大家都知道宏观不怎么好,另一点我们可以看到Rockset一被收购就要求客户迁移。哪怕自己 self host 都没机会,这时候我觉得开源 Infra 的意义所在就是哪怕我这家公司“下班了”,至少还有人来接手。


第二点经过 Snowflake 和 Databrick 和很多公司证明,对象存储,或者说云原生的数据基础设施应该成为大家的共识,可以看到这两家公司坚决地在往 AI 去转型,去帮助企业数据落地,然后整个 Infra data 都在怎么服务好 AI 转型落地的趋势里。所以我在思考当下 Infra 是不是要去做算力站,去做多云存储,类似这样的一些契机,或者这种范式迭代的一个机会,我觉得还是有很多很多的机会可以去创新。


苏锐:我这几年的感觉是 Infra 软件的发展历程确实非常长,很难用短时间去超越,超越一些可能存在很久的产品,所以这类软件都是持续的工程积累,但如果有一些巨大的外部环境变化,比如说从机房变成云,那可能才是给了新软件的一些大的机会吧。


今天 AI 成为所有人的热点的时候,我自己觉得它还是一个特别发散的状态。那之后需要什么?可能今天还没发明出来,现在都还没有形成一个很明白,快速变化的过程。无论做应用还是做中间层,做基础层的人,都在关注着这个变化,包括我们自己也都在关注着,不关注用户在怎么用,更关注 AI 应用有什么大的能力,或者大家在用什么样的、新的 Infra 的上下游生态在做事情,这可能对我们未来做自己的产品有很大的影响。


tison:从今天的角度来看,似乎这一轮 AI 的算法竞争已经差不多有点到顶的意思。或者换一个说法,开始有越来越多厂商更关注做产品化落地,这个时候就会更关心 data Infra 的能力。因为卷算法很多时候是一个很抽象的东西,往上面堆就可以了。


晓丹:倒也不一定,所有的企业其实都关注的是自己内部 AI 应用的落地, AGI 这个东西只能回答一些通识性、常识性的问题,能帮助到一些个体,但企业永远关注的是说 AI 能为我这家企业产生什么价值,那我们就要思考 data Infra 的买家是谁?一个 ToB 的生意,我们就得思考我们会为这样的企业带来什么价值?要回到这一点上来。


这期节目深入地探讨了 AI 浪潮下 Data Infra 企业的挑战和转型,以及云计算时代的数据存储服务,了解更多个人开源和数据库相关请跳转上期播客。欢迎大家给我们来信交流讨论,也非常感谢大家的支持,欢迎持续关注我们的播客节目,我们将为大家带来更多更精彩的内容。


关于本期节目
主播:tison
嘉宾:苏锐,庄晓丹
剪辑 & 运营:Beryl,文婕
封面设计:Yingnan

关于持续集成

欢迎来到“持续集成”,我们是一档专注于开源和基础设施软件领域的播客栏目。如果说大家熟知的网站和应用是信息海洋上的冰山,那我们希望通过邀请基础软件领域的从业者,来一起聊聊,更多冰山之下的那些技术,产品和一些鲜为人知的故事。

文章转载自GreptimeDB,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论