核心观点
VAST Data构建了一个新型操作系统,而非简单的存储系统:最终构建的是一个操作系统,涵盖非结构化数据处理、结构化数据的数据库处理、通过数据引擎实现的计算框架,并且具有地理分布特性。这个系统将最新和最先进的硬件技术从AI应用中抽象出来,使企业和云服务商能够轻松利用新技术的优势。 AI训练和推理正在融合,需求更加灵活的基础设施:在生成式AI的世界中,训练和推理通过反馈循环开始融合。它们正通过RAG结合起来。这要求一个非常灵活的系统,既能处理极大规模的集群,又能100%具备韧性,并为实时和生产应用做好准备。 新的硬件技术推动了创新系统的构建:DPU使得构建全新数据中心成为可能,GPU增强了数据库寻找数据集相似性的能力。 AI领域正从静态训练转向实时训练:AI领域正在从静态训练转向实时训练,结合反馈循环,将训练和推理这两个目前仍非常不同的领域融合在一起,并推动底层基础设施的整合。这个过程变得更加迭代化,类似于人类的“学习并应用”模式。 RAG技术使得快速访问所有数据变得必要:RAG使得快速访问所有数据变得必要,这些数据不仅限于模型训练数据,还包括企业的各种数据。这带来了新的能力,使得代理可以开始彼此对话,不再需要正式的API来实现计算机之间的合作。 企业终于可以利用其数据的价值:过去20年,企业积累了大量数据,但一直难以充分利用。现在,新技术为企业提供了“打开宝箱的钥匙”,使他们能够解锁这些信息的价值。 新型专业云服务商的崛起:像CoreWeave、Lambda和G42这样的新型AI云服务商正在崛起,为企业提供传统大型云服务商尚未提供的服务。这些新兴公司从零开始构建,不受传统系统的束缚,能够提供更高的电力密度、更多的GPU服务器和更快的网络连接。 新的数据中心架构:VAST Data构建的新架构被称为“解耦、共享一切”。这种架构在硬件方面也得到了应用,表现为GPU与高速网络和简单的JBOF相连接,不再依赖大量x86服务器或Shared-Nothing架构。这种多对多的连接方式,通过超高速网络在数据中心内部和之间进行连接,使得以前无法实现的基础设施构建成为可能。
-----
VAST Data的演变
John Furrier: 我想更深入地了解一下你们的情况,特别是你们在市场上取得的成功。我认为你们成功的原因有几点:你们最初处于隐秘模式(stealth mode),精准地把握了市场机会,瞄准了目标,积极与客户合作,随后正式进入市场。去年在我们的发布会上,你们并非以一家单纯的存储公司身份亮相,而是以一个数据平台,一种下一代系统的姿态展现在大家面前。请问,您能否详细解释一下你们的业务模式,以及你们所看到的市场机会呢?
参考:
Renen Hallak: 是的,我们最初构建的是一个存储系统,以应对这种爆炸性增长的数据量,以及对GPU进行快速访问的需求。但最终我们构建的不是一个存储系统,而是一个操作系统。它包含非结构化数据部分,也通过数据库处理结构化数据,拥有通过数据引擎实现的计算框架,并且是地理上分布的,因为数据应该保存在它产生的地方。我们将所有这些部分结合起来,最终实现了将最新和最先进的硬件技术从这些新的AI应用程序中抽象出来,使企业和云服务商能够轻松利用这个新时代的优势。
John Furrier: 那么,谁是你们这段新旅程中的主要参与者?因为你们完美地切入了市场。谁是早期的采用者?有哪些应用场景?
Renen Hallak: 我们有很多大型语言模型的构建者、很多AI云,以及一些四五年前就开始与我们合作的早期AI公司,比如对冲基金、自动驾驶汽车公司、生命科学研究所和政府机构。但现在,这种趋势正逐渐进入企业领域。企业希望利用AI,为此我们需要使AI对他们更容易访问,这就是我们所做的。
大数据与AI的发展
John Furrier: 你知道吗,Renen,当Dave Vellante和我在15年前(2010年)创办The Cube时,Hadoop是当时的热点。你还记得Hadoop吗?
Renen Hallak: 当然记得。
John Furrier: 大数据革命,可以说是将数据比作新时代的石油。在那个时期,这个话题成为了人们津津乐道的热点。但如果你看看最早跳上这班车并进行了深入探索的,是金融服务行业。金融科技是早期的采用者,因为他们已经有大量的数据。他们知道,数据的价值是专有的。那时,高频交易非常火爆。如果你拥有数据,你就拥有优势。
Renen Hallak: 没错。
John Furrier: 让我们将时间快进到现在。Hadoop失败了,然后从它的“废墟”中萌生了另一代技术。失败的教训被吸收,新兴的公司如Databricks和Snowflake崭露头角。
参考:
Renen Hallak: 是的。
John Furrier: 非常棒,数据云,其实就是云端的数据仓库。它们一直在发展,但现在生成式AI(GenAI)出现了,这是一个需要像运行时那样生成答案的横向可扩展结构。
Renen Hallak: 没错。
John Furrier: 那么,这对数据模型意味着什么呢?在数据世界中,有一个真正的讨论在进行,现在的数据仓库已经不再是你祖父那一代的数据仓库了。它也不是昨天的分析团队,虽然他们是数据科学家。这是DevOps,这是一个云工程的任务。
Renen Hallak: 说得对。
基础设施的重构
John Furrier: 要对一切进行重构,而你现在看到的证据就是:开放数据表和格式、数据目录和治理、智能数据应用的需求量巨大。开发者们正在场外等待,准备把这些模型集成到应用程序中。这就是当前的市场。你同意吗?
Renen Hallak: 我同意。我认为我们正在从你所说的旧世界(批处理、数据库中的数字、行和列)转向自然信息:图片、视频和声音。为了支持这些,需要一个完全不同类型的基础设施。不仅如此,在生成式AI的世界中,我们开始看到训练和推理是不同的,而现在它们通过反馈循环开始结合在一起。推理不同于旧的企业运营系统,但它们正在通过RAG(检索增强生成)结合在一起。因此,你需要一个非常灵活的系统,既能处理非常大的集群,又能100%具备韧性,并为实时和生产应用做好准备。
John Furrier: 有意思的是,当我与人交流时(你描述了许多技术架构,这些架构虽然不同但在当前环境下非常相关,这也是你们做得这么好的原因)。横向可扩展性、数据自由、低延迟、实时可访问。不再是以秒计算,而是毫秒。
Renen Hallak: 没错。
John Furrier: 你可能会说,“这将推动下一代发展。” 但当你真正思考时,基础设施还没有完全到位。
Renen Hallak: 说得对。
John Furrier: 所以,现在这种数据层已经在那里了。三层结构:物理基础设施层、数据层、中间件层(或者你可以用其他名称来称呼它),然后是应用层。基础设施现在发生了什么?因为你们现在在基础设施领域表现得非常好,涉及存储和全局命名空间,而数据层正准备颠覆传统模式。
Renen Hallak: 是的。
John Furrier: 那么,你同意这个观点。在企业中,尤其是基础设施方面,当前的变化趋势是什么?
Renen Hallak: 目前我们能够使用的底层硬件,使我们能够构建这些创新的系统。正是这些硬件,使我们在八年前得以构建这套新架构。如今,DPU使我们能够构建一种全新的数据中心,并以过去无法实现的方式运行我们的软件。我们利用GPU增强数据库能力,来寻找数据集间的相似性,而这一切都依赖于底层基础设施。许多创新源自像NVIDIA这样的公司,他们推动了技术的前沿发展,而我们也在尽最大努力让这一切变得简单,企业不再需要拥有计算机科学的博士学位来使用这些技术。
John Furrier: 我认为你们在数据层所做的工作并不仅仅是一个数据层,而更像是硬件和数据层的一种抽象接口,可能将来会发展成为一个控制平面数据层。我想问一下(你提到你们的核心客户群体),我能理解那些从事训练工作的客户喜欢你们,因为你们处理非结构化数据和半结构化数据湖,对他们来说你们是理想的选择。你已经谈过这个问题了,但我看到的情况是:专门的训练现在很热,并且永远不会消失。就像上学一样,你去学校,从小学到大学,但你不会永远待在学校里。你会运用所学进行推理和决策,或许还会进行一些旁听课程,比如强化学习。所以,这种过程是有进展的。你怎么解释这个现象?因为我认为训练不会完全消失,但当你需要新知识时,它就会变得非常重要。就像我去读硕士学位,两年内需要大量的训练。
参考:
RAG和动态反馈循环
Renen Hallak: 我认为这个过程会变得更加迭代化,就像我们学习并应用——学习并应用。我们不一定是批量进行的,计算机也会如此。而你提到的强化学习和反馈循环也开始出现——我举个例子,就像谷歌最初是基于静态信息构建其PageRank算法:页面上有多少链接指向它。然后他们意识到用户互动能够帮助他们更好地排名页面——人们点击了什么?现在,AI领域也在发生类似的事情。我们正从静态训练转向实时训练,结合反馈循环,正在将这两个目前还非常不同的世界碰撞在一起,并推动底层基础设施的整合。
John Furrier: 显然推理成为了你之前提到的核心工作负载。RAG,这个当下最热门的应用,永远不会消失。无论是机器还是人类,大家始终需要找到自己需要的信息。解释一下这个动态——这不仅仅是一个单一的应用,而是一个基础性的转变。
Renen Hallak: RAG使得你希望快速访问所有的数据,使得这些数据能够在AI工作负载中使用,而不仅仅是依赖于模型训练的数据。我们现在看到的是,代理开始——如你所说,无论是人类还是计算机——代理们开始彼此对话。你不再需要正式的API来让计算机合作,这就带来了新的能力。
John Furrier: 我之前提到金融科技早期采纳数据技术,因为他们已经在数据领域工作了。我明白了,但我想说的是,他们认识到了数据的价值。现在,企业也在觉醒,他们说:“我看到了数据的价值。” 并不是他们之前没有意识到,而是他们无法对其采取行动。
Renen Hallak: 没错。
John Furrier: 他们知道自己拥有数据,但处理起来太麻烦——需要大量的工作。以前没有所谓的数据层重新架构。企业搜索是一场噩梦。而现在,企业搜索变成了梦想中的场景。谈谈为什么这是一个新的机会——这就像企业终于可以利用他们数据的价值了。谈谈这个话题。
Renen Hallak: 是的,这是一个巨大的宝藏,它充满了过去20年积累的数据,因为每个人都知道自己应该保存这些数据。而现在,我们终于有了打开这个宝箱的钥匙,解锁这些信息的价值。那些能充分利用这些数据的组织将继续发展,而那些不能的将会被淘汰。
John Furrier: 那么,他们有数据模型——比如说,如果是结构化数据,通常是传统格式。那么,谈谈为什么你们VAST的愿景能够解锁这些价值,因为在AI的帮助下,这些数据可以被抽象化学习,然后释放出来。解释一下这种力量的动态,因为这将改变游戏规则。
Renen Hallak: 你不需要人来操作数据,去整理数据,或者去理解数据里包含什么。正如你所说,你可以直接学习它。我们构建的能力是能够弥合非结构化数据(如图片、视频和声音)与结构化数据之间的鸿沟,使得你能够对其进行智能化查询。我们让那些没有相关专业知识的组织也能够轻松实现这些功能。
John Furrier: 我注意到你们的客户群体非常庞大。在AI领域,所有顶级玩家都在大规模地使用你们的产品。所以,你们捕获了这些“大鲸鱼”。但在企业领域,随着这些企业逐渐成长为“大鲸鱼”,他们必须重新思考如何在全球范围内架构他们的IT系统。
Renen Hallak: 是的。
John Furrier: 好的,在一代人或两代人中。我们第一次看到——我从未见过这样的情况,自从大型机消失后,分布式计算兴起——他们真的在重新思考整个计划,重新构建数据资产、基础设施的基础。因为Nvidia和集群系统的出现,因为存储等被重新思考、重新构想,数据需要随时随地可用——他们必须重新做一切,对吧?我们处在一个重新架构的时代。你对那些面对这个问题的人有什么建议?这个问题从高层传下来,然后落在组织中最聪明的人身上,他们必须制定一个计划并架构这个系统。你有什么建议?
Renen Hallak: 这取决于你想从栈的哪个层面开始。如果你想从最底层开始,那么你需要构建新的数据中心,具有更高的电力密度,然后你需要用新型硬件填充它们。数据中心不再是充满x86“披萨盒”的地方。然后你需要一个软件基础设施层来支持这种规模和性能。接着,你需要开始构建你的应用程序。我们合作的大多数客户并不会深入到最底层,他们会利用这些新型AI云之一来完成这些工作。首次,这些大型云服务商正在被这种新架构所颠覆,因此我们看到像CoreWeave、Lambda和G42这样的公司崛起,为企业提供服务,而这些是大型云服务商目前还没有做到的。我们的数据空间——我们的全局命名空间——允许你维持所有这些不同的孤岛,如果你愿意的话,并将它们整合到一个平台上。
专业云的崛起
John Furrier: 所以,你们正在让这些“小玩家”,在这个情况下,相对于云服务商——变成一个大玩家?
Renen Hallak: 是的。
John Furrier: 专业云?
Renen Hallak: 没错。
John Furrier: 解释一下什么是专业云,因为我们都知道AWS、Azure和Google Cloud。但你提到的CoreWeave、Lambda、GPU Cloud——为什么它们能够成功?是什么原因——经济效益?还是专业化?是什么原因?
Renen Hallak: 我认为正如我们刚才所说的——他们从零开始构建,而没有受到大型云服务商在过去15到20年间所构建的传统系统的束缚。这些新兴公司在一个机架中拥有200千瓦的电力密度。它们充满了GPU服务器和超高速网络,并通过NVMe网络连接的JBOF。它们是为这个大规模、高性能时代而建的,并且利用我们的软件栈来提供客户期望的所有云服务。
John Furrier: 你作为VAST的技术联合创始人,你们的创新方法非常独特。你有没有感到惊讶?在这股浪潮中,最吸引你的是什么?是像NVLink这样的技术存在,还是现在曾经是服务器的东西,比如“披萨盒”或者4U机架,变得如此强大?
Renen Hallak: 是的。
John Furrier: 有什么让你觉得是个游戏规则的改变?你会指出什么来说,“哇,这才是关键”?
神经网络与新架构的影响
Renen Hallak: 我认为是我们能够让这些神经网络开始真正创造价值。上学时,大家都在开玩笑说没人懂神经网络是怎么工作的,而且它们也没做出什么有用的东西。
现在虽然还是同样的神经网络,只是做了一些微小的修改,但我们现在拥有了更多的数据和更快的访问速度。而这种架构,尤其是分布式架构,是让我们实现这些目标的关键。
John Furrier: 既然你是专家,能为我们的观众定义一下什么是神经网络吗?它只是一些向量嵌入吗?是数学?还是连接组织?什么是神经网络?
Renen Hallak: 神经网络是一种基于示例而不是代码构建软件的方法。我们试图模仿人类大脑,尽管我们并不完全理解它的运作原理。我们通过给出大量示例,并在人工神经元之间调整权重和平衡,这样当你给它一些未经过训练的新东西时,它能够某种程度上识别或理解其中的内容。这里有趣的点在于,虽然我们实际上并不理解人脑的工作原理,但我们至少在某种程度上能够做出类似的事情。
John Furrier: 神经网络背后的机制是什么?你们自己写代码使用知识图谱吗?它是嵌入的数学原理吗?到底是什么?
Renen Hallak: 我们的产品中并没有使用神经网络。我们只是通过提供极高的数据访问能力来支持这些应用。
John Furrier: 那么如果我将所有节目的转录内容转换成向量嵌入,这算是一个神经网络吗?
Renen Hallak: 我认为是的。
John Furrier: 好的,我们有了检索功能,我们可以进行匹配。我认为这是个游戏规则改变者。我认为神经网络、图结构都很有效。你提到的权重,这并不是一个框架,它只是自动机理论。也就是说,这都是计算机科学的内容,对吧?所以我觉得这有点回归基础的感觉。我们正在目睹一个系统革命,对吗?你同意吗?如果同意,你会如何描述这个下一代的系统革命?是新的内核开发者群体吗?是机器编码?是新的软件吗?你同意吗?然后你如何定义系统革命?
Renen Hallak: 我认为这是一个新架构。在软件方面,我们构建的架构被称为“解耦、共享一切(Disaggregated Shared-Everything Architecture)”,而我们看到这一点在硬件方面也被模仿。我们之前提到过,GPU与高速网络和简单的JBOF相连接,不再是大量x86服务器,也不再是Shared-Nohting体系结构。一切都在解耦,一切都可以访问一切。这是一种多对多的连接,在数据中心内通过超级快速的网络连接,而在数据中心之间通过相对非常快的网络连接。这种架构使得我们能够以一种之前无法实现的方式构建基础设施。
公司文化与产品策略
John Furrier: 最后两个问题。一个关于产品主导的增长。你们称自己为VAST Data的“Vastronauts(太空探险者)”。
Renen Hallak: 没错。
John Furrier: 就像火箭一样——火箭的关键在于不能爆炸,也不能从它上面掉下来,对吧?那么你如何保持竞争策略的持续?你的产品策略是什么?你们如何保持竞争力?那些超大规模云计算公司(hyperscalers)是你的朋友还是敌人?你的市场策略是什么?告诉我们你的优势在哪里。
Renen Hallak: 我们的工作方式是倾听客户的需求。我们精心选择我们的客户,喜欢与具有前瞻性思维的组织合作。在AI成为热点之前,我们的许多客户已经在做AI了。今天,这些客户是大型语言模型的构建者、AI云——我们喜欢与这些处于前沿的公司合作。然后他们告诉我们需要构建什么,我们就为他们构建。两三年后,其他公司也想要同样的系统、同样的产品。所以我们将客户视为设计合作伙伴。
John Furrier: 你们在这方面做得很出色。我认为你们做得非常好。我想最后和你谈谈文化。
Renen Hallak: 好的。
John Furrier: 每个公司都有自己独特的节奏。Intel有摩尔定律,每隔几年性能翻一番。每家公司都有那种来自创始人的独特基因。VAST的文化是什么?我有我的看法,但我想听听你的观点。
Renen Hallak: 是的,我们喜欢大挑战。我们喜欢——就像我们的名字所暗示的——一切都与太空有关。我们喜欢这个非常非常大的空间概念,这从数据开始,但最终回归到我们的文化。我们喜欢设定那些看似不可能的目标,然后作为一个团队去实现这些目标,不让任何东西阻碍我们前进。没有组织结构能阻碍我们,没有政治能阻碍我们。这是一项共同的任务,为了实现目标,我们会付出一切努力。
John Furrier: 所以非常以任务为导向、以目标为导向——任何阻碍这个目标的东西都会被推到一边。
Renen Hallak: 完全正确。
John Furrier: 那这对员工来说是怎么运作的?是像亚马逊那样的“在生产线上烘焙”?你们公司的权力动态是什么?
Renen Hallak: 你需要某种类型的人喜欢这种挑战。很多人都是A型性格。他们喜欢彼此合作,因为他们意识到这些挑战对他们来说过于庞大,无法独自完成。正如你所说,我的工作是设定目标,然后清除阻碍人们前进的障碍,因为他们比我更懂得如何完成这些任务。所以在某个领域内,谁是专家,我们就听谁的意见。如果出现分歧,我们就回到基本原理,弄清楚什么是有效的,什么是无效的,很快我们就能达成一致。
John Furrier: 最后一个问题:你未来的重点是什么?你个人的主要关注点是什么?
Renen Hallak: 我希望确保我们不会搞砸。正如你提到的,我们非常幸运。
John Furrier: 我并没有说你们是幸运的,我说你们做得很好。
Renen Hallak: 我认为我们非常幸运能走到今天这一步。我们构建的产品解决了一个日益严重的大问题。我们能做到这一点,是因为这些新兴的底层技术。考虑到这个市场的巨大潜力,目前竟然没有多少竞争对手,这让人感到惊讶。因此我们需要确保不出差错。这是我们每天早上驱动我们的动力。
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)





