2023年6月26日,旧金山一家拥有 10 年历史的软件制造商 Databricks宣布将以 13 亿美元收购 MosaicML,这是一家拥有三年历史的旧金山初创公司,专注于将人工智能带出实验室。
这笔交易不仅标志着白热化的生成人工智能市场对资产的热情,也是现代云数据库市场性质变化的标志。

Naveen Rao[左] MosaicML 联合创始人兼首席执行官,以及联合创始人兼首席技术官 Hanlin Tang。
该公司的培训技术正在应用于“构建专家”,使用大型语言模型更有效地处理企业数据。
什么是 ChatGPT?它为什么重要?这是你需要知道的
MosaicML的员工都是半导体资深人士,他们开发了一个名为 Composer 的程序,可以轻松且经济地采用任何标准版本的 AI 程序(例如 OpenAI 的 GPT),并显着加快该程序的开发速度,即开始阶段,称为训练神经网络。
该公司今年推出了基于云的商业服务,企业可以付费训练神经网络并执行推理,根据用户查询呈现预测。
然而,MosaicML 方法中更深刻的元素意味着数据处理的整个领域(例如传统的关系数据库)可以完全重新发明。
MosaicML 联合创始人兼首席执行官 Naveen Rao 在交易前接受 ZDNET 采访时表示:“神经网络模型实际上几乎可以被视为某种数据库,尤其是当我们谈论生成模型时。”
“在非常高的层面上,数据库是一组通常非常结构化的端点,因此通常是某种数据的行和列,然后,基于该数据,有一个您可以组织的模式它,”拉奥解释道。
Rao 表示,与 Oracle 等传统关系数据库或 MongdoDB 等文档数据库不同,后者的模式是通过大型语言模型预先确定的,“模式是从[数据]中发现的,它会产生潜在的表示形式基于数据,它是灵活的。” 而且查询也很灵活,不像 SQL 等数据库的固定查找在传统数据库中占主导地位。
使用 OctoML 的 OctoAI 为生成式 AI 提供服务变得更加容易
“所以,基本上,”Rao 补充道,“你使用了数据库,放松了对其输入、模式和输出的限制,但它仍然是一个数据库。” 此外,以大型语言模型的形式,这样的数据库可以处理传统结构化数据存储无法处理的大块数据。
“我可以摄取一位作者的一大堆书籍,并且可以查询这些书中的想法和关系,这是仅通过文本无法做到的事情,”拉奥说。
在法学硕士中使用巧妙的提示,提示上下文提供了查询数据库的灵活方法。“当你以正确的方式提示它时,你会因为提示创建的上下文而让它产生一些东西,”Rao 解释道。“所以,你可以从中查询原始数据的各个方面,这是一个非常大的概念,可以应用于很多事情,我认为这实际上就是为什么这些技术非常重要。”
MosaicML 的工作是一项广泛运动的一部分,该运动旨在使ChatGPT 等所谓的生成式 AI 程序与实际商业目的更加相关。
Stability.ai 创始人表示,为什么开源对于减轻人工智能恐惧至关重要
例如,位于旧金山的一家成立三年的人工智能初创公司 Snorkel 提供的工具可让公司编写函数,自动为所谓的基础模型(现有最大的神经网络,例如 OpenAI 的 GPT-4)创建带标签的训练数据。
另一家初创公司 OctoML上周推出了一项服务,以简化提供推理的工作。
Databricks 的收购使 MosaicML 进入了充满活力的非关系数据库市场,多年来该市场一直在将数据存储的范式转变为行和列之外的模式。
其中包括 Hadoop 数据湖、对其进行操作的技术以及 Apache Spark 的映射和归约范式(Databricks 是其中的主要支持者)。该市场还包括流数据技术,在某种意义上,数据存储可以存在于数据本身的流动中,称为“运动中的数据”,例如 Confluence 推广的 Apache Kafka 软件。
最好的人工智能聊天机器人:ChatGPT 和其他值得注意的替代品
MosaicML 在交易前筹集了 6400 万美元,吸引了拥有语言模型的企业,这些语言模型不是 ChatGPT 形式的通才,而是更专注于特定领域的业务用例,Rao 称之为“构建专家”。
人工智能(包括生成式人工智能)的流行趋势是构建越来越通用的程序,能够处理各种领域的任务,从玩视频游戏到聊天,到写诗、为图片添加字幕、编写代码,甚至控制机械臂堆叠积木。
人们对 ChatGPT 的热情表明,当它可以用来处理任意数量的请求时,这样一个广泛的程序是多么引人注目。
人工智能初创公司 Snorkel 为企业人工智能培养了新型专家
然而,个人和机构在野外使用人工智能可能会以更加集中的方法为主,因为它们的效率要高得多。
“我可以为特定领域构建一个较小的模型,其性能大大优于较大的模型,”Rao 告诉 ZDNET。
MosaicML 通过在MLPerf 基准测试中展示其强大的性能成就而闻名,该测试显示了神经网络的训练速度。加速人工智能的秘密之一是观察到,更专注的更小的神经网络可以更高效。
麻省理工学院科学家 Jonathan Frankle 和 Michael Carbin在 2019 年的一篇论文中广泛探讨了这一想法,该论文在当年的国际学习表征会议上获得了最佳论文奖。该论文引入了“彩票假说”,即每个大型神经网络都包含“子网络”,这些子网络可以与整个网络一样准确,但计算量更少。
成为人工智能提示工程师需要的六项技能
Frankle 和 Carbin 一直是 MosaicML 的顾问。
MosaicML 还明确利用了Google DeepMind部门探索的技术,这些技术表明训练数据量和神经网络大小之间存在最佳平衡。通过将训练数据量增加一倍,可以使较小的网络比同类较大的网络更加准确。
所有这些效率都被 Rao 概括为他所谓的网络加速摩尔定律。摩尔定律是半导体的经验法则,它粗略地规定,在价格相同的情况下,芯片中晶体管的数量每 18 个月就会增加一倍。这是经济奇迹,使个人电脑革命和随后的智能手机革命成为可能。
Google 和 Nvidia 在 MLPerf AI 训练基准测试中得分最高
在 Rao 的版本中,只需通过 MosaicML Composer 工具应用智能计算技巧,神经网络每一代的速度就可以提高四倍。
这种方法产生了一些令人惊讶的见解。第一,与经常重复的说法相反,即人工智能的机器学习形式需要大量数据,如果像 DeepMind 的工作那样应用于数据和模型的最佳平衡,较小的数据集可能会很好地发挥作用。换句话说,真正的大数据可能并不是更好的数据。
与 GPT-3 等在互联网上的所有内容上进行训练的巨型通用神经网络不同,较小的网络可以成为公司有关其领域的独特知识的存储库。
“我们的基础设施几乎成为根据人们的数据构建此类网络的后端,”拉奥解释道。“人们需要建立自己的模型是有充分理由的。”
谁拥有代码?如果 ChatGPT 的 AI 帮助您编写应用程序,它仍然属于您吗?
“如果你是美国银行,或者如果你是情报界,你就不能使用 GPT-3,因为它是在 Reddit 上训练的,它训练了一堆甚至可能包含个人身份信息的东西,而且它可能没有明确允许使用的东西,”拉奥说。
出于这个原因,MosaicML 一直致力于推动大型语言模型的开源模型的可用,以便客户知道哪种程序正在作用于他们的数据。生成式人工智能领域的其他领导者也持同样的观点,例如 Stability.ai 创始人兼首席执行官 Emad Mostaque,他在 5 月份告诉 ZDNET,“你不可能使用黑盒模型”来处理世界上最有价值的数据,包括企业数据数据。
MosaicML 上周四开源了其最新版本的语言模型,该模型包含 300 亿个参数或神经权重,称为 MPT-30B。该公司声称 MPT-30B 的质量超过了 OpenAI 的 GPT-3。该公司表示,自 5 月初推出开源语言模型以来,该语言模型的下载量已超过 200 万次。
尽管自动发现模式可能对数据库创新来说是卓有成效的,但重要的是要记住,大型语言模型仍然存在诸如幻觉之类的问题,程序会产生错误的答案,同时坚称它们是真实的。
ChatGPT 与 Bing Chat:哪种人工智能聊天机器人更适合您?
“人们实际上并不理解,当你问 ChatGPT 的某些问题时,很多时候它都是不正确的,有时听起来很正确,就像一个非常好的胡说八道艺术家,”Rao 说。
“数据库期望绝对正确性和可预测性”,基于“过去 30、40 年在数据库领域设计的许多东西,对于某种类型来说,这些东西需要是真实的,或者至少大部分是真实的”。的新方法,”Rao 观察到。
“人们认为它(大型语言模型)可以解决他们遇到的所有问题,”企业利益相关者 Rao 说道。“让我们弄清楚真正实现这一目标的具体细节。”
文章来源:https://www.zdnet.com/article/databricks-1-3-billion-buy-of-ai-startup-mosaicml-is-a-battle-for-the-databases-future/




