暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大模型时代最懂数据的公司 databricks

Databricks:大模型时代最懂数据的公司

Snowflake 和 Databricks 是一堆老冤家,每年发布会两家公司都是在差不多时间开。前面先看了 snowflake的 2024 年summit,感觉 snowflake 不再是个数仓公司了,有兴趣了解的可以移步:

snowflake 不再是个数据仓库公司了

趁周末把 databricks 的 2024 summit 也看了下,照惯例,先上结论:

  • 理念较为实用,要从通用智能到数据智能,从单独的大模型到 compound AI系统,大模型时代最懂企业数据的公司,坚持企业数据的价值。

  • 统一 Data+AI 治理,包括统一元数据,JSON 格式支持,甚至监控都同时支持两者

  • Mosaic AI 和 databricks 还在融合,只通了部分的元数据。发布会也是割裂的。

  • lake flow的推出代表 databricks 开始动手把周边也做了。


都在说企业数据价值,但是现在看这块做得最深入的还是 databricks。

Databricks 2024 summit 有意思的部分

具体发布会内容大家到 youtube 上看,这里 highlight 一些有意思的点,以及 databricks 明确的观点的部分,可以一起看看,或许对正在做这块平台研发的 PM 和 RD 有启发。

看点 1:从通用 AI 到数据 AI,通用智能到数据智能,理念核心体现的是懂企业数据,有数据的智能才能结合企业业务。



看点 2:Databricks Mosaic AI 提供生产级别的compound AI Systems,从数据准备,模型构建,部署,评估,治理全链条有能力

客户实际 case: 用开源大模型做预处理,向量里面预取数据,商业模型生成增强,商业模型做最后的整理,准确率 85%,时延6s

看点 3:提供 AI 智能体框架,提供 sdk快速构建 agentic 或者 rag应用;提供 serving 能力,快速部署 Agent

看点 4:数据智能平台,两大支柱,统一格式,统一元数据。统一格式 GA,统一元数据开源。

统一格式 GA

统一元数据开源

看点 5半结构化数据,稀疏数据大量新增,需要新的数据结构才能处理。string 效率不高,支持JSON

新格式 VARIANT 比 string快 8 倍,又能解决半结构化,稀疏数据的问题

看点 6:数据治理还是 AI 的难点。开放存储,开放访问,统一元数据是理想的架构

databricks 开放连接,统一数据治理(核心是统一元数据),开放访问,各种计算引擎都支持

看点 7:lakehouse monitoring 支持大数据,AI两个场景,说明 lakehouse 确实做的比较深入了

看点 8:通过统一元数据的 metrics 实现业务到数据的映射,从而能理解业务数据


看点 9:跨组织分享三招(delta sharing、marketplace、Clean rooms)

clean room,一方提供数据,一方提供 AI tasks,数据不出 clean room

看点 10:新版本 Spark解决了不支持 native Python,升级维护困难,和非 JVM 环境交互困难的几大难题

pyspark 能力比较完善了

抽象一个 connect API,spark driver全部微服务化,connect 是 API 兼容的,所以解决了依赖,版本升级等问题。

看点 11:spark 4.0 preview 版本出来了

看点 12:自己做lake flow,数据集成的工作都自己做了

看点 13:支持用自然语言修改代码

最后,2024 发布汇总

-----------------

欢迎加作者微信交流!

大模型时代数据库技术创新

深度解读大模型最火的智能体(Agent)

大模型 Copilot 和 Agent 有什么区别?

一次性把“AI 原生应用技术栈”说明白

文章转载自大数据和云计算技术,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论