暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

2024 云栖大会第二天之大数据和 AI

481

前面看了第一天 CEO,CTO,第二天基础设施,数据库,接下来把大数据讲一讲。

阿里云大数据也换了掌门人,现任是汪军华,前一任贾扬清回硅谷创业去了(贾扬清的前任就是当前阿里云的 CTO 周靖人),公司应该叫Lepton AI,主业应该是搞 AI 大模型,应用部署的。但也搞了几个模型,比如实时youtubue 视频转译,实时语音交互这些。

有兴趣的可以去官网看看(https://www.lepton.ai/),下图是官网扒过来的架构图。

就是这位,背景是微软的搜索和人工智能平台工程副总裁。

阿里云是全球前五云唯二提供全栈能力的,另外一个是 Google,国内唯一。

快评:这个说实话不是什么好的论据,当前 AI 搞的最好肯定是 Azure,Google 都掉队了,那还比肩 Google,并没有给阿里云加分。其实可以再想想怎么表达自己的实力?

阿里云CTO 2 年前提出了 MaaS 这个概念。

快评:这个不太经得住考证,稍微较真,去搜索一下,美国人 10 年前就提出这个概念了。不知道为啥说是周靖人提出来的?不过这三步的分法没啥毛病。

AI 应用三要素:模型,卡,数据

快评:没毛病,数据越来越重要了。

总结 AI Native 目前 6 大痛点,后面都是按这个展开的。

快评:这几点逻辑性不是很强,所以导致不好讲。大家可以看看视频回复,会发现汪老板讲的时候也不是特别顺,写材料的同学要打屁股。

Data Lake Formation 把元数据全部管起来了,形成了统一的管理。

maxcomputer 推出 ObjectTable,增强了非结构化数据处理。

快评:maxcomputer 早期是为了替代 hadoop自研,非常出名的 5K 项目就是 max computer,这个服务早期叫 ODPS。云上逐步发展成一个综合的计算服务,搭配 dataworks,给客户做数据中台还是比较经典的。不过现在互联网头部客户都想从里面迁出来,主要客户反馈还是贵,已经被锁定了。

全栈的数据处理方案,自研,开源,搜索,AI 训练推理,数仓都包括。

flink 推出 uniflow 实现流批一体

hologres 推出 dynamic table,支持流式,增强,全量数据变更

快评:hologres 是为了弥补 max computer 在实时性上不足诞生的。

各个计算引擎的升级,EMR,Flink 性能增强,maxcomputer 支持deltatable,近实时方案。全产品的支持 Serverless。

快评:这一页更莫名其妙,几个东西都不是一个维度的,汪总应该去打写 PPT 同学的屁股。

接下里讲一体化的工具和平台

dataworks 现在承担 data+AI 的协同开发平台

dataworks 用 notebook 来串联数据和 AI 的 workflow。

上面所有这些,组成了新的 Openlake 解决方案。

快评:类似 databricks 的提法,不过 databricks 是一个产品,阿里是解决方案。

Openlake 展示,上面是 datawokrs 负责开发,中间是各类计算,AI 引擎,DLF 负责元数据关联,数据承载在对象存储上(数据湖上)

基于 OpenLake 构建 RAG 系统的例子

接下来讲搜索,包括文本和向量搜索,向量搜索用的是 milvus。

和 ES 公司进一步深度合作,升级了最新的企业版本,带了 AI 的能力。

快评:阿里 O 的 ES 原厂,生态合作这块,阿里做的比 AWS 还能好点。

ES VP 介绍策略,和阿里的合作等等。

OpenLake 可以用到的 6 大场景。

快评:大数据场景基本都覆盖了,包打天下。

人工智能平台 PAI,新增了基础模型,数据处理,效果评测,模型调优等能力。

快评:大模型这个是非常重要的服务,发展慢了都不行!有些厂商会单独拿出来,推出 model builder。但其实合并到做更合适,大模型相比传统小模型,从开发管理角度,两者有很多可以共用的地方。

MC 和 PAI 结合的例子

快评:这里想讲的是 Dataworks+MC 可以管数据血缘,然后送给 PAI 处理吧。说实话没看到 MC 在哪里?知道的同学帮忙留言指正一下。

接下来讲成本优化

算力总量提升,利用率提升。

PAI 推理服务全面升级

发布训推一体调度引擎

快评:怎么一体化,没展开讲?

分布式训练服务也升级了。

安全能力,可信 AI,6 个方面。

阿里云大数据 AI 平台整体架构

各类服务打折

Openlake 推免费版本

快评:鼓掌

总结:

阿里云大数据 AI 平台在国内还是非常领先的,有几个点

1、服务非常全

2、大数据方面也紧跟业界潮流,OpenLake 方案。各种引擎性能,实时性升级等。

3、dataworks打通大数据和 AI 的结合

4、AI 训练推理规模,模型支持,模型调优能力支持到全

一点小小吐槽:

汪总这个 PPT 逻辑组织的太糟糕了,不管是整体逻辑,还是具体到单张 PPT,都有比较明显的强凑的痕迹。汪总缺一个 PPT 总舵手!哈哈


文章转载自数据库和 AI 技术,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论