本文整理自2024外滩大会“Data+AI”见解论坛骆骥(蚂蚁集团数据平台与服务部负责人)的演讲实录
在过去这两年时间,生成式人工智能在科技领域取得了重大的突破,海量的数据和庞大的算力相碰撞,推动了无数科技产品的创新。在这样一个快速发展的智能化时代下,我们也看到数据技术领域也正在飞奔,进入一个全新的历史阶段,一个充满着史无前例的挑战与机遇的阶段。

在我们深入探讨当下的数据智能体系之前,想先和大家一起简要回顾一下数据领域技术发展的历程。在90年代,互联网悄然来临。在这个时代里,高效的数据库存储与管理技术,为广大中小微企业的信息数字化奠定了基础,有效支撑了电子商务等业务的发展。相应的,数据库等数据领域技术也一步步的向着高性能、高可用等方向发展。

当我们时间来到2003-2006年这三年间,MapReduce、Bigtable和Google File System三篇关于大规模分布式数据存储和计算分析的论文,开启了工业界的大数据时代。与此同时,随着移动无线互联网的普及,智能手机、各类APP应用、小程序的应用,使得数据画像的丰富度得到空前提升,基于大数据技术的千人千面的更加个性化的服务蓬勃发展。在这样的一个大数据的时代下,面向大规模数据极致的成本、性能和效率成为我们数据技术发展的主旋律。
2017年,一篇“Attention is All You Need”论文为生成式人工智能的发展奠定了关键的基础。以大模型为核心的智能化技术,围绕智能体的开放生态,让未来每个人都拥有全方位智能管家的服务成为可能,这也让数据领域开启了一个数智融合的新时代。
数据体系正在从成本&效率中心向价值中心转变
01 数据生产方式的拓展
首先,数据生产方式的拓展是数智融合时代的一个重要标志。传统的搜索推荐和千人千面的服务重度依赖全网信息汇集,即通过网络爬虫等技术手段在合法合规的条件下广泛的抓取互联网上的公开数据,以及融合私域的专有数据为用户提供个性化的服务。
我从工业界的角度也想再次强调数据的标注也非常重要。就像传统教育界从小学开始经过培训,这些教材都是通过专家、学者编撰而成的,都是人工产出的。在大模型时代下,数据标注与合成技术是确保大模型训练所需的数据品质的关键,也是未来各方持续构建并提升生成式人工智能核心竞争力的关键。
这种由量向质的数据生产方式的变革,不仅显著提升整个智能化系统的可靠性,还会极大的提高了其处理复杂任务的能力,从而真正意义上推动了数智融合时代的发展,使其能够在更多的垂直行业领域内展现出前所未有的应用潜力,打开当下智能化的天花板。
02 数据资产加工与服务的演进
1.数据的形态正在从结构化向非结构化延展

2.数据服务正在从面向用户向面向机器与智能体延展

在这两者基础上,相应的数据服务业会发生延展,包括:
第一,在面向机器与智能体的的交互模式下,Agent之间的语义表达的革新,可以突破传统的面向人的视听表达,更加高效。例如,传统的人类视觉关注像素和由它们产生的色彩、饱和度这些信息,而在Agent处理特定任务时(比如检测、分割、识别、跟踪等),所需要的只是里面的某些特征值,就可以在保持性能不下降地完成给定任务。我们注意到,在生成式人工智能下的多媒体数据的特征有许多预设可控的空间,所以在Agent应用之间的表达效率可以显著的提高。
第二,在新的沉浸式交互下,基于生成式人工智能构建的多媒体数据的编解码方式,以及基于生成式人工智能的渲染方式,都面临着新的挑战。举几个例子,由于视频内容是生成的,ROI区域可能是已知的,这样我们就可以利用这些额外信息进行失真率优化和更有效的分配码率。另一个例子是在生成式智能的渲染中,可以根据要生成的对象物体,根据预设的光流信息,进行更加高效的编解码。
第三,在多Agent协作下,我们对延迟和吞吐有着很高的要求(特别是人机交互对表达延迟的敏感度,以及沉浸式交互对数据高吞吐量的要求),而当这些要求遇上复杂的网络环境(例如弱网状态),如何提供平滑的服务体验是一个全新的挑战。
3.数据形态与处理方式的延展,开拓更多的价值机会

另一方面,数据资产的加工服务正在从面向用户向面向机器与智能体延展。在面向Agent的语义表达,生成式人工智能下的编解码、渲染,以及多Agent网络数据传输等领域都提出了新的技术命题。
03 数据应用新范式的挑战
1.新搜索、新交互等创新场景下标量与向量数据的混合检索

第一,在新搜索、新交互等创新场景下,标量与向量数据的混合检索是一个非常关键的且具有极大用户价值的技术命题。有别于传统的搜索中的围绕关键词交互,在新搜索下,以自然语言、多模态数据为载体的交互将会极大的降低用户的使用门槛,提升交互效率。例如,我们可以很便捷的通过手机摄像头去捕捉并检索一瓶感兴趣的红酒。这瓶红酒的信息检索既可以以传统的内容理解加关键词检索方式完成,也可以直接通过向量化的方式进行相似性检索。
值得一提的是,在保证一定的准召率的条件下,标量与向量数据混合检索背后的存储成本与检索性能(例如延迟)是未来数据存储基础设施的关键技术竞争力之一。此外,在未来的多模态搜万物的模式中,我们需要将万物与文字、特征都建设在一个超高维的向量空间中,这样的向量化数据的索引构建在时间和资源上有很大开销,是十分具有技术挑战的难题。
2.面向应用效果的不确定性:围绕数据的实验迭代原生工程体

3.面向数据生态:开放的数据价值发现与流通体系

其次,在海量的数据集中,如何寻找到有价值的数据子集,对构建行业垂类的智能化应用十分重要。过去我们十分依赖专家经验,经常通过人工筛选的方式完成这样的工作,但是一方面,这显然没有办法支撑未来行业垂类智能化应用的规模化发展和迭代。另一方面,这也没有办法回答一个问题——“在一个庞大的融合数据湖中,我们到底有没有将数据的价值充分的释放?”我们认为,数据价值的主动发现是未来融合数据湖的一项关键能力。
展望:数智融合时代下的蚂蚁智能数据体系
我们刚才聊完以价值为中心的数据生产、加工服务方式的演进和应用范式的挑战,我们将在此分享过去两年里,蚂蚁数据在智能数据体系方面的一些工作。

在过去的两年里,我们一直努力在构建这样一个围绕融合数据湖的,底层基于全模态存储与计算引擎,上层面向丰富的业务应用场景,提供各式的数据驱动的智能化应用服务与能力,并取得了一些阶段性的进展。
在底层的全模态存储与计算引擎方面,我们从传统的KV存储、对象存储、文件存储持续拓展,构建了行列混存,以及面向新搜索新交互的向量数据库能力,并且为大模型训练打造了全模态缓存加速的新型存储技术产品;我们从传统的流批一体计算出发,深化了非结构化数据计算中的特征提取、可编排算子能力,在数智融合时代的多媒体数据技术领域积极布局,包括面向机器与智能体的编解码、端边云计算与渲染等。我们也在加速构建面向未来的混合检索与分析计算引擎。
在核心的融合数据湖里,我们相信结构化数据、半结构化数据与非结构化数据一定要能够充分有效的融合在一起。除了传统的数据管理与治理、端云/跨云的数据融合和隐私保护之外,我们认为统一元数据、支持三线一致和Single Source of Truth,以及特别针对非结构化多媒体数据的安全与可信能力是几大关键要素。
在上层的数据应用中,我们秉承着“围绕价值的数据驱动”理念。这其中包含了高价值数据的生产(包括数据引入、数据感知、数据标注、数据合成),也包含了全模态的数据研发和面向机器与智能体的新特征服务。这其中还包含了数据应用新范式中的数据价值发现、数据要素流通、数据评估、分析与实验工程体系等。我们也利用生成式人工智能技术构建了数据领域的众多智能体,进一步降低了数据洞察分析的门槛,极大的提升了数据洞察分析的效率。
回到开篇,在这样一个快速发展、日新月异的智能化的时代下, 我们看见,数据技术领域也正在飞奔进入一个全新的历史阶段,一个充满着史无前例的挑战与机遇的阶段。我们相信,整个智能数据体系正在从过去的成本&效率中心向价值中心转变。
在未来,秉承蚂蚁集团的使命愿景,蚂蚁数据会坚持数据驱动,创造无限的价值,通过数智融合,普惠美好的生活。
谢谢大家!




