暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

高雪峰:企业迈入智能化时代,最应该关注数据基础设施

Fabarta 2023-09-26
202
在刚结束的 Fabarta 首届产品和用户大会上,Fabarta 创始人兼 CEO 高雪峰在“数联世界、智见未来”的主题演讲中,分享了 AIGC 技术发展带来的机遇和挑战,以及构建面向智能应用的数据基础设施的必要性。Fabarta 致力于通过多模态智能引擎等产品矩阵,助力企业实现决策智能化。
欢迎各位来到 Fabarta 首届产品和用户大会。今天的主题是“数联世界,智见未来”,这也是 Fabarta 成立以来一直践行的愿景,通过探索和联结数据资源,助力企业实现智能驱动的持续创新。
高雪峰|Fabarta 创始人兼 CEO
回首 2023 年,我们见证了 ChatGPT 的火爆出圈,AIGC 这个词进入大众视野,让各行各业的人们感叹强人工智能的时代即将到来,很多人担心自己是否会被人工智能所取代。尽管在过去的大半年里,生成式人工智能成为全球资本、企业、用户的持续关注的焦点,但是,生成式人工智能仍然没有被大规模的应用于企业的场景之中。
也是在 2023 年,成立了直属于国务院的全国大数据局,同时积极推进数据要素市场的建立以及企业数据资产的入表。任何一家企业,都开始关注自身过去几十年信息化,数字化进程当中都积累了什么样的数据资产,回顾的过程中,很多企业会发现自身数据资产利用程度低,数据资产建设面临挑战。
此外,我们面临的挑战还包括全球宏观经济下行,全球大宗商品交易,供需关系持续不稳定,导致了我们现在全球经济缺乏增长的根本动能。最新的数据表明,印度人口历史上首次超过了中国人口,原来为我们所习惯的人口红利,低成本的流量即将不复存在。所以国家政府工作报告提出,我们要从高速经济增长转化成高质量的经济增长。我们的产业形态必须从劳动密集型向知识密集型的高科技产业转换,引发了原有的资本、流量之争向核心科技之争的转化。这些挑战使大部分企业和经济体都更加关注效率与成本。
因此,如何突破效率与成本的禁锢,构筑企业的核心科技壁垒,将科技融入到产业当中,从而实现差异化竞争,带来业务的飞跃,成为当前形势下,每一个企业发展的唯一路径。如何突破科技的封锁,进而释放真正的生产力成为了我们每一个人都要思考并为之奋斗的事业。然而,挑战与机遇并存。AIGC 技术的火爆迅速引发了人工智能产业链的变革,对传统的数字化体系带来了巨大的冲击。在这样一个冲击下,如果一个企业能发挥技术的红利,把真正先进的领先技术应用到实际的工业场景当中,一定会能爆发出巨大生产力,给企业带来巨大的生产力变革。
在过往 40 多年高速数字化转型历程当中,中国有着丰富的业务场景、数据和算力的积累。可以让我们更加快速地将创新的技术在复杂场景当中不断地尝试、落地、调整、再尝试。我们的数据不断地在积累,我国的数据存量在当下都已经稳居世界第二位,而且持续以每年 20%以上增速在不断增长,预计在 2025 年,我国数据总量将占世界数据总量的百分之 20,如此大的数据体量和丰富度,为人工智能提供了丰富的基础。同时,我们也积累了非常庞大的算力,拥有超过 200 EFLOPS 算力的集群。我们在算力、数据、以及业务上的沉淀,让我们业务具备了全面迈向数字经济时代的条件。 
全面迈入数字经济时代,数据已经成为唯一的经济生产要素。不管怎样的经济主体,其中最关键的因素是生产要素。在农业经济社会土地是最重要的生产要素,有了土地我们就拥有了一切,所有经济活动,业务增长都是围绕着那个时候的生产要素所展开的。迈入工业经济时代,那时候的生产要素,资本和技术交相辉映,彼此配合,推动了我们过往非常高速和快速的工业机械时代的发展,使人类生产活动产生了日新月异的变化。现在我们已经全面迈入了数字经济的时代,在数字经济时代,唯一的生产要素就是数据,我们所有经济活动,都是围绕着数据展开。
这是网信办推出 2022 年数字中国工作报告,里面提出了 2023 年是我们数字中国的起步之年。我国数字经济的规模已经突破了 50 万亿,其中电子信息制造业突破了 15 万亿,软件业务突破了 10 万亿规模,连农业信息生产覆盖率也已超过了 25%。我国数据产量和数据存量已经稳居世界第二,而且增速遥遥领先。
即使这样,我们仍然说 2023 年是数字中国起步之年。Fabarta ,围绕着建设数字中国的四个核心关键点,致力于夯实数字中国基础,全面赋能经济社会发展,强化数字中国的关键能力,优化数字化发展环境,打造产品完全自研,独立自主可控的智能时代的数据基础设施。
为了迈入真正智能化时代,企业管理者应该关注企业核心数据基础设施的建设。未来智能化时代数据基础设施到底是什么形态,以什么样的技术栈实现,我们从人工智能历史发展曲线和数据基础设施演变历史两个维度给大家做一个回顾。
从 1956 年达特茅斯会议提出人工智能这个概念,人工智能的发展曲线经历了非常多的波峰和波谷,但是不管什么样的波峰和波谷,都是概率和符号逻辑这两个技术体系交相辉映、此起彼伏的一个进程。在过去,以图智能和专家系统为代表的符号逻辑推理系统曾经在第二次人工智能的波峰风光一时,但是构建整个智能体系的成本非常高,很难落地实际应用场景使其快速回落到了波谷。当前所处的第三次人工智能技术的波峰,就是深度学习为代表的概率体系的持续发展,直到现在 AIGC 的技术栈爆发。纵观历史所有发展,人工智能要真正的达到企业智能的巅峰,一定离不开符号逻辑和概率的共同作用。
再谈数据基础设施,在信息化时代的数据基础设施是关系型数据库,当演变到了数字化时代,我们需要用数据的价值指导业务价值的提升,于是这时候又涌现出了新的数据基础设施,经典数仓、大数据、数据湖以及后来的中国特有的数据中台。当企业迈向真正的智能化时代后,一定会有一个独特的属于那个时代的数据基础设施。同时那个时代的数据基础设施一定能够帮助 AIGC 技术迈向企业端决策智能的巅峰,最终达到通用人工智能。
Fabarta 致力于打造的,就是智能化时代的核心的数据基础设施。我们希望我们的产品,可以帮助万千企业打造核心的面向智能应用的数据基础设施,从而更好、更方便、更加放心地将包括生成式人工智能技术在内的智能技术应用到企业决策智能领域,最终带来业务价值的巨大飞跃。在此我想分享人工智能技术在企业端去落地的时候,会遇到的一些关键挑战。

在智能化时代,我们面临的挑战包括数据安全可控,AI 决策链路逻辑的可解释性,减少幻觉,高效利用数据,增强推理逻辑等。这些挑战中有一些实际的问题,比如大模型训练后的数据隔离,人工智能决策链路和逻辑,大模型的幻觉问题。带着这些挑战,让我们看数据基础设施需要具备哪些要素。

这个时代的数据基础设施,我们需要关注三点:
第一,要把企业丰富的多模态数据资产变得 Ready  for  AI,企业中所有数据的资产显式关系,隐式关系,以及所有数据资产特征抽象都需要融合在统一的数据存储当中,凭此绘制一张真正的企业数据资产的庞大导航地图,这样才能真正把企业数据资产为己所用,为 AI 所用。
第二,要为人工智能的算法提供长效记忆体,把我们真正核心的数据使用前,使用中和使用后的数据真正能够存储和记忆下来,同时辅助我们人工智能算法去提供更好的逻辑推理能力。
最后,使用企业沉淀的精准的知识,和大模型当中积累的泛化知识,通过低代码的方式将两者连接起来,并实现知识的自由流动和能力的固化沉淀。这就是从上一代传统的数据中台向下一代知识中台的演进。

所以,我们提出了以数据为中心的 AIGC 体系架构。自然界中原始的数据可以通过图的结构和向量的抽象去完整表达。比如说,当我们为客户做企业内容 CoPilot 案例的时候,我们发现企业内丰富的文档信息可以把很多特征抽象成向量存储下来。这些文档之间,文档和作者之间,作者和作者之间有着非常丰富的确定性关系,适合用图的结构存储下来。同时不同文档之间可能存在一些隐性关联关系,相似关系,推理关系,这样的信息需要用向量的抽象来计算。我们的数据基础设施可以很容易把数据的抽象和它们之间的关系用图和向量存储下来,它代表的自然界当中数据的确定关系,模糊关系,以及所有特征向量的信息。

也就是说,在智能化时代,传统数据引擎当中的存储和计算演变成了符号的记忆和逻辑的推理。基于这样的数据基础设置架构,我们可以实现多模态融合计算,包括图计算,向量距离计算,图与向量的融合计算,AI推理,规则引擎等等,都是我们可以提供的多模态的融合计算的能力。

所以我们构筑了以 Data  Centric  AIGC 为核心的 AIGC 落地架构范式,围绕着数据以及数据之间的关系(图和向量融合)所代表的企业数据,我们可以帮助大模型进行推理的增强,为它提供长效记忆能力,同时,也可以为其本地数据的 fine-tune 甚至预训练提供结构化的数据集,同时,作为本地知识库可以不断地进行知识的沉淀,提供可解释的智能,并为 AI Agents 打造核心的数据引擎。我们不止将数据和数据之间显性,确定的关系记录在我们的数据引擎中,通过向量的距离计算,我们还可以找到数据之间的隐含关系,成为了真正 AI 时代可以自生长的有机数据记忆体。

依托 Data Centric AIGC 的架构范式,我们推出了一体两翼的产品矩阵,以 ArcNeural 多模态智能引擎为核心,融合了图、向量和 AI 推理能力于一体的多模态智能引擎。之上,ArcFabric 多模态数据编织平台帮助企业实现 data ready for AI, ArcPilot,填补数据引擎与大模型跟企业智能应用结合的最后一公里距离。我们的产品矩阵推出之后,帮助很多头部客户解决了很多棘手的问题,并建立了非常好的合作伙伴关系,横跨金融,汽车,制造,医疗等。

凭借着一体两翼产品矩阵,我们可以帮助客户解决很多问题:
第一,企业数据资产的智能化管理。在实现企业数据 Ready  For  AI 的进程当中,我们可以帮助企业清晰盘点其数据资产,并通过关联分析告知哪些数据资产具有价值,哪些不具有价值。这样的基础架构也构建了企业迈向未来的 Data Fabric 架构的核心基础设施。
第二,智能驱动工作流,提供可解释智能。无论是在传统的金融行业的风控、营销、反欺诈、反洗钱,还是公安、政府、能源和企业数据链路丰富的领域,各个行业各个领域我们都可以为客户基于我们的图智能技术来提供可解释的智能。可追溯、可解释、可管理,逻辑链路可视化是企业级智能的一些通常需求,以图技术为核心,伴随着 AI 能力的扩展,ArcPilot 协同 ArcNeural 多模态引擎可以很好的帮助我们的客户建立可解释智能。
第三,解决 AIGC 技术在企业场景落地问题。从年初 ChatGPT 的火爆出圈,带出了企业场景落地的强烈需求,但是鲜有很好的落地场景,归根结底需要解决下面几个问题:1.如何尽量减少模型的幻觉 2.如何增强模型的逻辑推理能力 3.如何建立本地知识体系,并与模型中的泛化知识进行链接。4.如何实现模型生成内容数据的安全可控,可追溯与可解释。Fabarta 的一体两翼产品矩阵可以很好的帮助客户解决上面的这些 AIGC 技术企业场景落地的困境。
我们已经在金融、证券、保险、汽车、制造、医疗等众多行业中取得了成功,与许多头部客户形成了联合研发合作,共同创造共赢的生态。未来,我们将进一步深耕农业、能源、政府和公安领域,将先进技术带到传统行业中。

未来已来,在这个智能化浪潮当中,抓住时代的机遇,才能取得同行同业的差异化竞争,并立于不败之地,Fabarta 愿做大家开启智能化时代的助推器,一同打造智能化时代的数据基石。Fabarta 愿和每一位企业家一道,携手人工智能技术和我们的数据基础设施,一同迈向那个我们共同期待的星辰大海。

文章转载自Fabarta,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论