上周参加OB的开发者大会,和很多业内的朋友交流了很多关于未来数据库在AI方向上会做成什么样的话题。我当时有一个观点,用户会用AI做什么,数据库厂商就应该为用户提供什么。
从AI4DB的角度看,AI技术提供了一种数据处理的新模式,可以方便地处理原本不太容易处理的数据。AI强大的数学能力和推理能力也必将增强我们对数据的理解和应用。在AI4DB的应用场景中,多模态、融合数据库是十分基础的能力,就像Oracle在23AI的那个测试场景中所述的,我想找到一个离市中心3公里范围内,价格低于10万美金,楼层是3层,带2个车库的房子,房子必须是坡顶的,带有一个西班牙式的门廊,.....。在这些条件中,有很多是传统的关系型查询条件,而对房屋的描述虽然也可以通过将房子的各种特征罗列出来,不过这样的数字化工作成本太高了,而且无法满足一些更加复杂的需求。如果我们看到一套房子,觉得不错,最简单的方法是拍张照片,然后问数据库,能不能找到离市中心3公里范围内,价格低于10万美金,楼层是3层,带2个车库并且和我这张照片很像的房子。这样数据库要能够融合向量、关系、地理信息等多种数据的处理。
现在很多的厂商都在尝试使用自然语言生成代码,减少开发人员的工作量。实际实际上文生代码并非最好的处理模式,还绕了一个大弯子。我估计未来很快会出现通用型的以自然语言为核心的处理框架。最近我们社区尝试了一个新的框架,在这个框架的基础上,可以使用自然语言描述来分析运维数据,推理问题根因,发现优化方案,完成自动修复。基于该框架的商用系统在一两个月内将会推上市场,同时也将会提供社区版。不过与以前社区推出的社区版软件不同的是,因为需要算力服务器的支持,因此我们只能用一体化硬件的方式提供社区版的一体机,我们目前还在优化方案,争取把整体费用控制在5、6万以内。
我觉得未来的数据库应该是一个AI就绪的数据基础设施平台和数据处理平台。对用户来说,越简单越好。未来的AI数据库必须是开箱即用的,不需要我们去搭建向量、图、地理信息、RAG/KAG,数据预处理等复杂的应用环境,而是将这一切都融入数据库产品中去。
如果未来的数据库产品还像现在一样,只是集成了一些数据存储和检索的功能,缺少构建AI应用的其他能力,那么当一个企业想要构建AI应用的时候,不是围绕数据库进行的,而是围绕某个AI应用框架进行的,这时候数据库的选择是多样化的,边缘化的,那么我为什么不选简单的开源数据库,而要去选择一个复杂的商用数据库产品呢?




