暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DeepSeek持续火热,看看国产数据库怎么玩

数据最前线 2025-02-17
87

DeepSeek火热已经持续一段时间,各个行业掀起了AI大模型对接的热潮,数据库作为基础架构的核心自然也不例外。早在2024年5月份数据库巨头Oracle便宣布全面支持AI向量数据库,并将其新一代数据库产品命名为23ai,向世界宣示其AI能力以及未来向AI方向发展的决心。国产数据库方面也有一些厂商在快速跟进,今天我们来聊聊这方面的情况。

OceanBase SQL+AI,构建AI助手

2024年下半年发布的OceanBase 4.3.3 GA版本中新增了向量检索能力,支持向量数据类型、向量索引以及基于向量索引的搜索能力,只需要一套数据库即可满足文档存储、标量过滤、向量检索和全文检索等多种需求。

OceanBase在gitee上给出了一个Workshop (https://gitee.com/oceanbase-devhub/ai-workshop-2024) ,使用通用语义向量模型BGE-M3 (那时候DeepSeek还没火起来^_^),提供多语言检索、不同粒度文本输入及多向量检索能力,可以基于这个Workshop搭建一个简易的AI助手。

GBase 8c + DeepSeek 构建本地知识库

近期GBase数据库公众号发表文章,展示了利用GBase 8c + DeepSeek来构建本地知识库的案例。其中文本嵌入模型选用的是开源的nomic-embed-text,在处理短文和长文本任务方面有较大的优势;文本生成模型则选用DeepSeek-r1,能够更好的捕捉文本中的语义信息,为文本生成带来更出色的效果;而数据库则用于在本地存储私域知识库,实现快速向量化检索的同时提供更加稳定、安全的数据防护。

在仅使用DeepSeek进行提问时,模型的回答显得有些不着边际,毕竟国产数据库还是非常专业的一个领域。

将问题转换为向量,在知识库中进行检索,将检索结果作为上下文再进行提问,回复结果复合预期。

GBase 8c是基于openGauss数据库构建的分布式数据库,openGauss以及PostgreSQL 数据库均具备向量化的存储和检索能力,构建出这样的知识库并不困难。

tidb.ai 使用知识图谱增强 RAG 能力

早在ChatGPT火热之际,TiDB就推出了基于RAG构建的TiDB知识图谱工具 -- tidb.ai,可以回答问题、查阅文档甚至编写代码,从而帮助用户从海量的文档中快速构建出自己的知识体系。

tidb.ai利用DSPy库进行知识图谱的自动化构建,TiDB数据库则用来存储大规模的知识图谱数据,提供向量检索和高并发的查询需求。

写在最后

ChatGPT引爆了大语言模型的概念,将人工智能推进到前所未有的高度,但是由于其高昂的训练和使用成本,规模化使用存在很多的限制。而DeepSeek的横空出世,极大的降低了人工智能的门槛,各行各业都在使用AI构建自己的使用场景。

数据库作为重要的IT基础架构,对海量知识库提供向量化存储和检索能力,是构建私域知识库不可或缺的重要组成。

目前不少的国产数据库厂商都推出了自己的AI解决方案,由于血缘关系的不同实现难度上会有所差别,PG系对向量的支持较早实现起来也较为便利,而MySQL只在9.0之后才开始支持向量,这部分厂商实现的成本会更高。但不论如何,AI是未来的方向,相信各个厂商都会在这个方向上投入资源跟进。

公众号:


最后修改时间:2025-03-07 08:48:46
文章转载自数据最前线,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论