今年DTCC的时候,我说我们免费开放了国产数据库知识库的访问,只要去github/gitee下载bic-qa浏览器插件就可以免费调用知识库。我在演讲的时候说目前知识库里有200万条目,当时就有一些小伙伴觉得我在吹牛,亲自到我们的展台去确认数据。虽然说我有时候会吹吹牛,不过对于数字之类的东西,还是挺谨慎的,我说200万,绝对是200W+,绝对不会是接近200万,那些去亲自查验的小伙伴看完之后也服气了。这个知识库是在动态增长的,今天我又盘点了一下,比DTCC时候又多了将近20万数据。说是国产数据库的知识库,还是有点名不副实的,Oracle有接近40万条数据,再加上MySQL、SQL SERVER总共有超过95万条数据,占据了接近半壁江山,其他的数据也就120多万条。构建Oracle的知识库的时候,Oracle的手册我只加入了reference/管理员手册和Oracle concepts这三本书,其他书一概没有纳入,收录的数据包含7万多篇MOS的文档,所以Oracle不仅在数据总量上遥遥领先,问答数据占比出奇的高,这样的知识库的质量就很高,问答的效果也会比较好。国产数据库的知识库算起来就有点寒酸了,十多种数据库,才和两个美国商用数据库、两个开源数据库打了个平手。而且这是我目前能够从各个数据库原厂拿到的资料处理后的结果。如果说我们有时间和精力去处理,Oracle的知识库再翻几倍也很容易,但是国产数据库的知识库想要再增加10%都很困难了。我们必须依托国产数据库厂商,他们愿意把售后的一些数据贡献出来,这个知识库才可能有较大的增长。在会上我说我们这个知识库的前面十多万数据花了数年时间,而从20万到200万花了一个半月时间。未来这个知识库会继续扩大,500万、1000万。这句话现在想想还是有点吹牛了,200万到500万的时间可能会比想象的长的多,因为国产化数据库的知识、资料、经验也就这么多了,你找原厂要,他们也不一定肯给,哪怕他们肯给,也不见得有那么多。目前国产数据库的知识库条目最多的三个是KingbaseES、Oceanbase和达梦,KES的资料比较多是因为文档手册写得很厚,外加我们也和金仓合作拿到了一些社区和售后的资料,添加进去了。未来这个合作还会继续深入,知识库的条目还会有较大的增加,不过目前资料库中的最佳实践和案例的数据量占比太低。Oceanbase的知识库做得确实不错,社区热度也高,文档资料的内容也比较丰富。从总量上看问答占比较高,在国产数据库的知识库里,OB的数据质量应该是最好的。达梦数据库的官方文档中规中矩,总的篇幅比前面两种国产数据库要少一些,不过达梦给合作伙伴提供了一些不错的最佳实践文档,这些文档极大丰富了知识问答的数据。目前我们数据库中的GaussDB的资料库完全来自于官方文档,高斯的官方文档厚度在国产数据库中也是首屈一指的,不过文档厚度不等于文档质量,高斯数据库分为分布式和集中式,部署模式又有公有云、私有云、轻量化部署三种模式,这些文档都是分开的,其实存在大量的重复内容,因此高斯数据库的知识库数量虽然也排在前列,质量还是不够好的。我们其实更需要一些高斯数据库的使用经验、故障处理、最佳实践类的资料,不过这些资料十分稀缺,不知道到哪里去收集。Gbase与高斯也有些类似,分为分布式和集中式两种部署模式,文档也存在一些重复,目前我们收录的知识库完全根据文档,没有太多的实践经验。这种知识库使用起来给人的帮助有限,我们测试发现,哪怕某个数据库有几百篇使用经验类的文章加入进去,也会把整个知识库贯穿起来,让知识问答的质量大幅度提升。TiDB的知识库库虽然目前不大,不过质量是不错的,因为有大量的最佳实践和源代码解析的内容在里面。另外DTCC DBA之夜的时候正好和刘松坐在一起,他说他们的工程师还写下了2-3万篇文档,这些都可以加入到我们的知识库里,给大家免费调用。我想如果那两三万数据加进来,TiDB的知识条目数量有可能会超过Oracle。目前我们的知识库已经正式对外开放,也有近200小伙伴申请了免费的API KEY,开始使用这个知识库。我们也会根据使用者的反馈进一步优化知识库,也会进一步与各个国产数据库厂商沟通,腆着脸向他们要数据。也欢迎有兴趣的朋友加入到我们的这个工作中来。
最后修改时间:2025-09-01 10:42:32
文章转载自
白鳝的洞穴,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。