暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DB-Ranking数据库系统趋势排名如何产生的?

南山笔记 2021-05-13
2812

了解数据库系统排名,往往是从DB-Engines Ranking网站了解数据库的流行情况,国内也经常看到很多站点依此对数据库排名的分析,但是对于DB-Engines如何对数据库系统进行排名还真不是特别了解和探究。

 

这个周末探访了DB-Engines Ranking,了解了下当前的最新排名情况,如下图:

都是熟悉的面孔,过去的10多年一直都在他们打交道,现在也还在继续的使用的,不过已经从最早的Oracle、Mysql等传统关系型数据库,逐渐转向了使用Hive、Hbase和Impala为主。从上图来看,老牌的Oracle、Mysql和Ms Sql server得分稳定,环比回升,当然和去年同期相比,Oracle基本稳定,而MsSQL Server下降相对多一些。而PostgreSQL和MongoDB,则相较去年同期增幅较大,MariaDB和HIVE同比也是小幅提升。

 

最近几年,个人的工作重心转向了基于Hadoop进行大规模并发的数据分析处理,HiveImpala和Spark SQL等日常使用频率变高,和同行业相关岗位的朋友们交流,基于Hadoop平台的数据分析处理日益增多,但从DB-Engines的排名来看,显然Impala和SparkSQL没有进到前20名,他们在哪里呢?

排名都在30以外,绝对分值则在20以下,和Oracle、Mysql等传统关系型数据库的绝对分数,差距实在太大,这也和实际使用感受差距有点大。

 

DB-EnginesRanking如何计算分数,给出排名呢?下图是网站给出的计算方法:

Methodof calculating the scores of the DB-Engines Ranking:

1.Number ofmentions of the system on websites, measured as number of results in searchengines queries. At the moment, we use Google, Bing and Yandex for thismeasurement. In order to count only relevant results, we are searching for<system name> together with the term database, e.g. "Oracle"and "database".

2.Generalinterest in the system. For this measurement, we use the frequency ofsearches in Google Trends.

3.Frequency oftechnical discussions about the system. We use the number of relatedquestions and the number of interested users on the well-known IT-relatedQ&A sitesStack Overflow and DBA Stack Exchange.

4.Number ofjob offers, in which the system is mentioned. We use the number of offerson the leading job search engines Indeed and Simply Hired.

5.Number ofprofiles in professional networks, in which the system is mentioned.We use theinternationally most popular professional networks LinkedIn and Upwork.

6.Relevance insocial networks. We count the number of Twitter tweets, in which the system ismentioned.

 

DB-Engines并不是通过数据库系统的安装数量来计算其得分,而通过搜索引擎搜索排名、Google Trends、StackOverflow and DBA Stack Exchange技术研讨频率、工作机会、LinkedIn and Upwork等职业网站的简历数,以及社交网络统计相关的数据进行标准化和计算均分得到。

从计算方法的介绍中,可以看出:

1、从这个规则上来讲,得分的高低不能代表系统的实际安装使用情况,而只能是表示其流行性和趋势。

2、计算得分的数据,主要来自境外的搜索引擎,技术网站、职业网站和社交网络等。

 

看到这里,自然会猜想这个排名能否反映国内的情况呢?毕竟境外的搜索引擎和社交网站等,基于大家都知道的原因,其数据是不能真实包含国内的相关数据的


截取了oracle数据库、hadoop系统和impala在百度指数和GOOGLE趋势(中国区)的数据进行比较,如下图:

百度指数过去12个月的数据:

GOOGLE趋势中中国区的对应数据:



GOOGLE趋势中关于中国区域的ORACLE数据库的数据明显偏低,而多年以来,ORACLE数据库在国内的使用应该是独占鳌头的。从这里来看,DB-Engines排名时对中国因素考虑偏低,综合下来可能会影响排名的准确性。


最后小结一下

1、DB-Randking的数据库系统趋势排名不能实际反映数据库实际安装使用情况,而是综合搜索引擎、GOOGLE TRENDS、技术论坛、职业网站和社交网站等综合评分计算得出。

2、计算排名的依据主要是境外的网站数据,而对于中国因素考虑的不足,可能导致趋势排名不能准确反映国内的真实情况。

3、排名非常有利于了解时下数据库系统的最新发展趋势。

文章转载自南山笔记,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论