GBase8a 查询异常背后：nodedatamap 数据不一致问题深度排查

原创 GBASE数据库 2025-07-30

背景

有现场业务人员A反映使用数据库用户按指定条件查询表的记录数是正确的，但查询数据时结果却是空的，人员B却反映：与A查询的表相同，结果正常。业务人员C讲他们的业务表无论记录数还是按条件查询结果却是一切正常。
初步将问题定位表和用户上。到达现场后经过了解到所有人用的是同一个用户名，看来此问题与用户权限无关。再对比他们连接的协调节点发现：A、B、C连接集群的协调节点都不同。于是让业务人员各自调整了连接的调度节点，发现情况就变成别人所经历的现象了。
因此，可以确定一个问题点：调度节点之间有差异，那么问题进一步可以指向nodedatamap了。那么为什么有些表无论怎样查询都是正常的呢？将他们各自所用表结构进行对比，终于明白A和B用的均为hash分布表而C用到的表均为随机分布表。基于以上，分析结果如下：
1）A、B连接不同的调度节点因而使用的nodedatamap表也不同，调度节点的nodedatamap表存在数据不一致的现象。
2）随机分布表因不受nodedatamap表影响故而不受其影响。

案例

下面根据客户现场反馈，复现案例：

集群：

192.168.10.230 gcware gcluster gnode
192.168.10.231 gcware gcluster gnode
192.168.10.232 gcware gnode

[gbase@vm230 gbase]$ gcadmin
CLUSTER STATE:         ACTIVE
======================================
|  GBASE GCWARE CLUSTER INFORMATION  |
======================================
| NodeName |   IpAddress    | gcware |
--------------------------------------
| gcware1  | 192.168.10.230 |  OPEN  |
--------------------------------------
| gcware2  | 192.168.10.231 |  OPEN  |
--------------------------------------
| gcware3  | 192.168.10.232 |  OPEN  |
--------------------------------------
========================================================
|        GBASE COORDINATOR CLUSTER INFORMATION         |
========================================================
|   NodeName   |   IpAddress    | gcluster | DataState |
--------------------------------------------------------
| coordinator1 | 192.168.10.230 |   OPEN   |     0     |
--------------------------------------------------------
| coordinator2 | 192.168.10.231 |   OPEN   |     0     |
--------------------------------------------------------
==================================================
|       GBASE VIRTUAL CLUSTER INFORMATION        |
==================================================
|    VcName    | DistributionId |    comment     |
--------------------------------------------------
|     vc01     |       5        | vc01 comments. |
--------------------------------------------------
1 virtual cluster: vc01
2 coordinator node
0 free data node
[gbase@vm230 gbase]$ gcadmin showcluster vc vc01
CLUSTER STATE:         ACTIVE
VIRTUAL CLUSTER MODE:  NORMAL
==================================================
|       GBASE VIRTUAL CLUSTER INFORMATION        |
==================================================
|    VcName    | DistributionId |    comment     |
--------------------------------------------------
|     vc01     |       5        | vc01 comments. |
--------------------------------------------------
=========================================================================================================
|                                 VIRTUAL CLUSTER DATA NODE INFORMATION                                 |
=========================================================================================================
| NodeName |                IpAddress                 | DistributionId | gnode | syncserver | DataState |
---------------------------------------------------------------------------------------------------------
|  node1   |              192.168.10.230              |       5        | OPEN  |    OPEN    |     0     |
---------------------------------------------------------------------------------------------------------
|  node2   |              192.168.10.231              |       5        | OPEN  |    OPEN    |     0     |
---------------------------------------------------------------------------------------------------------
|  node3   |              192.168.10.232              |       5        | OPEN  |    OPEN    |     0     |
---------------------------------------------------------------------------------------------------------
3 data node

# m01为hash分布表：分另连接192.168.10.230和192.168.10.231，查询id=338结果显示均有一条记录。
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select count(1) from m01 where id=338"
+----------+
| count(1) |
+----------+
|        1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select count(1) from m01 where id=338"
+----------+
| count(1) |
+----------+
|        1 |
+----------+
# 但查询具体的数据时，连接到192.168.10.230可以正常查看结果，192.168.10.231查询不到记录。
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select * from m01 where id=338"
+------+
| id   |
+------+
|  338 |
+------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m01 where id=338"
[gbase@vm230 gbase]$
# m02为hash分布表：所有查询结果都是正常的
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select count(1) from m02 where id=338"
+----------+
| count(1) |
+----------+
|        1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select count(1) from m02 where id=338"
+----------+
| count(1) |
+----------+
|        1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select * from m02 where id=338"
+------+
| id   |
+------+
|  338 |
+------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m02 where id=338"
+------+
| id   |
+------+
|  338 |
+------+

知道了问题所在，那么解决也比较简单，只需将错误节点的nodedatamap表与正确节点的保持一致即可。

解决方案

以gbase用户登录到正常的节点，执行以下命令：

cd $GCLUSTER_BASE/userdata/gluster/gbase
scp nodedatamap.* 异常节点IP:安装路径/gcluster/userdata/gluster/gbase

或者登录数据库：

gccli -uroot -pxxx -h<正常节点>
# 将gbase.nodedatamap导出来，所有记录拼接成INSERT VALUES语句
gccli -uroot -pxxx -h<异常节点>
truncate self table gbase.nodedatamap;
# 再调用刚才的INSERT VALUES语句将数据导入到当前的gbase.nodedatamap。（目前不支持load方式）

最后重启gcluster服务即可。

gcluster_services gcluster restart

修改后再连接192.168.10.231，查看结果正常：

[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m01 where id=338"
+------+
| id   |
+------+
|  338 |
+------+

gbase

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

GBase8a 查询异常背后：nodedatamap 数据不一致问题深度排查

背景

案例

解决方案

评论