暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

GBase8a 查询异常背后:nodedatamap 数据不一致问题深度排查

原创 GBASE数据库 2025-07-30
55

背景     

有现场业务人员A反映使用数据库用户按指定条件查询表的记录数是正确的,但查询数据时结果却是空的,人员B却反映:与A查询的表相同,结果正常。业务人员C讲他们的业务表无论记录数还是按条件查询结果却是一切正常。
初步将问题定位表和用户上。到达现场后经过了解到所有人用的是同一个用户名,看来此问题与用户权限无关。再对比他们连接的协调节点发现:A、B、C连接集群的协调节点都不同。于是让业务人员各自调整了连接的调度节点,发现情况就变成别人所经历的现象了。
因此,可以确定一个问题点:调度节点之间有差异,那么问题进一步可以指向nodedatamap了。那么为什么有些表无论怎样查询都是正常的呢?将他们各自所用表结构进行对比,终于明白A和B用的均为hash分布表而C用到的表均为随机分布表。基于以上,分析结果如下:
1)A、B连接不同的调度节点因而使用的nodedatamap表也不同,调度节点的nodedatamap表存在数据不一致的现象。
2)随机分布表因不受nodedatamap表影响故而不受其影响。

案例

下面根据客户现场反馈,复现案例:

集群:

192.168.10.230 gcware gcluster gnode
192.168.10.231 gcware gcluster gnode
192.168.10.232 gcware            gnode

[gbase@vm230 gbase]$ gcadmin
CLUSTER STATE:         ACTIVE
======================================
|  GBASE GCWARE CLUSTER INFORMATION  |
======================================
| NodeName |   IpAddress    | gcware |
--------------------------------------
| gcware1  | 192.168.10.230 |  OPEN  |
--------------------------------------
| gcware2  | 192.168.10.231 |  OPEN  |
--------------------------------------
| gcware3  | 192.168.10.232 |  OPEN  |
--------------------------------------
========================================================
|        GBASE COORDINATOR CLUSTER INFORMATION         |
========================================================
|   NodeName   |   IpAddress    | gcluster | DataState |
--------------------------------------------------------
| coordinator1 | 192.168.10.230 |   OPEN   |     0     |
--------------------------------------------------------
| coordinator2 | 192.168.10.231 |   OPEN   |     0     |
--------------------------------------------------------
==================================================
|       GBASE VIRTUAL CLUSTER INFORMATION        |
==================================================
|    VcName    | DistributionId |    comment     |
--------------------------------------------------
|     vc01     |       5        | vc01 comments. |
--------------------------------------------------
1 virtual cluster: vc01
2 coordinator node
0 free data node
[gbase@vm230 gbase]$ gcadmin showcluster vc vc01
CLUSTER STATE:         ACTIVE
VIRTUAL CLUSTER MODE:  NORMAL
==================================================
|       GBASE VIRTUAL CLUSTER INFORMATION        |
==================================================
|    VcName    | DistributionId |    comment     |
--------------------------------------------------
|     vc01     |       5        | vc01 comments. |
--------------------------------------------------
=========================================================================================================
|                                 VIRTUAL CLUSTER DATA NODE INFORMATION                                 |
=========================================================================================================
| NodeName |                IpAddress                 | DistributionId | gnode | syncserver | DataState |
---------------------------------------------------------------------------------------------------------
|  node1   |              192.168.10.230              |       5        | OPEN  |    OPEN    |     0     |
---------------------------------------------------------------------------------------------------------
|  node2   |              192.168.10.231              |       5        | OPEN  |    OPEN    |     0     |
---------------------------------------------------------------------------------------------------------
|  node3   |              192.168.10.232              |       5        | OPEN  |    OPEN    |     0     |
---------------------------------------------------------------------------------------------------------
3 data node

# m01为hash分布表:分另连接192.168.10.230和192.168.10.231,查询id=338结果显示均有一条记录。
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select count(1) from m01 where id=338"
+----------+
| count(1) |
+----------+
|        1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select count(1) from m01 where id=338"
+----------+
| count(1) |
+----------+
|        1 |
+----------+
# 但查询具体的数据时,连接到192.168.10.230可以正常查看结果,192.168.10.231查询不到记录。
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select * from m01 where id=338"
+------+
| id   |
+------+
|  338 |
+------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m01 where id=338"
[gbase@vm230 gbase]$
# m02为hash分布表:所有查询结果都是正常的
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select count(1) from m02 where id=338"
+----------+
| count(1) |
+----------+
|        1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select count(1) from m02 where id=338"
+----------+
| count(1) |
+----------+
|        1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select * from m02 where id=338"
+------+
| id   |
+------+
|  338 |
+------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m02 where id=338"
+------+
| id   |
+------+
|  338 |
+------+

知道了问题所在,那么解决也比较简单,只需将错误节点的nodedatamap表与正确节点的保持一致即可。

解决方案

以gbase用户登录到正常的节点,执行以下命令:

cd $GCLUSTER_BASE/userdata/gluster/gbase
scp nodedatamap.* 异常节点IP:安装路径/gcluster/userdata/gluster/gbase

或者登录数据库:

gccli -uroot -pxxx -h<正常节点>
# 将gbase.nodedatamap导出来,所有记录拼接成INSERT VALUES语句
gccli -uroot -pxxx -h<异常节点>
truncate self table gbase.nodedatamap;
# 再调用刚才的INSERT VALUES语句将数据导入到当前的gbase.nodedatamap。(目前不支持load方式)

最后重启gcluster服务即可。

gcluster_services gcluster restart

修改后再连接192.168.10.231,查看结果正常:

[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m01 where id=338"
+------+
| id   |
+------+
|  338 |
+------+
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论