背景
有现场业务人员A反映使用数据库用户按指定条件查询表的记录数是正确的,但查询数据时结果却是空的,人员B却反映:与A查询的表相同,结果正常。业务人员C讲他们的业务表无论记录数还是按条件查询结果却是一切正常。
初步将问题定位表和用户上。到达现场后经过了解到所有人用的是同一个用户名,看来此问题与用户权限无关。再对比他们连接的协调节点发现:A、B、C连接集群的协调节点都不同。于是让业务人员各自调整了连接的调度节点,发现情况就变成别人所经历的现象了。
因此,可以确定一个问题点:调度节点之间有差异,那么问题进一步可以指向nodedatamap了。那么为什么有些表无论怎样查询都是正常的呢?将他们各自所用表结构进行对比,终于明白A和B用的均为hash分布表而C用到的表均为随机分布表。基于以上,分析结果如下:
1)A、B连接不同的调度节点因而使用的nodedatamap表也不同,调度节点的nodedatamap表存在数据不一致的现象。
2)随机分布表因不受nodedatamap表影响故而不受其影响。
案例
下面根据客户现场反馈,复现案例:
集群:
192.168.10.230 gcware gcluster gnode
192.168.10.231 gcware gcluster gnode
192.168.10.232 gcware gnode
[gbase@vm230 gbase]$ gcadmin
CLUSTER STATE: ACTIVE
======================================
| GBASE GCWARE CLUSTER INFORMATION |
======================================
| NodeName | IpAddress | gcware |
--------------------------------------
| gcware1 | 192.168.10.230 | OPEN |
--------------------------------------
| gcware2 | 192.168.10.231 | OPEN |
--------------------------------------
| gcware3 | 192.168.10.232 | OPEN |
--------------------------------------
========================================================
| GBASE COORDINATOR CLUSTER INFORMATION |
========================================================
| NodeName | IpAddress | gcluster | DataState |
--------------------------------------------------------
| coordinator1 | 192.168.10.230 | OPEN | 0 |
--------------------------------------------------------
| coordinator2 | 192.168.10.231 | OPEN | 0 |
--------------------------------------------------------
==================================================
| GBASE VIRTUAL CLUSTER INFORMATION |
==================================================
| VcName | DistributionId | comment |
--------------------------------------------------
| vc01 | 5 | vc01 comments. |
--------------------------------------------------
1 virtual cluster: vc01
2 coordinator node
0 free data node
[gbase@vm230 gbase]$ gcadmin showcluster vc vc01
CLUSTER STATE: ACTIVE
VIRTUAL CLUSTER MODE: NORMAL
==================================================
| GBASE VIRTUAL CLUSTER INFORMATION |
==================================================
| VcName | DistributionId | comment |
--------------------------------------------------
| vc01 | 5 | vc01 comments. |
--------------------------------------------------
=========================================================================================================
| VIRTUAL CLUSTER DATA NODE INFORMATION |
=========================================================================================================
| NodeName | IpAddress | DistributionId | gnode | syncserver | DataState |
---------------------------------------------------------------------------------------------------------
| node1 | 192.168.10.230 | 5 | OPEN | OPEN | 0 |
---------------------------------------------------------------------------------------------------------
| node2 | 192.168.10.231 | 5 | OPEN | OPEN | 0 |
---------------------------------------------------------------------------------------------------------
| node3 | 192.168.10.232 | 5 | OPEN | OPEN | 0 |
---------------------------------------------------------------------------------------------------------
3 data node
# m01为hash分布表:分另连接192.168.10.230和192.168.10.231,查询id=338结果显示均有一条记录。
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select count(1) from m01 where id=338"
+----------+
| count(1) |
+----------+
| 1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select count(1) from m01 where id=338"
+----------+
| count(1) |
+----------+
| 1 |
+----------+
# 但查询具体的数据时,连接到192.168.10.230可以正常查看结果,192.168.10.231查询不到记录。
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select * from m01 where id=338"
+------+
| id |
+------+
| 338 |
+------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m01 where id=338"
[gbase@vm230 gbase]$
# m02为hash分布表:所有查询结果都是正常的
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select count(1) from m02 where id=338"
+----------+
| count(1) |
+----------+
| 1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select count(1) from m02 where id=338"
+----------+
| count(1) |
+----------+
| 1 |
+----------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.230 -Ddb01 -e"select * from m02 where id=338"
+------+
| id |
+------+
| 338 |
+------+
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m02 where id=338"
+------+
| id |
+------+
| 338 |
+------+知道了问题所在,那么解决也比较简单,只需将错误节点的nodedatamap表与正确节点的保持一致即可。
解决方案
以gbase用户登录到正常的节点,执行以下命令:
cd $GCLUSTER_BASE/userdata/gluster/gbase
scp nodedatamap.* 异常节点IP:安装路径/gcluster/userdata/gluster/gbase或者登录数据库:
gccli -uroot -pxxx -h<正常节点>
# 将gbase.nodedatamap导出来,所有记录拼接成INSERT VALUES语句
gccli -uroot -pxxx -h<异常节点>
truncate self table gbase.nodedatamap;
# 再调用刚才的INSERT VALUES语句将数据导入到当前的gbase.nodedatamap。(目前不支持load方式)最后重启gcluster服务即可。
gcluster_services gcluster restart修改后再连接192.168.10.231,查看结果正常:
[gbase@vm230 gbase]$ gccli -uroot -proot -h192.168.10.231 -Ddb01 -e"select * from m01 where id=338"
+------+
| id |
+------+
| 338 |
+------+「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




