11. 288 active+clean
通过命令的执行结果可以看到,目前是有一个 Mon 宕掉,正常的 mon 是
node1、node3,所以目前是 node2 节点上的 Mon 出现了异常。通常情况下
ceph -s 命令可以正常执行时,可以通过 ceph health detail 获取到更加详
细的异常输出。命令输入信息如下:
1. $ ceph health detail
2. HEALTH_WARN 1 mons down, quorum 0,2 node1,node3
3. mon.node2 (rank 1) addr 192.168.1.11:6789/0 is down (out of
quorum)
2、异常的 Mon 节点是否可以正常连接
通常情况下在做连接测试时,建议先核实一下防火墙的状态,确保防火墙没有
对通信进行限制。这里提到的连接主要牵涉到两个方面,首先可以尝试通过
ssh 进行一下连接,确保 Mon 节点能够正常远程到。如果能够正常进行 ssh,
那么接下来可以使用 telnet 、 nc 等命令进行一下测试异常 Mon 节点的端口
(如果有修改端口,以实际端口进行测试),比如现在要测试宕掉的 node2 节
点的 Mon 端口,那>么可以执行以下命令
1. telnet node2 6789
3、ceph -s 是否可以正常获取到集群信息
在第一项中提到使用 ceph -s 查看集群信息,以便了解具体是哪台主机出现异
常。而实际操作过程中,ceph -s 命令阻塞,无法正常收到集群回复的情况。
此时有可能是 Monitor 全部宕掉了,或者正常运行的 Monitor 数量并不足以形
成 quorum。这种情况下你就需要登录到集群中使用 Monitor 的管理套接字来
进行查询了。
通过管理套接字,你可以使用 Unix 套接字文件直接与指定的守护进程交互。
这个文件通常位于 Monitor 节点的 run 目录下,默认的配置路径是 /var/run/
ceph/ceph-mon.ID.asok ,如果有对这个配置位置进行过手动更改,可以看一
下 ceph.conf 文件中的配置路径,或者使用以下命令进行一下查询:
1. $ ceph-conf -name mon.node2 --show-config-value
admin_socket
2. /var/run/ceph/ceph-client.admin.asok
这里有一点需要注意一下,只有在 Mon 节点运行时管理套接字才可以使用。如
果 Mon 节点是正常关闭的,那么管理套接字文件也会被删除。如果 Mon 节点
没有运行,但是管理套接字文件还是存在的,就说明 Mon 不是正常关闭的。总
之,Mon 没有运行的情况下,是无法使用管理套接字的。
要访问管理套接字,命令格式为:
评论