glusterfs 做remove-brick迁移导致内存爆掉遇到的一系列问题及解决

glusterfs 做remove-brick迁移导致内存爆掉。

对glusterfs集群主机扩内存。

操作步骤时,么有对remove-brick做stop操作。

直接关机扩内存,重启。

然后查看要修复的文件:gluster volume heal eipVol info

扩内存重启后,查看remove-brick status时发现竟然变为comlpele状态。但任务状态还在。

因为前面没有对remove-brick做stop操作(应该在关机扩内存前做remove-brick stop操作)。当再次重启remove-brick时,发现启动失败。

需要对remove-brick做stop操作后。再次start启动缩brick迁移数据。

Stop Remove Brick Operation

另外,今天查看日志/var/log/glsuterfs/etc-glusterfs-glusterd.vol.log发现有:

Failed to get handshake ack from remote server的错误..

而且发现gluster peer status有个节点disconnect了。

把glusterfs进程kill掉后,重启起不起来了...

启动报错,报找不到rdma.so..这是什么鬼..

排查发现:

/var/lib/glusterd/peers目录下,有几个节点信息变为空了!!!

因为没有节点地址信息,导致启动glusterd服务失败。

从其他节点对应的配置文件中得到对应节点信息,并修复这几个空文件。

重启成功。

Glusterfs由RDMA切换到TCP

 

20230921

glusterfs集群172.17.1.11节点挂掉重启glsuterd服务起不来。

查看日志发现

连接其他节点有问题。

将所有gluster进程kill掉。

重启glusterd。

service glusterd start

service glusterd status

查看解决。

20231115

glusterfs集群(172.18.1.35-37)迁移重启后

172.18.1.35节点的RawData卷进程glusterfsd进程起不来了。

查看3个节点peers对应的节点信息发现:

172.18.1.36的节点信息被莫名改了。。

删除掉hostname2=172.18.1.35

重启glusterd。

service glusterd start

启动RawData卷

gluster volume start RawData

查看集群status

gluster volume status

恢复正常。

20240821

glusterfs日志文件占用空间太大。删除日志文件,杀掉glusterfs进去,重启glusterfs服务起不起来了。

通过debug模式启动

/usr/sbin/glusterd -f /etc/glusterfs/glusterd.vol -p /var/run/glusterd.pid --log-level DEBUG --log-file /var/log/glusterfs/1111.log

查看日志发现:

连接netglusterfs05(172.18.1.15)报错了,导致启动服务失败。

查看/var/lib/glusterd/peers目录,发现竟然没有了netglusterfs05的配置了。将这个节点配置文件加上,重启成功。

GlusterFs 启动报错 debug级别查看

 

 

 
喜欢 0
分享