glusterfs 做remove-brick迁移导致内存爆掉遇到的一系列问题及解决

glusterfs 做remove-brick迁移导致内存爆掉。

对glusterfs集群主机扩内存。

操作步骤时，么有对remove-brick做stop操作。

直接关机扩内存，重启。

然后查看要修复的文件：gluster volume heal eipVol info

扩内存重启后，查看remove-brick status时发现竟然变为comlpele状态。但任务状态还在。

因为前面没有对remove-brick做stop操作（应该在关机扩内存前做remove-brick stop操作）。当再次重启remove-brick时，发现启动失败。

需要对remove-brick做stop操作后。再次start启动缩brick迁移数据。

Stop Remove Brick Operation

另外，今天查看日志/var/log/glsuterfs/etc-glusterfs-glusterd.vol.log发现有：

Failed to get handshake ack from remote server的错误..

而且发现gluster peer status有个节点disconnect了。

把glusterfs进程kill掉后，重启起不起来了...

启动报错，报找不到rdma.so..这是什么鬼..

排查发现：

/var/lib/glusterd/peers目录下，有几个节点信息变为空了!!!

因为没有节点地址信息，导致启动glusterd服务失败。

从其他节点对应的配置文件中得到对应节点信息，并修复这几个空文件。

重启成功。

Glusterfs由RDMA切换到TCP

20230921

glusterfs集群172.17.1.11节点挂掉重启glsuterd服务起不来。

查看日志发现

连接其他节点有问题。

将所有gluster进程kill掉。

重启glusterd。

service glusterd start

service glusterd status

查看解决。

20231115

glusterfs集群（172.18.1.35-37）迁移重启后

172.18.1.35节点的RawData卷进程glusterfsd进程起不来了。

查看3个节点peers对应的节点信息发现：

172.18.1.36的节点信息被莫名改了。。

删除掉hostname2=172.18.1.35

重启glusterd。

service glusterd start

启动RawData卷

gluster volume start RawData

查看集群status

gluster volume status

恢复正常。

20240821

glusterfs日志文件占用空间太大。删除日志文件，杀掉glusterfs进去，重启glusterfs服务起不起来了。

通过debug模式启动

/usr/sbin/glusterd -f /etc/glusterfs/glusterd.vol -p /var/run/glusterd.pid --log-level DEBUG --log-file /var/log/glusterfs/1111.log

查看日志发现：

连接netglusterfs05（172.18.1.15）报错了，导致启动服务失败。

查看/var/lib/glusterd/peers目录，发现竟然没有了netglusterfs05的配置了。将这个节点配置文件加上，重启成功。

GlusterFs 启动报错 debug级别查看

glusterfs 做remove-brick迁移导致内存爆掉遇到的一系列问题及解决

glusterfs 做remove-brick迁移导致内存爆掉遇到的一系列问题及解决：等您坐沙发呢！

技术&摄影