现象描述:
node1 和node2 日志反复出现 add remove node3节点。 node3 节点 一直 驳回 node1 和node2 认为node3已经dead的消息
不断重启server3 的node3 和重装consul 集群 都不能解决
server1 --->node1
server2 ---> node2
server3 ---> node3
问题解决概述:
这个问题是 一个已经的由docker的网络导致的。 存在某种ARP缓存会导致不正确的路由发生,并破坏UDP路由。 不确定究竟是什么问题,但我们已经注意到,只要快速设置/拆卸Docker网络,就会发生这种情况。唯一已知的解决方法是在拆除和重新加入网络之间至少休眠3-5分钟。
这些报错的消息来自于 gossip 层(memberlist),表明节点之间存在网络问题, 如果节点无法通过UDP成功发送ping / ack消息,那么您可能会看到node在 dead/alive 状态之间徘徊
在测试群集方案时,您可能会杀死容器并在同一主机上重新启动它,并发现它在重新加入群集时遇到问题。将节点重新启动为具有相同发布端口的新容器时会出现问题,这会导致心跳失败并且节点将会翻转。这是一个ARP表缓存问题。如果你在重新开始前等待大约3分钟,它应该可以正常工作。您也可以手动重置缓存。
解决办法:
先 stop 容器 然后等几分钟后再启动