停止public 网卡导致业务无法下发

Last updated on 10 months ago

背景
某个 poc 项目中有个io可用性测试没有达到预期
故障如下：

三节点（min_size），故障一个节点的业务网络平面，cosbench 持续跌0，一直没有恢复；恢复业务网络平面后，cosben 恢复水平状态

问题
单节点的故障，应该怎么折腾都可以的，但是为什么停止了单独停止一个网络平面久有问题了? 停止一会能理解，但是一直停就无法解释了

定位过程
以往有遇到过相关的问题，但是定位到是 osd 反复重启导致的，pg 一直处于 peering 状态，这个状态在ceph 中确实会卡io，但是为什么会反复重启呢？
那是简单看了下日志，知道是心跳导致的，但没有弄清楚真的原因….

起初网上搜下了，相关问题，发现x公司有个描述很相似的，但是17年的事情，早就很合入了

家里复现：测试那边能复现，有时复现很容易，有时候要折腾很多次（为什么偶现？）

现在停止了业务网，mon和osd之间走 public 网，故障节点的osd 是无法和mon通讯的
但mon 又可以更新 osd 状态？说明 mon 是收到了 osd 启动的信息？
osd 的心跳机制是要确保两个网络平面都正常才可以，停了public ，自然会被同个 public 层面的 osd 上报异常，于是mon 把osd 标记为 down
更新osd视图，正常来说 osd tree 就可以看到状态
现在的场景是，mon 把osd 标记为 down后，osd 自身重启重新发 boot信息，目前这也是推测，得看日志才知道。

好在可以复现，于是把　osd和mon的日志开到15，涉及消息发送，ms 模块也开启
发现主 mon 既然有收到故障节点的 boot信息？？？奇怪，难道 osd 还能 mon还发送了信息？？？