来人,帮忙复盘云筏 KVM

无神通 13天前 6

今天,云筏有台 KVM-EU 的母鸡坏了一块硬盘,由于云筏数据盘采用 RAID-10 部署,因此只需直接更换坏掉的硬盘即可,对在运行的虚拟机不造成任何影响...个鬼哦 !
事实上,我的小鸡 SSD 系统盘进入 Read Only 只读模式,HHD 数据盘完全无法访问,网站直接 GG 。临时换了其他机子顶了上去,直到晚上五点多才恢复正常(有一说一,这么晚不全是云筏原因)。
时间复盘
1. 根据 Log 文件发现机子在 11 月 17 日凌晨 4 点 52 分左右系统盘进入只读模式,推测硬盘故障在这个时间段。
2. 我 9 点多发现官方群里有人说 KVM 故障,经检查我的也受到影响。系统盘只读,数据盘无法访问,但是 SSH 仍然可以连接,我判断是硬盘故障。然并卵,以前也没见过这情况,不会修。一通瞎弄之后,成功开不了机,云筏后台卡在启动中。
3. 11 点左右,查看云筏的宿主机监控,发现有一台母鸡 CPU 和内存占用率很高有8、90%左右,同时流量很少,猜测这台母鸡应该在重建 RAID 阵列。
4. 在观察一段时间后,占用率恢复正常,此时应该阵列重建完毕。时间应该不超过 12 点。
5. 17 点多,技术醒了,帮忙强制重启了小鸡,一切恢复正常。
我瞎弄了什么
由于早上发现时网站已 GG 近 4 小时,同时只备份了一周前的网站数据,我花了很长时间在导出数据上。但由于硬盘处于只读模式,根本没搞出来...(今天学习了一下,以后应该搞得出来了 )之后我尝试重启进入救援模式使用 fsck 修复文件系统,但发现救援模式玩不来,就直接关机了。
再尝试从云筏的面板启动就一直卡着,我意识到文件系统破损倒置系统无法启动,系统无法启动面板就不更改状态。面板在启动中时是无法强制重启的 。所以只能等到技术醒了,手工帮我重启一下。
理论如果我啥也不弄,等到 12 点后重启下小鸡一切就会恢复正常...而不是要等到晚上
问题原因
但是,为什么 RAID-10 一块硬盘坏了会影响到我的小鸡???这 RAID-10 岂不是形同虚设? 为此我花了一个晚上的空闲时间寻找原因,得出以下结论:
1. 系统盘只读是因为 /etc/fstab 中挂载参数为 “errors=remount ro”,即发现错误时重新挂载为只读模式。
我的系统是官方 Ubuntu 18.04 模板升级的 Ubuntu 20.04,不清楚 CentOS 是否一样。理论上将这个参数改成“errors=continue”就不会发生系统盘变成只读了。但这只是最终现象,并非原因,是文件系统发生了错误才会触发这个。根据搜索,触发只读的原因是磁盘性能不足。
2. 因此可以推断当数据盘损坏一块硬盘时,由于某种原因,整个储存阵列性能严重不足,最终小鸡读写文件时触发文件系统只读。
仅从这看,云筏的 RAID-10 形同虚设,只损坏一块硬盘就直接 GG。但是理论上 RAID-10 完全可以接受损坏一块硬盘,之后数据没有丢失也证明的确有做 RAID,那到底哪里出了问题?
主观推测
由于文件系统只读后的日志在重启后就没了,我也没保存,因此无法完全定位问题根源,以下讲讲我的推测,仅供参考:
RAID 配置存在错误,损坏一块硬盘造成整个储存池性能严重下降,最终影响小鸡。由于云筏使用的 ZFS 文件系统做的 RAID-10,资料非常少,我猜想可能是配置出了问题,做成 RIAD-6 啥的或者 SSD 缓存读写缓存机制有问题,严重影响性能。当然这仅仅是推测,可能还有其它原因,我对这方面了解不多。
说实话,用了这么久各种小鸡,头一次遇到这种问题,实在搞不清原因,希望能有大佬说说
最新回复 (5)
  • h20 13天前
    引用 2
    errors=remount ro 是一种保护,一来保护的是现场,二来保护文件系统的损坏不继续扩展,结果被你override掉了,你也是可以的
    简单说吧,ro之后文件系统你可以翻阅最后的日志,例如var/log下,检查原因再去针对性处理。ro还有一个好处,例如innode信息错误,导致簇交叉,如果再强行写入数据,很可能使问题扩大化。
  • ApkB 13天前
    引用 3
    什么都是你在猜吧,VPS里能收到母机硬件错误信息?
    只能说你遇到了假的RIAD10
  • 403_Forbidden 13天前
    引用 4
    腾讯云的后台重启卡住的话,大概五分钟,系统会帮你强制重启,他家的不会,就一直卡着,无法进行操作。
  • yanaxiao 13天前
    引用 5
    楼上的字多。。楼上的说了算。
  • mymyhope 13天前
    引用 6
    我不喜欢这个商家以及它的老板。但是我更不喜欢你这种甲方。通篇你想,日志没了,“ 根据搜索,触发只读的原因是磁盘性能不足。” 日志没了您怎么判断是磁盘性能不足?磁盘性能不足触发readonly,那些sd卡驱动的树莓派不要面子的呐。
  • 游客
    7
返回