2015 年 3 月 31 日下午开始,一个用户在 7 台 Freeshell 上同时运行科学计算程序,导致负载飙升,56 个核的集群负载超过 500,到傍晚时分甚至超过 1000,一度导致部分节点上的 freeshell 无法连接。

21 时 49 分,承载着外部存储的 1 号节点不堪重负而崩溃,所有运行在外部存储上的 freeshell 随之卡死。

21 时 59 分,我们通过 IPMI 重启了 1 号节点。

23 时 57 分,1 号节点上的 freeshell 全部启动完成。(是的,你没看错,一个节点上的 241 个 freeshell 需要两小时才能启动完毕。这个启动过程已经是并行的,磁盘 I/O 一直是满的。因为上次系统崩溃时各虚拟机的磁盘配额处于不一致状态,重启后需要扫描所有文件来重新初始化磁盘配额。如果上次物理节点是正常关机的,大概 30 分钟就启动完了,而且大多数 freeshell 会恢复到关机前的状态)

4 月 1 日 0 时 17 分,我们启动了 1 号节点上的 NFS 服务,其他节点上的虚拟机逐渐恢复。但由于存储中断时间过长,部分虚拟机已经被关闭,这些虚拟机需要用户在控制面板里手动启动。(由于 1 号节点上 freeshell 初始化过程中开启 NFS,可能引发未知原因的 kernel panic,我们不得不让 1 号节点的 freeshell 启动完再开启 NFS)

非常抱歉这次故障给您带来的不便。