今天(2014年8月3日)下午3点左右,我(cuihao)对 Mirrors 服务器上的 LXC 虚拟机执行了关机操作(lxc-shutdown)。由于虚拟机没有配置网卡隔离,该操作导致 mirrors 网络被切断。此次事故和去年年底的一次宕机事故非常相似。

事故发生后,我立即联系了 James Zhang 老师,并前往网络中心机房着手修复。断网导致 iSCSI 阵列出现大量 IO 错误。当时登录很慢且 sudo 后终端卡住,我错误地认为这是由于IO问题导致系统卡死(事后想到应该是LDAP无法链接导致的),并重启了系统。

重启导致了新的问题——系统引导失败。后来在 @zsj 同学的协助下,才通过U盘中的引导器进入了系统(但主机的引导仍未修复),mirrors 恢复服务。恢复服务后,发现 mirrors 的路由配置以及 udev 规则存在一些问题,有待日后解决。

Mirrors 从 15 时左右停止服务,到 17 时左右恢复服务,宕机时间约2小时。

近期 Mirrors 多次宕机,严重影响了服务质量,LUG 维护人员对此深表歉意。


为了避免 Mirrors 服务器故障给用户带来困扰,我们在 DNSPod 上设置了故障时DNS自动切换。检测到故障时,Mirrors 的域名解析会被切换到另一台服务器,该服务器会将用户的 HTTP 访问重定向到其他镜像站。