6 月 14 日宕机事件说明

6 月 14 日凌晨 00:40 左右,来自外部的监控显示 USTC LUG 几乎所有服务都出现了访问异常。经过我们简单的排查,虚拟机宿主机 3 号节点上所有服务器全部脱离控制,失去响应。内网网关和管理员内网入口均受到此节点宕机影响,这使得我们的恢复工作进程缓慢。目前受影响的服务已经完全恢复,部分服务进行了调整。

事件发生之前,管理员正在执行一项计划中的迁移和修复工作:此前 RAID 磁盘阵列上的文件系统损坏,需要重建,我们将磁盘阵列上储存的虚拟机文件热迁移到了一块临时硬盘(tempdisk),计划在阵列文件系统修复完成后将 tempdisk 上的虚拟机热迁移回磁盘阵列,以确保整个迁移过程不会发生服务中断。

事件发生后,经过我们调查,tempdisk 发生了严重损坏,依赖于该硬盘的虚拟机全部宕机。该管理员在选择 tempdisk 作为中转储存器时没有考虑到冗余安全性,tempdisk 是一块有着近 10 年历史的老硬盘,我们推测是突然增加的写入压力导致了这块硬盘的损坏。

在恢复服务的过程中,因为部分配置没有持久化,部分网络环境有差异,内网服务耦合度大,无法通过 SSH 登陆,数据备份中心连接不畅等诸多问题,以及维护成员最近有很多很多 DDL,恢复工作进行了约 3 天时间,目前所有服务几乎已经恢复。恢复过程中,由于本站也受到影响而无法访问,我们的所有工作进展发布在了 https://news.ustclug.org/2018/06/server-down/ 。

此次恢复过程还暴露了我们内网架构的某些单点故障问题,解决这些问题已经被纳入之后的重构计划中。

此次维护中我们还调整了以下服务:

  • 代码托管 GitLab:保留原来的域名 git.ustclug.org 解析至 2018 年 8 月 15 日,启用新域名 git.lug.ustc.edu.cn 代替,请大家及时更新仓库地址。
  • 反向代理:部分反向代理被我们解析到了新的服务器,并且近期可能会再次调整。

以下是数据丢失的情况:

  • 代码托管 GitLab git.lug.ustc.edu.cn:没有丢失数据;
  • LUG FTP ftp.ustclug.org:没有丢失数据;
  • 主页 wiki lug.ustc.edu.cn:没有数据丢失;
  • 服务器统一认证 ldap.ustclug.org:没有数据丢失;
  • 服务器监控数据 :2018/06/14 00:40~2016/06/16 21:45 的数据丢失,数据回滚至 2018/06/14 00:40;
  • 轻量网络加速服务 light.ustclug.org:2018/06/13 01:31~2018/06/14 00:40 的数据丢失,数据回滚至 2018/06/13 01:31;
  • 网络加速服务 vpn.ustclug.org:2018/06/13 01:29~2018/06/14 00:40 的数据丢失,数据回滚至 2018/06/13 01:29;

以下服务没有受到此次事件的任何影响:

此外,由于网络和缓存问题,部分用户能正常使用各项服务的时间可能会有延迟,如果使用过程中仍然持续遇到问题,欢迎及时通过 Telegram 群组,QQ 或者是邮件联系我们,给您带来的不便敬请谅解。

《6 月 14 日宕机事件说明》上有1条评论

评论已关闭。