LUG GitLab 维护通知

UPDATE:LUG GitLab 将于 2019 年 3 月 03 日(周日) 2:00-8:00 进入只读模式,8:00-9:00 停机维护,给大家带来不便敬请谅解。

UPDATE: 2019 年 3 月 03 日 10:00 维护结束,服务已恢复。

—-

LUG GitLab 将于今晚(2019-02-26) 20:00 开始停机维护。

主要维护内容:

  • 硬盘扩容;

由于需要停机备份,文件较大,预计耗时一个小时以上。

2019-02-26 21:42 UPDATE: 备份时间远长于预期,本次维护终止,服务正在恢复。

2019-02-26 21:49 UPDATE: 服务已恢复(部分用户需等待 DNS 生效)。

网络启动服务重构

寒假期间,我们重构了网络启动服务(PXE),主要有以下改变:

  • 引导器由 PXELINUX 更换为 GRUB2,以提供更好的 UEFI 支持;
  • 使用 simple-pxe 脚本实现系统镜像及菜单的自动生成和更新;
  • 提供了更多操作系统,包括 FreeBSD 和 NetBSD。

校内使用方式和以前一样。校外用户可在 GRUB2 命令行中执行以下命令加载我们的网络启动服务:configfile (http,pxe.ustc.edu.cn)/boot2/menu/root.menu

诚邀各位使用并提供反馈。

mirrors 系统盘故障

由于今天中午 12:17 分左右 mirrors 系统盘故障导致大量服务中断,通过 IPMI 也未能成功启动服务器,现在 mirrors 处于停机状态。

停机期间部分原有镜像的 HTTP 访问方式将通过重定向到 TUNA 镜像站,SJTU 镜像站等提供[1],RSYNC 方式将停止提供。

我们会尽快恢复服务。

[1] 重定向规则见:https://git.lug.ustc.edu.cn/mirrors/mirrors-backup/blob/master/redirect.lua

UPDATE (2019-02-12 00:30):mirrors 现已恢复工作

PyPI 镜像变更通知

由于 PyPI 源日益增长的空间与 mirror 磁盘空间非常有限的矛盾[1]和用户报告的 PyPI 源的诸多问题[2],以及考虑到 PyPI 源的资源占用对其他镜像服务质量的影响,我们暂时移除了对 PyPI 的本地镜像。即日起至新的 PyPI 源镜像方案实施前,本站 PyPI 源的 HTTP 协议访问将重定向到 TUNA PyPI 源[3];PyPI 源的 RSYNC 同步方式停止提供。

 

Ref:

[1] https://github.com/ustclug/mirrorrequest/issues/213

[2] https://github.com/ustclug/mirrorrequest/issues/133

[3] https://mirrors.tuna.tsinghua.edu.cn/pypi/

GitLab 域名迁移

由于 LUG 网络架构变动,GitLab 域名已迁移到 git.lug.ustc.edu.cn,8 月 15 日后不再支持 git.ustclug.org 的访问,请大家尽快迁移。

远程地址可用 git remote set-url <name> git@git.lug.ustc.edu.cn:<user>/<repo> 命令变更。给大家带来不便,敬请谅解。

6 月 14 日宕机事件说明

6 月 14 日凌晨 00:40 左右,来自外部的监控显示 USTC LUG 几乎所有服务都出现了访问异常。经过我们简单的排查,虚拟机宿主机 3 号节点上所有服务器全部脱离控制,失去响应。内网网关和管理员内网入口均受到此节点宕机影响,这使得我们的恢复工作进程缓慢。目前受影响的服务已经完全恢复,部分服务进行了调整。

事件发生之前,管理员正在执行一项计划中的迁移和修复工作:此前 RAID 磁盘阵列上的文件系统损坏,需要重建,我们将磁盘阵列上储存的虚拟机文件热迁移到了一块临时硬盘(tempdisk),计划在阵列文件系统修复完成后将 tempdisk 上的虚拟机热迁移回磁盘阵列,以确保整个迁移过程不会发生服务中断。

事件发生后,经过我们调查,tempdisk 发生了严重损坏,依赖于该硬盘的虚拟机全部宕机。该管理员在选择 tempdisk 作为中转储存器时没有考虑到冗余安全性,tempdisk 是一块有着近 10 年历史的老硬盘,我们推测是突然增加的写入压力导致了这块硬盘的损坏。

在恢复服务的过程中,因为部分配置没有持久化,部分网络环境有差异,内网服务耦合度大,无法通过 SSH 登陆,数据备份中心连接不畅等诸多问题,以及维护成员最近有很多很多 DDL,恢复工作进行了约 3 天时间,目前所有服务几乎已经恢复。恢复过程中,由于本站也受到影响而无法访问,我们的所有工作进展发布在了 https://news.ustclug.org/2018/06/server-down/ 。

此次恢复过程还暴露了我们内网架构的某些单点故障问题,解决这些问题已经被纳入之后的重构计划中。

此次维护中我们还调整了以下服务:

  • 代码托管 GitLab:保留原来的域名 git.ustclug.org 解析至 2018 年 8 月 15 日,启用新域名 git.lug.ustc.edu.cn 代替,请大家及时更新仓库地址。
  • 反向代理:部分反向代理被我们解析到了新的服务器,并且近期可能会再次调整。

以下是数据丢失的情况:

  • 代码托管 GitLab git.lug.ustc.edu.cn:没有丢失数据;
  • LUG FTP ftp.ustclug.org:没有丢失数据;
  • 主页 wiki lug.ustc.edu.cn:没有数据丢失;
  • 服务器统一认证 ldap.ustclug.org:没有数据丢失;
  • 服务器监控数据 :2018/06/14 00:40~2018/06/16 21:45 的数据丢失,数据回滚至 2018/06/14 00:40;
  • 轻量网络加速服务 light.ustclug.org:2018/06/13 01:31~2018/06/14 00:40 的数据丢失,数据回滚至 2018/06/13 01:31;
  • 网络加速服务 vpn.ustclug.org:2018/06/13 01:29~2018/06/14 00:40 的数据丢失,数据回滚至 2018/06/13 01:29;

以下服务没有受到此次事件的任何影响:

此外,由于网络和缓存问题,部分用户能正常使用各项服务的时间可能会有延迟,如果使用过程中仍然持续遇到问题,欢迎及时通过 Telegram 群组,QQ 或者是邮件联系我们,给您带来的不便敬请谅解。