6 月 14 日宕机事件说明

6 月 14 日凌晨 00:40 左右,来自外部的监控显示 USTC LUG 几乎所有服务都出现了访问异常。经过我们简单的排查,虚拟机宿主机 3 号节点上所有服务器全部脱离控制,失去响应。内网网关和管理员内网入口均受到此节点宕机影响,这使得我们的恢复工作进程缓慢。目前受影响的服务已经完全恢复,部分服务进行了调整。

事件发生之前,管理员正在执行一项计划中的迁移和修复工作:此前 RAID 磁盘阵列上的文件系统损坏,需要重建,我们将磁盘阵列上储存的虚拟机文件热迁移到了一块临时硬盘(tempdisk),计划在阵列文件系统修复完成后将 tempdisk 上的虚拟机热迁移回磁盘阵列,以确保整个迁移过程不会发生服务中断。

事件发生后,经过我们调查,tempdisk 发生了严重损坏,依赖于该硬盘的虚拟机全部宕机。该管理员在选择 tempdisk 作为中转储存器时没有考虑到冗余安全性,tempdisk 是一块有着近 10 年历史的老硬盘,我们推测是突然增加的写入压力导致了这块硬盘的损坏。

在恢复服务的过程中,因为部分配置没有持久化,部分网络环境有差异,内网服务耦合度大,无法通过 SSH 登陆,数据备份中心连接不畅等诸多问题,以及维护成员最近有很多很多 DDL,恢复工作进行了约 3 天时间,目前所有服务几乎已经恢复。恢复过程中,由于本站也受到影响而无法访问,我们的所有工作进展发布在了 https://news.ustclug.org/2018/06/server-down/ 。

此次恢复过程还暴露了我们内网架构的某些单点故障问题,解决这些问题已经被纳入之后的重构计划中。

此次维护中我们还调整了以下服务:

  • 代码托管 GitLab:保留原来的域名 git.ustclug.org 解析至 2018 年 8 月 15 日,启用新域名 git.lug.ustc.edu.cn 代替,请大家及时更新仓库地址。
  • 反向代理:部分反向代理被我们解析到了新的服务器,并且近期可能会再次调整。

以下是数据丢失的情况:

  • 代码托管 GitLab git.lug.ustc.edu.cn:没有丢失数据;
  • LUG FTP ftp.ustclug.org:没有丢失数据;
  • 主页 wiki lug.ustc.edu.cn:没有数据丢失;
  • 服务器统一认证 ldap.ustclug.org:没有数据丢失;
  • 服务器监控数据 :2018/06/14 00:40~2016/06/16 21:45 的数据丢失,数据回滚至 2018/06/14 00:40;
  • 轻量网络加速服务 light.ustclug.org:2018/06/13 01:31~2018/06/14 00:40 的数据丢失,数据回滚至 2018/06/13 01:31;
  • 网络加速服务 vpn.ustclug.org:2018/06/13 01:29~2018/06/14 00:40 的数据丢失,数据回滚至 2018/06/13 01:29;

以下服务没有受到此次事件的任何影响:

此外,由于网络和缓存问题,部分用户能正常使用各项服务的时间可能会有延迟,如果使用过程中仍然持续遇到问题,欢迎及时通过 Telegram 群组,QQ 或者是邮件联系我们,给您带来的不便敬请谅解。

PGP 公钥服务域名迁移至 pgp.ustc.edu.cn

PGP 公钥服务器(原域名为 sks.ustclug.org)已迁移至 pgp.ustc.edu.cn

请大家及时更新自己的配置文件,以 gnupg 配置为例:

~/.gnupg/gpg.conf 文件中修改 keyserver 配置行,或加入新行:

keyserver hkps://pgp.ustc.edu.cn

gnupg2 用户也可以修改 ~/.gnupg/dirmngr.conf,加入:

keyserver hkps://pgp.ustc.edu.cn

然后使用 gpgconf --reload dirmngr 命令使配置生效。

QT Guide与OpenSUSE Guide地址变更

OpenSUSE Guide是一份为新手提供的OpenSUSE指导性文档,基于GNU自由文档许可证发布,由 Winland 翻译为中文版本。

QT Programming Guide是 Winland 原创的QT中文教程,基于GNU自由文档许可证发布,目前仍然在更新中。

这两本书的电子版自2014年以来长期与LUG主页(即DokuWiki)托管在同一台主机上。但由于近年来架构变动频繁,自动更新一度失效。为了更方便得实现自动更新,我们将仓库搬到了GitHub(OpenSUSE GuideQT Programming Guide),并启用的新的子域名提供对外访问:

在此感谢 @Winland 杰出的工作

https证书换为AlphaSSL和Let’s Encrypt

WoSign最近爆出了丑闻,StartCom也受影响,为了不影响屏蔽以上CA用户的访问,现已将mirrors.ustc.edu.cn及ustclug.org等大部分域名的证书换为AlphaSSL或Let’s Encrypt。由于涉及域名众多,如有遗漏请反馈。

另,今日调整mirrors证书时nginx的reload过程带来大量负载,导致镜像站中断服务大概10分钟,深表歉意

新增 OpenPGP Keyserver

注意:域名已迁移至 pgp.ustc.edu.cn

PGP 公钥服务域名迁移至 pgp.ustc.edu.cn

新增 sks.ustclug.org,同时已加入 SKS Keyserver Pool。
SKS Keyserver Pool 监控信息:https://sks-keyservers.net/status/ks-status.php?server=sks.ustclug.org
SKS Keyserver 状态信息:https://sks.ustclug.org/pks/lookup?op=stats

GnuPG 用户可以设置 keyserver 服务器为 hkp://sks.ustclug.org 来直接使用。如:
gpg --keyserver hkp://sks.ustclug.org --refresh-keys

GnuPG 2 的用户可以将 sks.ustclug.org 加入配置文件中,方法:
.gnupg/dirmngr.conf 中加入 keyserver hkp://sks.ustclug.org
然后运行 gpgconf --reload dirmngr 使配置生效。

hkps 协议暂未支持,正在申请 hkps 证书中 🙂

update 2:

https/hkps 证书改为由 Let’s Encrypt 签发。

对应的 CA 请使用 DST RootCA X3

Linux 用户一般可以从 /usr/share/ca-certificates/mozilla/DST_Root_CA_X3.crt 这个地方获取 CA 文件。

update 1:

hkp 协议为 http 协议的子集(默认端口不同),所以 hkps 和 https 也是类似的(都使用 443 端口)。
SKS Keyserver Pool 的 hkps 要求使用的是 sks-keyservers.net CA 签发的证书(不被浏览器信任),所以我们决定保留使用 StartCom 签发的证书用于
443 端口,即用于 https 和 hkps 服务。

请使用 hkps 的同学在配置文件中加入 StartCom_Certification_Authority 这个 CA。

具体以 GnuPG 2.1.11 为例:


mkdir ~/.gnupg/trusted-certs
cp /usr/share/ca-certificates/mozilla/StartCom_Certification_Authority.crt ~/.gnupg/trusted-certs/StartCom_Certification_Authority.pem
# 注意 dirmngr 只认 pem 结尾的证书
echo "hkp-cacert ~/.gnupg/trusted-certs/StartCom_Certification_Authority.pem" >> ~/.gnupg/dirmngr.conf
echo "keyserver hkp://sks.ustclug.org" >> ~/.gnupg/dirmngr.conf
gpgconf --reload dirmngr

新增HTTP 204服务

Android(安卓)操作系统从5.0版引入了一项网络评估机制,在连接wifi时尝试访问clients3.google.com/generate_204,以便探测网络是否需要认证。

但由于众所周知的原因,clients3.google.com在某些地区无法访问,导致Wifi图标上出现一个感叹号。

您可以尝试将clients3.google.com替换为LUG的提供的站点:http://204.ustclug.org。

使用方法:


adb shell "settings put global captive_portal_server 204.ustclug.org"

shinobu停机维护公告

由于shinobu服务器内存损坏,计划于2015年7月21日10:00~13:00停机维护。

届时以下服务将中断:

  • 白帽子网站
  • Ganglia监控
  • docker镜像站

给您带来不便,深表歉意。

update:由于服务器堆叠方式不正确,打开服务器机盖可能造成其他服务器断电。故未进行硬件维护。

东图机房网络设备维护公告

为改善网络安全性和速度,计划于2015年7月21日10:00~13:00,对东图网络设备进行升级改造。维护期间,服务可能出现短暂性中断。

以下服务可能短暂性无法访问:

  • GitLab
  • 防污染DNS
  • lug主页
  • Google字体加速
  • 白帽子网站
  • docker镜像站
  • Ganglia监控

涉及到的服务器:

  • donut
  • shinobu
  • esxi-{1..4}

给您带来的不便,深表歉意。

update 16:52:维护完成!

P.S.安装交换机后网络出现故障,vlan转发不正常。因此,临时重置了交换机,目前未配置vlan。

LUG服务器遭受大规模网络攻击

我们非常抱歉得通知大家,LUG服务器正遭受大规模网络攻击,出现故障的服务包括但不限于:

  • 科大开源镜像站: mirrors.ustc.edu.cn
  • 科大博客:blog.ustc.edu.cn
  • FreeShell:freeshell.ustc.edu.cn
  • LUG主页:lug.ustc.edu.cn
  • LUG VPN:vpn.lug.ustc.edu.cn(暂停服务通知
  • 代码托管服务:git.ustclug.org
  • LUG防污染DNS
  • Google字体加速

已恢复的服务:

  • 科大开源镜像站: mirrors.ustc.edu.cn(服务状态说明
  • 代码托管服务:git.ustclug.org
  • LUG主页:lug.ustc.edu.cn
  • LUG防污染DNS(仅IPv4)
  • 科大博客:blog.ustc.edu.cn
  • Google字体加速

我们正在努力抢修剩余服务,给您带来不便,深表歉意。

中国科技大学Linux用户协会服务器维护组全体成员敬上

Linux User Group
University of Science and Technology of China
Homepage: http://lug.ustc.edu.cn/
E-Mail: lug@ustc.edu.cn