8月22日晚间,USTC Blog 服务出现乱码、显示0个用户等问题。

此问题由 Hao Wang 在邮件列表里报告(http://archive.lug.ustc.edu.cn/2013-August/012242.html)。

bible 在第一时间修复了这个问题(http://archive.lug.ustc.edu.cn/2013-August/012244.html

boj 给出了此次故障的一些技术信息(http://archive.lug.ustc.edu.cn/2013-August/012248.html

当时 blog 服务器上没有运行特别占用资源的服务,而 freeshell 上运行了批量解析域名的脚本,resolver 是 blog,故有可能是由于 blog 上自建的 BIND9 recursor(进程名:named)占用了过多内存。之前已经设置了 BIND9 recursor 缓存限制为 512M,因此不知道是什么原因。总之,这种不熟悉的服务最好不要在生产服务器上搭建。

这次还揭露一个问题,服务器报警不够全面。早先的报警是”黑盒测试”,在 HTTP response 不包含给定字符串时触发,这次首页和我的个人博客没有明显故障,是发现不了的。因为硬盘满而出故障那次之后,还加入了磁盘报警,这是第一个”白盒测试”,不过这次没派上用场。应该再加一种白盒测试,tail -f syslog,一旦出现某些感兴趣的关键词就报警。