由于 全校范围的网络故障,3 月 9 日下午 17:00 ~ 18:00 网络时断时续,3 月 10 日凌晨 0:00 ~ 6:00 大约每半小时断网一次。
昨天的故障和 3 月 5 日持续 45 分钟的故障,原因估计是 近代物理楼某接口发送大量 ARP 包导致核心交换机 CPU 过载,换句话说,就是核心交换机被拒绝服务攻击了。
现代交换机通常是使用 ASIC(专用芯片)或 FPGA 来做绝大部分数据包的转发,只有少数控制包(如 ARP、STP 包)要交给交换机 CPU 做处理,交换机的 CPU 通常计算能力非常有限。例如 MAC 地址学习功能一般是由 CPU 进行的,首先所有 ARP 包被发到 CPU,CPU 把 MAC 地址和物理端口的映射关系写入到 ASIC 或 FPGA 中的二层转发表。如果交换机收到大量 ARP 包,又没有在入站端口对 ARP 包进行限速,就会导致交换机 CPU 忙不过来。
非常抱歉近几天的网络故障给您带来的不便。同时强烈谴责(有意或无意)进行网络攻击的人,对全校师生造成了这么大的麻烦!
这交换机要么档次太低了, 要么型号太旧了.
本身就应该有智能限速的.
这交换机是 Cisco Nexus 7010,是有 ARP 限速,不过限速阈值可能设置得不合理,导致仍然有大量 ARP 包涌入交换机 CPU。按说高 CPU 利用率时应该发 pause 帧暂停端口的,不过为了核心网络稳定,似乎是把 flow control 关掉了。
en.m.wikipedia.org/wiki/MAC_flooding
http://www.force10networks.com/CSPortal20/TechTips/0040_HighCPU.aspx