目前了解到的情况是,从下午2点一刻开始,全省的语音业务中断,而且两个多小时都没能修复。
按照天津这边的故障分类,影响50万户以上属于特别重大故障,应当在30分钟内修复;这次是一省的业务全阻,影响1.88亿用户,而且长时间无法修复,这种情况在电信行业内十分罕见,已经无法用常规的故障分类来衡量了。
个人猜测,最有可能的原因就是系统负荷本身较高,某一路光缆被挖断后,另一路设备无法承受过高的负荷,最终引发连锁反应,导致核心网设备大面积宕机。
(资料图)
至于网上流程的IT系统升级,这不太可能,涉及全省的系统不可能在白天进行升级,而且就算升级失败,系统立刻进行回滚,不至于两个多小时都修不好。
这种级别的故障,三个多小时才修好,大概率是硬件问题,也就是设备在宕机之后起不来了。
就是核心网的问题……
根据运营商内部的初步判断,是LDRA到HDRA之间链路拥塞。链路拥塞原因可能为某设备商的数通设备出现异常,导致数据包重传,引起信令风暴。应急处理方法是在SBC部署了流量控制流程,以及将某设备商的路由器隔离。
目前,业务在逐步恢复中。
补充知识:什么是DRA
DRA,是Diameter Routing Agent,Diameter路由代理。
Diameter被广泛应用于核心网元之间通信,是网络中应用最广泛的IP信令基础协议,主要用于认证、授权和计费。
DRA是核心网的关键网元之一,作用就是Diameter协议的路由转发。它有点类似于传统2G/3G网络的信令转接点(STP),是信令网中的信令路由中枢,负责核心网中Diameter信令的转接和路由。
再简单一点说,就是核心网关键网元之间的协议路由器拥塞了,导致了信令中断,引发业务故障。
现在就看为什么那个设备商的路由器会出现故障了。而且,为什么容灾机制没有发挥作用。