大量用户反映中国电信广东地区崩了,什么原因导致的?

作者: 来源: 假小臣 2023-06-09 03:20:35

 

目前了解到的情况是,从下午2点一刻开始,全省的语音业务中断,而且两个多小时都没能修复。

按照天津这边的故障分类,影响50万户以上属于特别重大故障,应当在30分钟内修复;这次是一省的业务全阻,影响1.88亿用户,而且长时间无法修复,这种情况在电信行业内十分罕见,已经无法用常规的故障分类来衡量了。

个人猜测,最有可能的原因就是系统负荷本身较高,某一路光缆被挖断后,另一路设备无法承受过高的负荷,最终引发连锁反应,导致核心网设备大面积宕机。


(资料图)

至于网上流程的IT系统升级,这不太可能,涉及全省的系统不可能在白天进行升级,而且就算升级失败,系统立刻进行回滚,不至于两个多小时都修不好。

这种级别的故障,三个多小时才修好,大概率是硬件问题,也就是设备在宕机之后起不来了。

就是核心网的问题……

根据运营商内部的初步判断,是LDRA到HDRA之间链路拥塞。链路拥塞原因可能为某设备商的数通设备出现异常,导致数据包重传,引起信令风暴。应急处理方法是在SBC部署了流量控制流程,以及将某设备商的路由器隔离。

目前,业务在逐步恢复中。

补充知识:什么是DRA

DRA,是Diameter Routing Agent,Diameter路由代理。

Diameter被广泛应用于核心网元之间通信,是网络中应用最广泛的IP信令基础协议,主要用于认证、授权和计费。

DRA是核心网的关键网元之一,作用就是Diameter协议的路由转发。它有点类似于传统2G/3G网络的信令转接点(STP),是信令网中的信令路由中枢,负责核心网中Diameter信令的转接和路由。

再简单一点说,就是核心网关键网元之间的协议路由器拥塞了,导致了信令中断,引发业务故障。

现在就看为什么那个设备商的路由器会出现故障了。而且,为什么容灾机制没有发挥作用。

 

关键词


相关文章