01-光网络故障排除案例集锦第三期

更新时间:2023-05-28 16:20:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

光网络

目 录

1 保护倒换 .................................................................................. 1

1.1 通道保护环线路板位映射错误导致倒换时告警

不正常 .................................................................................. 1

2 误码问题 .................................................................................. 3

2.1 OptiX 10G长距传输出现误码时的解决思路 .................. 3

2.2 SL64长距光板误码问题的分析与解决 ........................... 6

2.3 仪表未接地,受到干扰导致测试出现误码 ..................... 9

2.4 环回法定位法兰盘故障引起的线路误码 ...................... 11

3 设备对接 ................................................................................ 13

3.1 改善接地排除外部干扰,解决与基站对接时业务

不正常 ................................................................................ 13

4 时钟问题 ................................................................................ 15

4.1 SYNBAD告警处理案例一例 ........................................ 15

4.2 外部时钟源丢失后引起全网网元自由振荡 ................... 16

5 主机和公务问题 ..................................................................... 18

5.1 带扩展子架的光口设为通公务导致会议电话不通 ........ 18

6 Metro产品 .............................................................................. 20

6.1 ET1板网线松动导致IP业务丢包 ................................ 20

6.2 由于对接设备设置安全措施而导致的PING包丢失 .... 23

6.3 ET1板计算流量的简易方法 ......................................... 25

6.4 ET1单板对接出现大量RXCRC的处理 ....................... 28

6.5 OptiX 155/622H(Metro1000)和MA5100设备对接无法

浏览网页的处理 ................................................................. 30

7 波分产品 ................................................................................ 32

i

光网络

7.1 SDH光板发送无帧信号导致TWC、RWC上报

R-OOF、R-LOS告警 ........................................................ 32

7.2 数据设定问题导致公务异常 ........................................ 34

7.3 波长自激振荡引起误码甚至业务中断 .......................... 36

8 网管产品 ................................................................................ 38

8.1 用NES网管修改J1字节的两种方法的异同 ............... 38

8.2 iManager T2000网管告警量过大导致网管无法

启动解决办法 ..................................................................... 40

8.3 T2000网管客户端登录时静态数据加载失败的

定位思路 ............................................................................ 43

8.4 T2000网管独立客户端安装后启动失败的解决

方法.................................................................................... 46

8.5 更改WIN2000登录用户导致T2000网管服务

器端无法启动 ..................................................................... 49

8.6 在T2000网管中利用权限微调给监视用户添加

操作权限的小经验 .............................................................. 51

8.7 在ODBC设置中启动“跟踪”导致T2000网管

客户端无法正常启动 .......................................................... 53

8.8 T2000网管接外置音箱后发声问题 .............................. 55

9 其他问题 ................................................................................ 56

9.1 更换主控后未添加原网元用户导致主控持续上报

SECU_ALM告警 ............................................................... 56

9.2 OptiX 2500+设备PQ1板告警异常问题处理总结 ....... 57

9.3 OptiX 155/622设备增加备用GTC板,操作不当

引起业务中断 ..................................................................... 59

9.4 用水笔拨动拨码导致单板受到腐蚀损坏 ...................... 61

ii

光网络

1 保护倒换

1.1 通道保护环线路板位映射错误导致倒换时告警不正常

【现象描述】

组网图如上,5个OptiX 155/622H设备组成一155M单向通道保护环,从1号站到5号站,ID依次为1~5,1号站为业务集中点。在做保护倒换测试时,断1号站发往2号站的光纤后,发现4号站支路板没有PS告警,2、3、5号站点支路板有PS告警,业务正常。

【原因分析】

根据通道保护环的保护机理,按以上组网图,1、2号站之间断纤后,4号站收1号站的工作通道(西向光板)上报AIS,支路的接收应倒换到备用通道上(东向光板),而此时4站支路板没有上报PS告警,则支路板没有发生保护倒换,据此判断应该是1号中心站到4号站点的西向光板没有检测到业务异常。

出现这样的情况有两种可能,一种情况是4号站东、西向光纤接反了,另一种情况是4号站西向逻辑系统的光板错误映射成了东向逻辑系统光板。

【处理过程】

(1) 查看4号站点业务配置,没有异常。

光网络

(2) 通过在3号的东向光板(即3站发向4站方向)和5号的西

向光板(即5站发向4站方向)下插MS-RDI告警,判断是

否光纤接反,结果正常。

(3) 查看4号站点的逻辑系统属性和光板逻辑系统映射,发现错

误的将4号站OI2D光板的左光口映射成了东向,右光口映射

成了西向。而连接光纤时,又按照光板的左光口定义为西向,右光口定义为东向的情况连接光纤。

(4) 改正4号站OI2D的光板映射,支路板倒换告警出现,PP环

倒换正常。

【建议与总结】

在进行单向通道保护环的组网时,光纤接反和光板映射错误业务仍然可能正常开通,所以不容易发现光纤接反和光板映射错误,但保护倒换会不正常,所以在进行PP组网时要特别注意光纤的连接正确和光板映射。尤其对于OptiX 155/622H设备中的双光口板,注意一般是把位于左边的光口定义为西向,右边的光口定义为东向。

光网络

2 误码问题

2.1 OptiX 10G长距传输出现误码时的解决思路

【现象描述】

OptiX 10G MADM系统联调时由A、B、C、D、E五个站组成一个环。任何两个站之间光路上通过SL64->ABPA(BA光口)->线路->ABPA(PA光口)->ADCU->SL64连接。配置所有通道为串连业务,在A站通过SLO1板挂MP1550表对155M通道挂测24小时误码,在挂表14小时后表上开始出现了B3误码。 A

SL64BADCU光衰

5dBSL64

TxRx

【原因分析】

高阶通道误码定位比较困难,关键是先定位由哪一个站引的误码,再具体到哪一块单板。思路如下:

(1) 首先查询全网的RSBBE告警。如果查到某一块单板出现了

RSBBE告警,那么就是这块单板接收到了RSBBE告警,并

向下游站传递HPBBE告警。这就是说上一站发出的信号经过

线路传送后到下一站的接收出现误码。这有可能是线路的问

题,也有可能是单板的问题。可以先进行线路的定位,再更换

两站单板。

(2) 检查是否光路问题,可以检查盘纤、曲率半径,光纤头是否脏

等,排除尾纤和接头的问题。

光网络

(3) 基本排除了线路问题,可以检查单板。如果查不到RSBBE,

那么就对全网的HPBBE进行查询,因为这种情况很可能是由

于某个高阶通道出现误码引起的。全网都出现HPBBE,而且

找不到RSBBE,那么应该有一块单板是查询不到HPBBE告

警的,这种情况下就是因为这块单板引起的HPBBE告警,但

是在下一块单板才上报,这样就可以把故障定位到该单板了,简化成单个业务的误码。

OptiX 10G的误码基本上可以由以上几种方法定位。

【处理过程】

(1) 查询五个站SL64板的RSBBE误码,结果发现B站的6板位

SL64板(与C站5板位相连)有RSBBE告警。这就说明是再

生段误码引起的高阶通道误码。

(2) 开始怀疑是线路上的问题。检查了尾纤的盘放情况,没有发现

曲率半径过小的情况。再查各点的光功率值,都是正常的。光

纤头也很干净。

(3) 然后更换B站和C站相对应的两块SL64板后。再挂表测试,

结果还是有误码。

(4) 通过光功率值验证ABPA板是否是好的,BA的发光光功率在

14dBm左右,PA的收光光功率在-17dBm左右,均正常,

发现没有问题;再更换ADCU板进行挂表测试,结果误码还

是不消除。

(5) 查线路上的光衰情况,发现在进入B站的SL64板之前加了一

个5dBm的固定光衰。而5dBm的固定光衰是通过空气进行

光网络

衰减,会引进反射,使信噪比降低(长距传输情况下,要求使

用可调光衰)。但是这个判断只能通过挂表进行验证。

(6) 将5dBm的固定光衰换成可调光衰,继续挂表测试。

(7) 经过24小时的挂表测试没有问题。

(8) 将原来的光板换回去再进行24小时挂表测试也没有问题。

(9) 在后来的挂表测试中,这一段再也没有出现过误码。可以判定

原来的误码是由光衰引起的。

光网络

2.2 SL64长距光板误码问题的分析与解决

【现象描述】

B

环一、环二相交组成10G双向MSP相交环,组网图如上,A站带一扩展子架C,B站带一扩展子架D,扩展子架均为OptiX 2500+设备。在系统调测过程中发现A站点与其下游站点B站点之间的2M业务有误码。

此两站相距120km,配置有ABPA板、ADCU板,收发端配置为: 接收信号流为:外部光纤->PA->可调光衰->ADCU->SL64 (SSA1SL6426)

发送信号流为:SL64->BA->线路

A站对应于B站的东向光板有B3SD、B3OVER告警,有时还有B2误码,同时伴有R-LOF,性能事件中有RSBBE、MSBBE、HPBBE等。B站没有告警产生,性能事件中有MSFEBBE、HPFEBBE等远端背景误码块。

【原因分析】

有B3、B2误码,且有R-LOF产生,一般是光路的原因,因此解决问题应着重于光路,且10G光板对光功率较敏感,因此在分析、处理问题时要着重于光板的收、发光功率。同时从性能事件可以看出,主

光网络

要是A站的问题,因此在解决问题时应着重于A站。分析处理步骤如下。

【处理过程】

(1) 测试两站外PA的收光,发现两站相差10dBm左右,经查询

为线路光纤没插好,插好外部光纤再测试,还是同样现象。

(2) 由于A站有误码,B站无误码,由于两根光纤是同一路由,

怀疑其中一根光纤有问题,于是更换两根外部光纤,经测试还

是A站有误码,从而排除外部光纤问题。

(3) 通过以上分析,可能原因在A站,测试A站PA收光在-

20dBm左右,SL64收光为-11dBm左右,通过调整A站的

可调光衰,发现SL64板收光在-5dBm左右时误码明显减少,该光板过载点在0dBm左右。

(4) 虽然SL64收光在-5dBm左右时误码有明显减少,但无论怎

么调整光功率都有误码产生,酒精清洁各光纤头,但还是不能

解决问题。

(5) 通过把A站SL64光板硬环回进行单站测试,无误码产生,可

以断定不是光板问题,问题在于光路。

(6) 测试A站的各单板输入光功率值,在测试SL64光板收光时通

过网管性能事件发现接收光功率波动(有1~2个dBm左右),判断是收光不稳定所造成的。通过检查,发现在测试进入PA

的IN口的光功率时,光功率有较大变化,可以判断是ODF

架到设备的尾纤有问题,更换该段尾纤,再进行测试,误码消

失。

光网络

【建议与总结】

在处理误码时,特别是10G设备,一定要注意接收光功率,同时10G设备对光纤要求也很高,要注意光纤头的清洁度及弯曲度,这是误码产生的主要原因。

光网络

2.3 仪表未接地,受到干扰导致测试出现误码

【故障现象】

某局OptiX 10G设备主子架带出OptiX 2500+扩展子架,OptiX 2500+子架为8块PQ1板满配置,中继电缆为120欧电缆。某日对OptiX 2500+子架进行24小时误码测试,测试仪表是HP37717。测试时发现偶尔有小误码,重测多次,现象依旧。

【原因分析】

(1) 检查PQ1单板的性能数据,没有误码性能。

(2) 由于此次工程OptiX 2500+的中继电缆是120欧,且无屏蔽

层,初步怀疑是电缆屏蔽质量不够好,但用一根70M长此类

电缆做测试,各项指标都合格。

(3) 一次,发现工程施工人员用绕线枪在DDF架上做线时,将绕

线枪与测试仪表插到了同一个插座上。做线时,不小心将绕线

枪的插头拉离了插座,插头处有火花冒出,此时发现仪表有误

码产生,误码原因找到。

【处理过程】

(1) 重新为仪表专门接一个插座,避免其他设备对仪表电源的干

扰。

(2) 将仪表外壳接地,再测试24小时误码,8个通道串接无误码,

一切正常。

【建议总结】

为进一步验证结论又做了实验:在仪表未接地的情况下,用插头在插座上做拔插操作,很快仪表上就有误码;将仪表接地,做同样操作,无误码产生。

光网络

经过了解原来在机房用此台仪表测试时没接地,但电源都是一路专用的,没有电源冲击。但在工程现场,就很容易忽略这些问题,经常大家多种设备共用一个插座,电流冲击很大,如果我们做好接地和屏蔽措施,那么即使有一些异常情况也不会出问题。

光网络

2.4 环回法定位法兰盘故障引起的线路误码

【故障现象】

某工程由8个OptiX 155/622设备组成622M双向复用段环,ID号依次为1-8,1号站为中心站,该站另外还通过13槽位SL1光板带出9号站(也是OptiX 155/622设备),9号站又带出四个OptiX 155/622H设备,ID号依次为10-13,所有业务都开到1号站。某日9-13站接入网话音质量变差,有时出现断线。1号站13槽位SL1有MS-REI告警,对端光板9号站的11槽位SL1上告B1-OVER,B2-OVER,B2-SD告警,10-13站支路板有BIPSD告警。

【原因分析】

从故障现象分析,接入网话音质量差应该是由于传输侧误码引起的。由于光路误码和支路误码同时存在,从业务路由可以看出支路误码是因为光路误码产生的。于是可以初步定位故障在1号站和和9号站这一段光路。从查询上来的告警可以看出,问题可能存在于1号站发9号站这一段光路,9号站发1号站这一段光路应该没问题。可能的原因有以下几点:

(1) 1号站13槽位光板发有问题;

(2) 9号站11槽位光板收有问题;

(3) 线路问题。

为了进一步定位故障,可用环回法逐步定位故障,找出原因,具体步骤详见过程处理。

【处理过程】

(1) 对1号站13槽位光板做内环回,“MS-REI”告警消失,表

明1号站没问题;

光网络

(2) 对9号站11槽位光板做内环回,本站B1-OVER,B2-OVER,

B2-SD告警消失,10-13站支路板BIPSD告警也消失,于是

可以确定是1号站到9号站的线路问题;

(3) 用光功测量1号站收光功率,正常,测量9号站收光功率,

过低,可以判断线路误码是由于收光功率过低引起的;

(4) 在9号站ODF架上做本地环回,本站B1-OVER,B2-OVER,

B2-SD告警不消失,测量收光功率,过低,于是定位为9号

站ODF架到设备光板侧的线路问题;

(5) 更换ODF架到设备的这一段尾纤,问题依然存在,更换连接

这一段尾纤的法兰盘,问题解决。

【建议总结】

线路故障不一定是光纤质量问题,法兰盘不好可能导致对端收光功率过低引起线路误码。

光网络

3 设备对接

3.1 改善接地排除外部干扰,解决与基站对接时业务不正常

【故障现象】

某局使用OptiX 2500+设备完成交换和数据传输任务,运行一直稳定正常。在该站新安装了一套E厂家基站设备,从原正常运行的2M业务中抽出两个2M用作基站传输,用户反应基站业务时通时断,基站丢包滑码严重,从网管上监测到2M通道有低阶误码上报。

【原因分析】

由于网管上没有高阶误码,只有一部分2M通道有低阶误码的性能事件上报并且没有指针调整的性能事件,所以排除光路、光板、时钟板的问题。

故障原因有可能为交叉板、支路板坏,或母板倒针,2M线接触不良、或是接地问题。

【处理过程】

(1) 调换2M业务所用通道,换为另一使用正常的通道,发现基站

故障依然存在,排除支路板、母板和交叉板问题。

(2) 更换两个使用正常的2M线与基站2M进行对接,发现故障依

然存在,排除2M线及2M线接头问题。

(3) 由于该站旁一工地正在施工,使用发电机和发动机等设备,怀

疑是由于设备接地不良产生的电磁干扰,检查机柜及DDF架

接地均良好,地阻值小于1 。

(4) 与E厂家督导测试传输及基站设备的电口特性,均在正常范

围。

光网络

(5) 再次查看性能事件,发现误码事件的产生均集中在上班时间,

而且23点以后无异常性能事件产生,而23点正是工地停工

时间。再次考虑是接地问题,据了解得知和E厂家基站连接

的2M线由于接头问题并没有通过DDF架,检查OptiX 2500+

子架内部2M电缆发现,架内2M电缆通过导电海绵时并没有

剥除线皮,屏蔽层未通过导电海绵接地,而屏蔽层接地可以起

到防电磁干扰的目的。原来的数据业务均通过DDF架转接并

接地所以业务正常,新的基站业务没有通过DDF架所以受到

了干扰。重新对内部2M电缆进行剥皮,屏蔽网通过导电海绵

接地操作后,业务恢复正常。

光网络

4 时钟问题

4.1 SYNBAD告警处理案例一例

【现象描述】

OptiX 155/622和OptiX 155/622H组成无保护链。OptiX 155/622H设备跟踪OptiX 155/622设备的内部自由振荡时钟源,开局完毕将SYNBAD告警设置为自动上报,一日突然发现OptiX 155/622H设备时钟板上报SYNBAD告警,同时业务有大量的AU指针调整。

【原因分析】

依据故障现象判断可能是上游网元线路板送出时钟信号不好,导致下游网元不能跟踪锁定时钟,上报SYNBAD告警。

【处理过程】

(1) 采用更换时钟跟踪方向法,将OptiX 155/622H设备设置为时

钟自由振荡,OptiX 155/622设备跟踪OptiX 155/622H时钟

源,OptiX 155/622H设备的SYNBAD告警消失,但指针调整

依然存在;

(2) 怀疑是OptiX 155/622设备的SS15SL1线路板发送时钟和接

收时钟不好,更换此单板后,告警消失;

(3) 重新恢复时钟跟踪方向,一切正常,问题解决。

【建议与总结】

SYN-BAD告警,多数情况是本网元或被跟踪网元的时钟板性能出了问题;有时候也可能是线路板出现问题导致了SYN-BAD告警。

光网络

4.2 外部时钟源丢失后引起全网网元自由振荡

【故障现象】

5个OptiX 2500+网元组成的双向复用段环,1站有两路外接BITS接入,分别设置时钟ID为1和2,其他站点跟踪1站时钟,全网实现时钟保护。当外接两路BITS丢失时,全网网元时钟都自由振荡,引起指针调整,中心站出现EXTSYNLOS告警,即外部时钟源丢失告警。

【原因分析】

设置了全环时钟保护,时钟主站1站只有两个外接时钟设了时钟ID,内部自由振荡时钟没有设置时钟ID,在外接高级时钟源全部丢失后,由于外接时钟站1站的内部时钟源没有设置ID,造成全网时钟等级一致,都是内部时钟。所以各个站点都跟踪自己的内部时钟,造成指针调整。

【处理过程】

(1) 立即恢复两路外时钟。

(2) 在1站将其内部时钟源设置时钟ID为3

(3) 这时再断掉两路外时钟,1站时钟自由振荡,其他网元跟踪1

站,没有出现各自跟踪自己内部时钟的情况

光网络

【建议总结】

OptiX 2500+设备采用了扩展SSM协议用于时钟保护。标准SSM协议可以有效避免两个相邻网元之间的时钟互相锁定,但无法检测到多网元间的定时环路,在复杂组网的情况下,无法防止全网性的定时环路形成。扩展SSM协议通过利用S1字节的高四位比特,对时钟信号进行标记(即时钟ID),是对标准SSM协议的完善,可以避免时钟环路的形成,提高网络时钟质量。

在实现时钟保护时,一定要把外时钟接入站点的外部、内部时钟都设置时钟ID。

光网络

5 主机和公务问题

5.1 带扩展子架的光口设为通公务导致会议电话不通

【故障现象】

10个OptiX 2500+设备组成一个两纤双向MSP环,每个站都带有一个OptiX 155/622扩展子架。

各站拨打其它站的公务电话正常,但拨会议电话999不通。

查各站无告警上报。

【处理过程】

(1) 各站间选址呼叫能通,说明各站间的E1、E2字节通信正常。

判断是会议电话配置错误。

(2) 进入T2000网管查询公务设置情况:

(a)在主拓扑图中选择[传送工作台/传送网络设备维护台],进入设备维护台。

(b)在左边的导航树中选择[接口配置/开销接口]。

(c)选择操作对象,单击

列表中。

(d)选择“常规”选项。

(e)单击<查询>,从网元查询所选站点公务常规设置。

检查各站的会议电话位数设置正常,都为3位。呼叫等待时间为5秒,怀疑是否因为呼叫等待时间太短,将各站统一改为9秒后,试打会议电话依然不通。

(3) 在T2000网管上检查公务设置的其它项目,发现所有主子架

网元上,将所有光口都做为公务的已选端口,设置了999会

,将各网元添加到“开销接口”

光网络

议电话。也就是说各站OptiX 2500+带扩展子架的逻辑系统也

通公务,而扩展子架没有配置公务板。怀疑是因设置了扩展子

架通公务而导致会议电话不通,在T2000网管上,将各OptiX 2500+带扩展子架的逻辑系统对应光板光口从已选端口(传送

公务电话信息的光口列表)中删除,这样这些光口就进入了备

选端口列表,取消通公务后,拨打999会议电话正常。

【建议总结】

在设置通公务时,不需要通公务的逻辑系统最好设置为“禁止通公务”,尤其是带扩展子架的逻辑系统。

本文来源:https://www.bwwdw.com/article/fzr4.html

Top