数通交换机产品应急处理指导书doc

更新时间:2024-05-25 03:34:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数通交换机产品应急处理指导书

文档密级

资料编码 使用对象 编写部门

工程师 中国区AMS数通 产品名称 产品版本 资料版本 交换机 V1.2 数通交换机产品应急处理指导书

拟 制: 审 核: 审 核: 批 准:

朱秉晖 闫永利 日 期: 日 期: 日 期: 日 期: 2013年9月25日 2013年10月24日

华 为 技 术 有 限 公 司

版权所有 侵权必究

数通交换机产品应急处理指导书

文档密级

修订记录

日期 2013.9.25 修订版本 V1.0 描述 拟定初稿 细化了环路故障场景的处理思路和步骤、修订了文档的格式 修订文档的格式,增加了“业务恢复确认”章节 作者 朱秉晖 王少飞 王少飞 2013-10-10 V1.1 2013-10-25 V1.2

数通交换机产品应急处理指导书

文档密级

目 录

1 紧急故障快速恢复总体步骤 ......................................................................................................... 6 2 故障定界 .......................................................................................................................................... 7

2.1 确认业务类型 ................................................................................................................................................. 7 2.2 确认故障信息 ................................................................................................................................................. 7 2.2.1 确认故障信息 ........................................................................................................................................ 7 2.2.2 确认故障路径 ........................................................................................................................................ 7 2.2.3 确认故障网元 ...................................................................................................................................... 10

3 查看高危告警和明显异常 ........................................................................................................... 11

3.1 告警类 ........................................................................................................................................................... 11 3.2 接口信息异常类 ........................................................................................................................................... 12 3.3 环路类 ........................................................................................................................................................... 13 3.4 协议类 ........................................................................................................................................................... 14 3.5 其他异常类 ................................................................................................................................................... 20

4 查看是否进行高危操作 ............................................................................................................... 21 5 交换机业务抢通X板斧 ............................................................................................................... 22

5.1 向备份链路/备份平面、备份网元切换 ...................................................................................................... 22 5.1.1 向备份链路/备份平面进行业务切换 ................................................................................................. 22 5.1.2 业务侧网元进行切换 .......................................................................................................................... 23 5.2 有针对性地快速复位 ................................................................................................................................... 23 5.2.1 故障范围限定在交换机的单接口 ...................................................................................................... 23 5.2.2 故障范围限定在交换机的某块单板 .................................................................................................. 23

数通交换机产品应急处理指导书

文档密级

5.2.3 故障范围限定在交换机的主控板 ...................................................................................................... 24 5.2.4 故障范围限定在某台交换机 .............................................................................................................. 25 5.2.5 故障范围限定在交换机出现环路问题 .............................................................................................. 25 5.2.6 故障范围限定在IGP路由协议出现问题 ......................................................................................... 26 5.2.7 故障范围限定在BGP路由协议出现问题 ........................................................................................ 27 5.2.8 故障范围限定在MPLS协议出现问题 ............................................................................................. 27

6 业务恢复确认................................................................................................................................ 28

数通交换机产品应急处理指导书

文档密级

关键词:

交换机紧急故障 快速恢复 抢通 主备倒换 复位

摘 要:

本文档主要是用于在设备日常运行过程中发生重大事故或紧急问题而没有定位的情况下,进行快速的业务恢复。文档从快速恢复总体步骤、故障定界、交换机设备高危告警、高危操作以及业务抢通和恢复确认六个方面给出了紧急故障快速恢复和确认的方法。

缩略语清单:

紧急重大问题:这里指的是,可能或已经导致客户或公司利益严重受损失的网上设备运行问题。 重大事故与紧急问题的区别:重大事故一定是紧急问题,紧急问题不一定构成重大事故,但是如果紧急问题处理不得当容易构成重大事故。 应用场景

本文档主要是用于在数通交换机设备日常运行过程中,发生重大事故或紧急问题在没有定位的情况下,进行快速的业务恢复。不适用于由于升级发生的紧急问题。 注意事项

紧急故障快速恢复的操作,必须征求本网络客户同意后才可以使用。 参考资料清单:

《交换机产品应急预案及重大故障处理指导书》

数通交换机产品应急处理指导书

文档密级

1 紧急故障快速恢复总体步骤

当紧急故障发生后,按照如下4个步骤进行业务恢复:承载网元(故障)定界阶段、业务抢通阶段、设备抢修消除风险、恢复倒回阶段。其中,应当在第二阶段(业务抢通阶段)实施后即可以使得紧急故障获得快速恢复。

数通交换机产品应急处理指导书

文档密级

2 2.1 确认业务类型 2.2 确认故障信息

2.2.1 确认故障信息

故障定界

通过确认端到端的业务故障类型,确认交换机端到端的业务类型,例如是否为二层转发、是否为三层转发、是否有VRRP、是否有MPLS等。

明确故障的详细组网,确认故障的vlan、端口、IP地址等基本信息,例如是哪个IP地址到哪个IP地址不通,或者哪个IP地址到哪个IP地址存在丢包。在确认IP地址时,要注意以下两点:

1. 注意确认清楚IP地址的对应关系(即清楚描述该IP属于什么设备,是loopback地

址还是接口地址),不要仅确认故障网元的IP地址,而且要确认IP地址的对应关系,因为交换机侧无法确认这些IP地址是否是对应的。 2. 注意业务网元的IP地址也分接口地址和逻辑地址,一定要给出确定故障的IP地址对

(源目的IP地址),可以参考业务网元的告警给出,一般业务网元的告警都会提供故障的IP地址。

2.2.2 确认故障路径

根据业务网元提供的故障IP地址对,在承载网沿路进行检查,确认交换机上故障路径,通过查询路由表、LSP、ARP、MAC等信息,确认出故障涉及的网元,单板,接口等信息。

1. 二层转发场景(红框所示):

数通交换机产品应急处理指导书

文档密级

RNC S9300

S9300

S9300 S9300

(1)获取出问题网元的MAC地址,例如x-x-x地址到y-y-y地址存在问题; (2)登录设备根据MAC地址查看报文的入接口,例如:

display mac-address x-x-x display mac-address y-y-y

根据MAC表项的接口信息,可以确定报文的入接口,从而确定业务的转发路径。 2. 三层转发场景:

数通交换机产品应急处理指导书

文档密级

RNC S9300

S9300

S9300 VRRP Master S9300

(1)确认VRRP的主用设备

[Quidway]display vrrp interface vlanif 100 Vlanif100 | Virtual Router 1 State : Master

观察如果VRRP的状态是Master,则证明该设备为VRRP的主用端;

(2)查看本地业务网元的ARP,从而确认本地业务网元的主用端是连接在VRRP的主用端还是备用端,如下:

display arp interface vlanif 100

例:

[Quidway]display arp interface Vlanif 100

IP ADDRESS MAC ADDRESS EXPIRE(M) TYPE INTERFACE VPN-INSTANCE VLAN

------------------------------------------------------------------------------ 1.1.1.1 781d-ba2e-29f7 I - Vlanif100

观察ARP学习的具体物理接口,如果是两台网关设备的互连接口,说明本地业务网元的主用端连接在VRRP的备用端,否则,说明挂在VRRP的主用端;

(4)如果本地业务网元连接在VRRP的备用端,还需要在VRRP的备用端查MAC表,确认本地业务网元具体连接在备用端的那个接口上,如下:

display mac-address x-x-x

经过上述步骤,就得到了整个业务转发的精确路径。

数通交换机产品应急处理指导书

文档密级

2.2.3 确认故障网元

二、三层转发场景(红框所示):

RNC S9300

S9300

S9300 VRRP Master S9300

从业务网元的网关设备PING下挂业务网元,建议选择不同的包长(参数-s)、不同填充值(参数-p)、不同tos值进行PING测试(参数-tos),例如:

ping -c 100 -m 100 -vpn-instance xxx y.y.y.y

ping -c 100 -m 100 -s 500 -vpn-instance xxx y.y.y.y ping -c 100 -m 100 -s 2000 -vpn-instance xxx y.y.y.y ping -c 100 -m 100 -p 00 -vpn-instance xxx y.y.y.y ping -c 100 -m 100 -p ff -vpn-instance xxx y.y.y.y ping -c 100 -m 100 -p aa -vpn-instance xxx y.y.y.y ping -c 100 -m 100 -tos 224 -vpn-instance xxx y.y.y.y

注:如果普通PING正常,但是带填充值PING丢包,则有可能是某设备改包导致;如果普通PING丢包,但是带tos值进行PING正常,则很有可能是某处拥塞导致;如果普通PING正常,但是PING大包时不通,则很有可能是某处MTU设置存在问题。 如果上述测试出现了丢包,而此时已经确认转发路径,则可以快速在路径所经接口上配置复杂流分类,匹配ICMP报文,通过流量统计结果判断报文丢弃在哪台设备上,以确定承载网的故障网元,配置举例如下:

步骤1 配置ACL 规则

# 在S9300 上创建编码为4000 的二层ACL,匹配源MAC 为0-0-3 的报文。

[S9300] acl 4000

[S9300-acl-ethernetframe-4000] rule permit source-mac 0000-0000-0003 ffff-ffffffff [S9300-acl-ethernetframe-4000] quit

数通交换机产品应急处理指导书

文档密级

步骤2 配置流分类

在S9300 上创建流分类c1,匹配规则为ACL 4000。

system-view

[S9300] traffic classifier c1

[S9300-classifier-c1] if-match acl 4000 [S9300-classifier-c1] quit

步骤3 配置流行为

# 在S9300 上创建流行为b1,并配置流量统计动作。

[S9300] traffic behavior b1

[S9300-behavior-b1] statistic enable [S9300-behavior-b1] quit

步骤4 配置流策略并应用到接口上

# 在S9300 上创建流策略p1,将流分类和对应的流行为进行绑定。

[S9300] traffic policy p1

[S9300-trafficpolicy-p1] classifier c1 behavior b1 [S9300-trafficpolicy-p1] quit

# 将流策略p1 应用到接口GE2/0/1。

[S9300] interface gigabitethernet 2/0/1

[S9300-GigabitEthernet2/0/1] traffic-policy p1 inbound [S9300-GigabitEthernet2/0/1] quit

使用如下命令观察流量统计的结果:

display traffic policy statistics interface GigabitEthernet 1/0/1 inbound

确认故障网元后,快速切换,原则是切换后,业务流量绕开故障接口、故障单板、故障设备。

3 3.1 告警类

1. 查询告警

查看高危告警和明显异常

数通交换机产品应急处理指导书

文档密级

步骤 1 流程步骤 登录设备后执行查询告警命令 执行时间 10s 备注 系统视图: display alarm all 3.2 接口信息异常类

1. 接口报错误报文持续增长 步骤 1 流程步骤 查看接口信息,找到错包持续增长的主接口 执行时间 1min 备注 用户视图 display interface brief 查看inErrors和outErrors(错误报文数)有增长的主接口。 2 查看接口上错包增长的类型 1min 用户视图 display interface GigabitEthernet 1/0/0 1. 如果接口上input方向存在pause帧,说明对接设备性能不足或对接设备异常。 2. 如果接口上output方向存在pause帧,说明本设备性能不足或设备异常。 3. 如果接口上存在CRC或Symbol错误,需要按照3、4、5步骤排查。 4. 如果接口上不存在CRC或Symbol错误,存在input overflow、output overrun或output system错误,证明单板或子卡存在异常,需要复位单板。 数通交换机产品应急处理指导书

文档密级

步骤 3 流程步骤 查看设备光模块的接收光功率是否在正常范围内 执行时间 5min 备注 用户视图 display interface GigabitEthernet 1/0/0 查看接收光功率值。 display transceiver interface GigabitEthernet 1/0/0 verbose 查看光模块接收光功率范围。 光模块接收光功率不正常一般有如下原因: 1. 本设备或直连设备光纤未插好(需要将光纤插好) 2. 光纤损坏(需要更换光纤) 3. 本设备或直连设备光模块失效(需要更换光模块) 4 与客户确认是否存在备用路径,在存在备用路径的情况下shutdown接口,将业务切换的备用路径 在中间有传输设备的情况下,确认传输设备是否存在异常

1min 接口视图 [Quidway -GigabitEthernet6/0/0]shutdown 5 1min 在网管上查看传输设备是否存在告警 3.3 环路类

1. 确认存在环路的查询命令 步骤 1 流程步骤 判断端口的广播和组播流量是否存在异常

2. 存在MAC-FLAPPING告警的处理 在trapbuffer中可以看到如下示例告警:

执行时间 10s 备注 用户视图: display interface 重点关注广播和组播流量 数通交换机产品应急处理指导书

文档密级

L2IFPPI/4/MAC_FLAPPING_ALARM:OID 1.3.6.1.4.1.2011.5.25.42.2.1.7.12The mac-address has flap value. (L2IfPort=0,entPhysicalIndex=0, BaseTrapSeverity=4, BaseTrapProbableCause=549, BaseTrapEventType=1,

MacAdd=0025-9e6e-1c55,vlanid=1001, FormerIfDescName=GigabitEthernet2/1/23,CurrentIfDescName=GigabitEthernet2/1/22,DeviceName=9303-222.157) 步骤 1 流程步骤 查看告警类型 执行时间 10s 备注 查看告警类型“MAC_FLAPPING”,vlanid内的MacAdd在FormerIfDescName和CurrentIfDescName两个端口之间发生漂移。 3、

3.4 协议类

1. 协议状态异常的查询命令 步骤 1 流程步骤 登录设备后执行 执行时间 10s 备注 用户视图: display trapbuffer

2. 存在“OSPF邻居Down” 告警的处理 在trapbuffer中可以看到如下示例告警:

OSPF/2/NBRCHG:OSPF TrapID1.3.6.1.2.1.14.16.2.2: The status of the non-virtual neighbor changes. (NbrIpAddress=11.11.11.1, NbrAddressLessIndex=0, InstanceId=1, AreaId=0.0.0.0, IfnetIndex=4, LocalIfIpAddress=11.11.11.2, ProcessId=1, RouterId=2.2.2.2,

NbrRtrId=1.1.1.1, NbrState=1, IfName=Ethernet0/0/0, InstanceName=, NbrChgReason=1) 步骤 1 流程步骤 判断是否与建立邻居的接口相关 执行时间 1min 备注 1. 检查接口是否Down,如果接口正常,请在Server上确认邻居两端的接口上配置的hello及dead interval值是否一致;接口两端的认证类型及密码是否一致;接口两端的网络类型是否一致; 如果确认不一致,则重新修改正确; 2. 查看邻居是否恢复,如果没有恢复继续下面步骤。 数通交换机产品应急处理指导书

文档密级

步骤 2 流程步骤 网络类型NBMA情况下,是否配置正确 执行时间 1min 备注 NBMA类型的邻居,需要指定邻居,查看是否已指定了邻居; 如果指定了邻居,但在诸如Frame relay的map语句中忘记加broadcast关键字了,导致组播报文不能到达对方; 3 4 5 认证是否通过 区域类型是否一致 1min 1min 区域及接口的认证类型及认证密钥是否正确; 在Stub或NSSA区域,有些交换机没有配置成Stub或NSSA; 查看邻居状态及LSA如果是不停的震荡,就有存在RouterID及IP地址冲突的可能,需要排查配置文件; 网络是否启动了OSPF;或是接口是否使能到相同的区域 链路的网络地址不一致,需要检查两边的mask。 是否存在RouterID1min 冲突及IP地址冲突 是否正常启动OSPF 1min 6

3. 存在“isisAdjacencyChange”ISIS邻居状态变化告警的处理 在trapbuffer中可以看到如下示例告警:

ISIS/2/ADJ_CHANGE:OID 1.3.6.1.3.37.2.0.17 The state of IS-IS adjacency changed. (sysInstance=1, sysInstanceofLevel=1, sysLeve l=2, sysInstanceofInterface=1, circuit=1, sysInstanceofAdjState=1, ifIndex=1, CircuitIfIndex=4, LspID=[22.22.22.22.22.22.00.00 (hex)], AdjState=3, IfName=Eth0/0/0) 步骤 1 2 流程步骤 检查告警类型 执行时间 1min 备注 查看告警类型“AdjState”,值为1、2、4的需要关注,值为3的不用关注。 执行命令行display isis interface <进程号> Mtu:Dn/Lnk:Dn/IP:Dn 检查ISIS接口状态 1min IP:Dn :请检测接口IP状态是否能Ping通。 Lnk:Dn :请检测接口链路状态。 Mtu:Dn :表示ISIS LSP Len大于接口MTU值,请修改配置,确保ISIS LSP Len小于等于接口MTU

4. 存在“TE Tunnel down” 告警的处理 在trapbuffer中可以看到如下示例告警:

数通交换机产品应急处理指导书

文档密级

LSPM/2/TRAP:OID [1.3.6.1.2.1.10.166.3.0.2] Tunnel Changes to

Down.(SessionTunnelId=[integer], LocalLspId=[integer], IngressLsrId=[integer], EgressLsrId=[integer], OutIfIndex=[integer], mplsTunnelAdminStatus=[integer], mplsTunnelOperStatus=[integer], mplsTunnelName=[octet], OutIfName=[octet]) 步骤 1 2 流程步骤 判断TE Tunnel是否重新UP 如果TE Tunnel已经UP,判断是否与TE Tunnel经过接口的状态相关 执行时间 1min 1min 备注 使用命令display interface Tunnel,检查TE Tunnel现在是否UP。 使用命令display mpls te tunnel path 查看Tunnel经过的路径,根据接口地址获取各个节点的具体接口; 逐个交换机排查接口是否出现down/up,接口出现down,会导致TE Tunnel down,现TE Tunnel已经UP,不需要恢复操作。 3 如果TE Tunnel没有重新UP,判断是否与TE Tunnel经过接口的状态相关 1min display mpls te explicit-path 命令行查看显式路径配置地址,根据地址确认TE Tunnel期望经过的交换机及接口; 检查接口状态是否为down,如果为down,恢复接口状态。 4 如果接口状态正常,判断路由状态是否相关 1min display mpls te cspf destination explicit-path 命令行检查目的地址是否可达。 如果不可达,检查路由是否可达; 如果路由不可达,需要排查路由问题。

5. 存在“The session went Down” (LDP邻居Down)告警的处理 在trapbuffer中可以看到如下示例告警:

OID [1.3.6.1.2.1.10.166.4.0.4] The session went Down. (LdpId=[IPADDR],

LdpEntityIndex=[ULONG], PeerLdpId=[IPADDR], LdpId=[IPADDR], LdpEntityIndex=[ULONG], PeerLdpId=[IPADDR], PeerLdpId=[IPADDR], IfIndex=[ULONG], SessionState=[ULONG],

DiscontinuityTime=[ULONG], UnknownMesTypeErrors=[ULONG], UnknownTlvErrors=[ULONG], DownReason=[ULONG], IfName=[STRING]) 步骤 1 2 3

流程步骤 判断是否与建立邻居的接口相关 查看是否和路由相关 查看是否转发不通 执行时间 1min 1min 1min 备注 检查接口是否Down,接口正常情况下,查看接口是否配置了mpls ldp。 查看对端路由是否存在。 通过ping检验到达对端的转发是否正常。 数通交换机产品应急处理指导书

文档密级

6. 存在“MSDP peer exit the established state”(MSDP邻居丢失)告警的处理 在trapbuffer中可以看到如下示例告警:

MSDP/2/BACKWARD:OID [1.3.6.1.3.92.1.1.0.2] MSDP peer exit the established state. (RemoteAddr=[ipaddr], PeerState=[integer]).

数通交换机产品应急处理指导书

文档密级

步骤 流程步骤 执行时间 备注 数通交换机产品应急处理指导书

文档密级

步骤 1 流程步骤 查看邻居状态 执行时间 1min 备注 使用命令Display msdp peer-status x.x.x.x display msdp peer-status 1.1.1.2 MSDP Peer Information of VPN-Instance: public net MSDP Peer 1.1.1.2, AS ? Description: Information about connection status: State: Up Up/down time: 00:12:47 Resets: 1 Connection interface: Ethernet0/0/1 (1.1.1.1) Number of sent/received messages: 25/23 Number of discarded output messages: 0 Elapsed time since last connection or counters clear: 00:31:49 Information about (Source, Group)-based SA filtering policy: Import policy: none Export policy: none Information about SA-Requests: Policy to accept SA-Request messages: none Sending SA-Requests status: disable Minimum TTL to forward SA with encapsulated data: 0 SAs learned from this peer: 0, SA-cache maximum for the peer: none Input queue size: 0, Output queue size: 0 Counters for MSDP message: Count of RPF check failure: 0 Incoming/outgoing SA messages: 0/0 Incoming/outgoing SA requests: 0/0 Incoming/outgoing SA responses: 0/0 Incoming/outgoing data packets: 0/0 Peer authentication: unconfigured Peer authentication type: none 数通交换机产品应急处理指导书

文档密级

步骤 2 3 流程步骤 查看是否有到邻居的路由 查看MSDP邻居地址配置是否正确,配置中是否有MD5、keychain认证,并确认两端配置是否一致 执行时间 1min 1min 备注 使用命令Display ip route x.x.x.x MSDP视图下使用命令display this查看配置

3.5 其他异常类

1. 其他异常查询命令 步骤 1 流程步骤 登录设备后执行 执行时间 10s 备注 用户视图: display version 该命令回显显示所有的单板信息 2. 交换机接口拥塞查询方法 步骤 1 流程步骤 登录设备后查看接口是否发生拥塞 执行时间 1 min 备注 用户视图: display interface GigabitEthernet 1/0/0 回显结果会显示该接口的报文通过情况,如果发现有Discard的记数在不断增长,则说明该接口有拥塞

数通交换机产品应急处理指导书

文档密级

4 交换机操作命令查询方法

步骤 1 流程步骤 登录设备后显示用户日志 执行时间 1 min 查看是否进行高危操作

查看在故障发生前,是否做过高危操作。可以通过查看日志,找到可能影响业务的高危操作,然后进行操作回退,恢复业务。

备注 用户视图: more logfilename 系统最新的日志记录在log.log文件下,为了查看最新的信息,可以首先在用户视图保存使用命令save logfile保存日志文件。然后使用more命令查看日志。 查看日志后搜索关键字CMDRECORD,可以看到用户执行的配置命令,搜索关键字DISPLAY_CMDRECORD,可以看到用户执行的查看命令。 2 登录设备后输入命令对比当前配置和存盘配置 1 min 用户视图: compare configuration 注意此方法只能对别出第一条不同的配置,所以需要在修改为相同后多次执行,才能对比出所有的配置差异。

数通交换机产品应急处理指导书

文档密级

5 交换机业务抢通X板斧

通过故障定界,可以将故障定位于交换机的单接口、单板、主控板、交换网板、交换机整机上。对于协议类的故障,则可以定位于IGP协议故障、BGP协议故障、MPLS故障等。下面将针对故障范围来逐条给出快速抢通业务X板斧。

5.1 向备份链路/备份平面、备份网元切换

5.1.1 向备份链路/备份平面进行业务切换

实施方法一:shutdown主链路接口,使得业务切换到备份链路/备份平面 描述 脚本

实施方法二:将主链路接口的IGP路由cost值调大,使得业务切换到备份链路/备份平面 描述 脚本

实施方法三:多条等值静态路由的场景,将主平面的路由优先级数值调大,使得业务切换到备份链路/备份平面 描述 脚本 调大静态路由优先级 系统视图下执行ip route-static 目的网段 掩码 下一跳 preference 255命令 调大接口路由cost值 接口视图下执行ospf cost 数值 命令,或者isis cost 数值 命令 Shutdown接口 接口视图下执行shutdown命令

数通交换机产品应急处理指导书

文档密级

5.1.2 业务侧网元进行切换

如果交换机向备份链路、备份平面进行切换后,业务依然没有恢复,需要业务侧网元进行倒换,业务网元倒换方法具体见由业务侧编写的具体业务侧网元应急预案描述。 业务侧网元包含但不限于:核心网网元,如SGSN、GGSN、MGW等;无线侧网元:如基站控制器等。

5.2 有针对性地快速复位

5.2.1 故障范围限定在交换机的单接口

关键操作 预期效果 可能影响 接口UP/DOWN可能导致协议UP/DOWN,路由等信息重新收敛,或者某些端到端的连接中断 备注 时长大约为1分钟 Shutdown/undo 该接口内的业shutdown接口务恢复正常 或者拔插光纤/网线/光模块等 实施方法一:shutdown/undo shutdown接口 描述 脚本

实施方法二:拔插光纤/网线/光模块

Shutdown/undo shutdown接口 接口视图下执行shutdown/undo shutdown命令 5.2.2 故障范围限定在交换机的某块单板

关键操作 复位单板,如果不能恢复,上下电单板,仍然不能恢复,更换单板

实施方法一:复位单板

预期效果 业务恢复 可能影响 单板复位或上下电可能出现单板无法注册的情况,如果telnet路径通过此单板可能导致无法登录 备注 5-20分钟 数通交换机产品应急处理指导书

文档密级

描述 脚本

reset slot 用户视图下执行reset slot 实施方法二:单板下电 描述 power off slot power on slot 脚本 用户视图下执行power off slot power on slot

5.2.3 故障范围限定在交换机的主控板

关键操作 主备倒换,或者把出现问题的主控板设置为备用主控板的情况下,重启设备

实施方法一:主备倒换 描述 脚本 slave switchover 系统视图下执行slave switchover enable 系统视图下执行slave switchover

实施方法二:整机重启 描述 脚本

reboot 用户试图下执行reboot 预期效果 业务恢复 可能影响 业务中断30秒,或是整机无法启动,业务全中断,如果可以正常启动会影响整机业务5-10分钟 备注 5-10分钟 数通交换机产品应急处理指导书

文档密级

5.2.4 故障范围限定在某台交换机

关键操作 有备份或冗余路径的情况,切换路径不经过此交换机,调整此设备的接口的COST值,使IGP不选择此交换机; 无冗余路径和备份的情况,整机重启

实施方法一:通过修改COST值的方式切换路径 描述 脚本

实施方法二:整机重启,可以恢复软件问题,或是硬件软失效问题 描述 脚本

倒回方法一:通过修改COST值的方式切换路径 倒回方法

进入接口试图,修改回原来的COST值 整机重启 用户试图下执行reboot 明确链路COST值配置和配置的协议 在接口试图下配置ospf cost xxx或者isis cost xxx 预期效果 业务恢复 可能影响 业务收敛10s,影响业务10s转发。整机重启,影响本机所有业务5-10分钟。 备注 5-10分钟 5.2.5 故障范围限定在交换机出现环路问题

关键操作 物理进行环路破除 预期效果 该交换机业务正常 可能影响 手动破环的端口下挂业务会受到影响 备注 10s

实施方法一:将成环的网络上,其中一个端口退出成环VLAN

数通交换机产品应急处理指导书

文档密级

描述 脚本 端口退出vlan 在接口视图下 Access接口:undo default vlan Trunk接口:undo port trunk allow-pass vlan id Hybrid接口:undo port hybrid vlan id

实施方法二:Shutdown成环的物理端口 描述 脚本

实施方法三:通过拔出成环端口的光纤 描述 脚本 拔出光纤 手工操作,拔出端口的光纤 shutdown端口 在接口视图下shutdown 环路类故障的紧急恢复,可以参考附件进行处理,快速恢复。

以太网交换机二层环路故障排查指导V1.0

5.2.6 故障范围限定在IGP路由协议出现问题

关键操作 预期效果 可能影响 邻居重新建立,所有业务短暂中断,等路由重新收敛完毕后业务恢复 备注 2分钟 reset ospf 进该交换机业务正常 程或reset isis进程,重新建立邻居并重新学习路由

实施方法一:reset ospf进程,重新建立OSPF邻居

数通交换机产品应急处理指导书

文档密级

描述 脚本

reset ospf 进程 在用户视图下reset ospf 实施方法二:reset isis进程,重新建立isis邻居 描述 脚本

reset isis 进程 在用户视图下reset isis all 5.2.7 故障范围限定在BGP路由协议出现问题

关键操作 执行命令reset bgp地址族 邻居地址,复位BGP的连接

实施方法:复位BGP邻居 描述 脚本

reset bgp 在用户视图下reset bgp 地址族 x.x.x.x 预期效果 恢复BGP路由出现问题的邻居,路由重新学习下发 可能影响 路由量比较大的情况下恢复时间要稍长 备注 优先考虑将业务切走再进行故障恢复 5.2.8 故障范围限定在MPLS协议出现问题

关键操作 执行命令reset mpls ldp使邻居重新建立

实施方法:复位LDP协议

预期效果 可能影响 备注 业务恢复 业务会出现中断,随后恢复 数通交换机产品应急处理指导书

文档密级

描述 脚本 reset mpls ldp 在用户视图下reset mpls ldp 6 1、 交换机和网络层面确认,主要是通过ping来测试:

在交换机上查看相关MAC、arp、路由、mpls lsp等表项是否正常:

Display mac-address xx

业务恢复确认

实施抢通方案之后,需要从交换机网络层面和业务层面来分别确认业务恢复的情况。

在业务网元的交换机上:ping (–vpn-instance vpn名称) 本端业务网元IP地址 ping (–vpn-instance vpn名称) 远端业务网元IP地址

display ip routing-table vpn-instance vpn名称 本端业务网元IP地址

display ip routing-table vpn-instance vpn名称 远端业务网元IP地址

display vrrp interface vlanif vlan编号 display arp interface vlanif vlan编号

display mpls lsp include z.z.z.z 32 在相关交换机上查看IGP、BGP协议状态: display ospf peer display isis peer display bgp peer display bgp vpnv4 all peer

数通交换机产品应急处理指导书

文档密级

在交换机上查看单板状态、告警和trap、日志: display device display alarm all display trapbuffer display logbuffer 在业务网元上ping远端server地址。

业务层面的确认,需要业务侧如核心网侧来确认业务是否恢复。相关手段有电话拨测、手机上网、查看业务网元的相关指标等。

本文来源:https://www.bwwdw.com/article/6hb7.html

Top