APG40紧急恢复

更新时间:2023-09-27 08:55:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

APG紧急恢复

1、概述

当遇到APG紧急故障时,也许因为未能找到适合的文档或者OPI,或者因为OPI过于繁琐而影响了处理故障的效率。以下文档主要根据一些常见的OPI资料和一些处理经验总结而成,用以处理一些简单的APG紧急故障。根据当前GMCC的网络结构,本文主要覆盖了基于APG40C/2硬件的Windows NT系统的R10 APG 2、发生在AP1上的紧急故障

以下故障基于Windows NT系统能够正常被引导启动的故障。 2.1、AP1 Undefined

AP Undefined 故障表现为:

这表明Cluster Server未被或着正在被启动。

首先我们需知道系统重启对于修故AP 系统上的错误是很有帮助的,它能修复系统盘Windows NT上的许多问题(数据盘上的问题除外,处理数据盘问题时需特别小心),所以必要时要多重启 :P

查找以确定Cluster Server是否已经启动,使用指令: net start |find \

C:\\>net start |find \ Cluster Server

如果找到Cluster Server,表明Cluster Server正在或已被启动。

如果Cluster Server未被启动,可手工启动Cluster Server Manual Starting of Cluster -------------------------- net start clussvc

net start ACS_FCH_Server

等待一到两分钟,Cluster Server应该能被启动。但启动Cluster Server时,您有可能经常得到的FaultCode 有: 1722 The RPC server is unavailable 1717 The interface is unknown

70 The remote server has been paused or is in the process of being started

1069 The service did not start due to a logon failure. 2813717

FC 70和1717表明Cluster Server 正在启动,但未完全起来,这是可能Cluster Server启动前的中间状态,请耐心等待几分钟

如果长时间得到类似FC70 的错误,可尝试双边AP node同时重启动的方法,正常的话,AP nodeB会先完成重启,并成为Active node

FC1069表明AP应用所使用的系统帐号失效了,对于这种情况: 一般可使用指令: Setupservices Net start Clussvc

如果依旧有Fault Code 1069 在NodeA使用,

nbtstat -RR ## on PDC to reset WINS cache 在NodeB使用,

netdom BDC /RESET ## on BDC only 然后在要起Cluster Server的node上执行 Setupservices –r Net start Clussvc

Cluster Server 有可能因为系统Quorum Log的损坏而无法启动,即使使用前面提到的方法,此时AP两边node都是undefined的,在这种情况下,我们能够采用以下方法处理问题:

首先在MKTR的Eventlog中,你能找到以下Event:

Event 1019 :the quorum logfile for the cluster was found to be corrupt

Event 1069 :resource \

这时你可确认Cluster Server问题是由Quorum Log引起了。 方案一: 1. 首先尝试在任意一个AP Node上启动Cluster Server,Telnet登陆APG的其中一个node

Net start clussvc –noquorumlogging 或者

Net start clussvc -fixquorum

如果cluster server能够启动,则继续,如果不能,采用方案二。 2. 执行命令行:

ren j:\\mscs\\Quolog.log Quolog.old del j:\\mscs\\*.tmp Net stop clussvc

Net start clussvc ------------------ 不加参量启动Cluster Server 3. 登陆入另外一个APG node Net start clussvc

4.收集相关数据,mktr.zip Quolog.old,打TR给APG support 方案二、

此方案需要使用PCanywhere或者Onsite 1. Telnet 到APG node B,shut down APG node B Prcboot –s

2. 进入到Node A 的Windows NT操作界面下

点击控制面板:Start->Setting->Control Panel 双击Devices

选择设备Cluster Disk并点击?Startup…?按钮 修改Startup Type为 Disabled 确认后关闭控制面板 2. 重启AP node A : prcboot 3. 登陆入AP nodeA后,执行命令行 ren j:\\mscs\\Quolog.log Quolog.old del j:\\mscs\\*.tmp

4.修改成功后,点击控制面板:Start->Setting->Control Panel

双击Devices

选择设备Cluster Disk并点击?Startup…?按钮 修改Startup Type为 System 确认后关闭控制面板

5. 重启动AP node A. prcboot

6. 登陆入APG node A后,启动Cluster Server Net start clussvc

7. Node A Cluster Sever 成功启动后,启动Node B Fcc_reset other

8. 登陆AP node B,确认Cluster Server已启动。 net start |find \检查所有Resource已online

Cluster res |findstr –ive online

9. 收集相关数据,mktr.zip Quolog.old,打TR给APG support

2.2、AP循环重启

AP的循环重启通常都是由于Cluster资源的问题引起的,当然不排除有操作系统本身的问题或者是AP硬件问题引起的重启。通常Cluster Server在自动重

启三次后,系统就会把其启动方式由Automatic变成System,并且在再次重启不成功后,AP将不再重启,停留在undefined状态下。

然而在这段时间我们需要抑制其重启,可在Cluster Server起来后,不断地尝试把ACS_PRC_ClusterControl资源offline,直至成功。 Cluster res ACS_PRC_ClusterControl_0 /off /wait Cluster res ACS_PRC_ClusterControl_1 /off /wait 成功后,

ACS_PRC_ClusterControl_0, ACS_PRC_ClusterControl_1, ACS_PRC_EventAnalyser_0, ACS_PRC_EventAnalyser_1 资源将offline

此时Cluster Server将趋于稳定,再根据实际情况对具体问题进行检查和分析。

2.3、MML或者网管无法联机CP,但Cluster Server已启动 1.Telnet到APG后,mml无法登陆CP 可尝试重启MML Server,使用指令: Cluster res |findstr –ive online Cluster res MCS_ADH_ADM /Fail 或者

Cluster res MCS_ADH_ADM /off /wait Cluster res MCS_ADH_ADM /on /wait

检查Cluster res,把未启动的Resource也带起来。 Cluster res |findstr –ive online

如果不能解决,需检查MML server软件和已定义数据 AP:

Swrprint Cuals CP:

IOUAP:USER=ALL; IOUGP;

2. 网管CHA无法联机

可尝试重启MML Telnet Server,使用指令: Cluster res MCS_MTS_ADM /Fail 或者

Cluster res MCS_MTS_ADM /off /wait Cluster res MCS_MTS_ADM /on /wait

简单处理后,无法解决,请找APG support

2.4、APG系统盘Restore

对于一些未知的软件故障,在一般处理无法解决的情况下而且AP的系统备份也足够新的话,系统盘Restore是不错的选择。以下只针对AP需要做双边node Restore的情况,不针对APG单边 (单边一般不算Emergency :P) 1. 在双边node,准备MKTR数据以备系统重装后,分析旧数据 Mktr YYMMDD-HHMM –c

2. 用Burverify –d 检查两个node的D盘备份是否完备,是否足够新。确认可用的话,跳到第5步。不可用的话,继续第3步。

3.如果此时能够访问数据盘,也就是说Cluster Server数据盘对应的资源是online的。 Node A:

Burbackup –imgsrc \\\\\\images\\nodea\\.zip -dest D:\\ Node B:

Burbackup imgsrc \\\\\\images\\nodeb\\.zip -dest D:\\

4.如果此时Cluster Server无法Start,或者K Drive数据盘资源无法online Telnet 到APG node B,shut down APG node B Prcboot –s

使用PcAnywhere进入到Node A 的Windows NT操作界面下 点击控制面板:Start->Setting->Control Panel 双击Devices

选择设备Cluster Disk并点击?Startup…?按钮 修改Startup Type为 Disabled 确认后关闭控制面板

重启AP node A : prcboot

登陆入AP nodeA后,执行命令行

Copy k:\\images\\nodea\\.zip F:\\ Copy k:\\images\\nodeb\\.zip F:\\

Partition 1 Drive Letter:R Size: 3999.98 MB Logical number:1 Partition 2 Drive Letter:S Size: 2000.0 MB Logical number:2 Partition 3 Drive Letter:V Size: 8000.0 MB Logical number:3 Partition 4 Drive Letter:G Size: 2400.0 MB Logical number:4

Disk 3 Signature: F2026D12

Partition 1 Drive Letter:Q Size: 1999.98 MB Logical number:0 Partition 2 Drive Letter:Y Size:14000.0 MB Logical number:0

2.6.无法Telnet 到APG

因为?Net Logon?未启动而无法使用Telnet登陆APG,现象如下: C:\\>telnet xxx.xxx.xxx.xxx

Telnet Client for Windows/NT (Release 2000) Build Date Aug 14 2003 (c) Copyright 1994-2000 Pragma Systems, Inc. http://www.pragmasys.com

Gateway mode!

Trying... Connected to xxxxxxx. 7h

Pragma Systems Inc.

Welcome to Pragma TelnetServer 2000 for Windows NT (C) Copyright 1994-2000 Pragma Systems, Inc.

login name: administrator password:

Windows NT Domain:

User Account verification is being performed. Please Wait.

An attempt was made to logon, but the network logon service was not started.

使用本地连接LCT或者PCanywhere,进入到: Start->Run cmd.exe

net start ?Net Logon?

Telnet 到 APG40 节点 connection refused 使用本地连接LCT或者PCanywhere,进入到:

Start-->Control Panel-->Services 点击选择Service InetD 点击Stop 再点击Start

3、发生在AP2上的紧急故障 现行使用的计费倒换文档:

其中提到的RPC补丁应采用NWARP2509,N01RP-2375和NNAVM-0148

3.1、AP2上FTP Server down,导致计费文件无法传到计费中心

可首先尝试做AP的倒边,激活备用边AP,使用备用边的FTP Server。 要修复当前FTP Server,可采用以下方法: 尝试启动FTP Server: net start msftpsvc 如果出现输出结果:

... The process could not be started for an unknown reason 则执行:

cd /d c:\\scriptit\\iis40\\op4 mdutil ENUM_ALL

如果结果输出不类似于以下输出,则metabase.bin文件可能已损坏了。 MaxBandwidth : [IS] (DWORD) 0xffffffff={-1}

1001 : [IS] (DWORD) 0xffffffff={-1} KeyType : [S] (STRING) \[/IISADMIN]

[/IISADMIN/EXTENSIONS]

[/IISADMIN/EXTENSIONS/DCOMCLSIDS]

1028 : [S] (MULTISZ) \11D0-A6A0-00A0C922E752}\[/W3SVC] …. … …

从D盘备份或者K盘备份提取好的metabase.bin文件

Copy D:\\WINNT\\SYSTEM32\\INETSRV\\metabase.bin c:\\temp 或者

pkzip25 -extract -include=winnt\\system32\\inetsrv\\metabase.bin \\\\\\images\\nodeA(B)\\.zip C:\\temp

net stop ACS_PRC_LBB net stop iisadmin /Y

cd c:\\WINNT\\SYSTEM32\\INETSRV ren metabase.bin metabase.bak

copy C:\\TEMP\\metabase.bin C:\\WINNT\\SYSTEM32\\INETSRV\\. net start ACS_PRC_LBB

检查ACS_PRC_LBB 、\和\是否已经启动 Net start Command: net start Output: .

ACS_PRC_LBB . .

FTP Publishing Service .

IIS Admin Service .

有些情况下,无法找到适用的metabase.bin文件,可以使用以下附件。但使用后相应的虚拟目录需要局上要求自行添加,使用命令vdcreate,可参照另外的Node的定义。

一般的,对于AP2只需加: vdls -n \

vdcreate -n \

3.2.计费文件无法生成

在R10的计费中,与计费有关的资源有: ACS_RTR_Service ACS_MSD_Service AES_AFP_Server AES_CDH_Server

出现问题时,首先应该检查这四个资源状态。 Cluster res ACS_RTR_Service Cluster res ACS_MSD_Service Cluster res AES_AFP_Server Cluster res AES_CDH_Server

检查目录Y:\\ACS\\Data\\RTR\\CHS_cp0ex\\dataFiles\\Reported中是否真无计费文件生成。

出现问题时,可对这些资源做重启,或者重启动AP 具体定位故障,一般地,可以参考以下方法: 检查计费输出:

SAAEP:SAE=500,Block=chop;

C:\\>msdls -m CHS -s cp0ex Common part:

firstMessNo: {0000000000, 0117922303}

lastMessNo: {0000000000, 0117926540}------AP计费接收正常时该数值应不断增长

lastAckMess: {0000000000, 0117926014}

in file: Q:\\ACS\\data\\ACA\\CHS\\cp0ex\\dataFiles\\117922303_210---当前正在使用的计费AP Buffer文件

firstFile: 00210, lastFile: 00210, noOfFiles: 00001 maxNoOfMess: 06000, maxMessSize: 04096, maxNoOfFiles: 00040

File part:

00000: fileName: Q:\\ACS\\data\\ACA\\CHS\\cp0ex\\dataFiles\\117922303_210 firstMessInFile: {0000000000, 0117922303}, noOfMess: 04238

Unlinked: No, MTAPFileNo: 210---红色部分表明AP Buffer文件正在使用,未关闭。有时计费拥塞在AP Buffer里时,File Part中可能将有多个文件。已关闭的Buffer 文件,在已正常输出到Y盘后,系统会自动删除它。 Q盘目录结构为:

Directory of Q:\\Acs\\Data\\ACA\\CHS\\cp0ex

07/20/04 09:58p

. 07/20/04 09:58p ..

08/17/05 08:50a 125,044 commitFile 11/09/05 01:28p

dataFiles

08/17/05 07:56a 128 statisticsFile 08/17/05 08:51a 1 versionFile 6 File(s) 125,173 bytes

计费的Messages Store可以是多个的,系统将根据cxc137440.par文件中的配臵,在Q盘生成对应的Messages Store。

与RTR有关的parameter files是CXC1371036.par 四个与计费有关的正确的Private Properties应为:

C:\\>cluster res ACs_msd_service /priv

Listing private properties for 'ACs_msd_service':

R Name Value

- -------------------------------- ------------------------------------ StopTime 10000 (0x2710) ServiceName ACS_MSD_service

StartupParameters -name CHS -site cp0ex rtr

本文来源:https://www.bwwdw.com/article/fm4d.html

Top