IBM(国际商业机器公司)或万国商业机器公司,简称IBM(International Business MachinesCorporation)。总公司在纽约州阿蒙克市,1911年创立于美
4006-054-001 立即咨询发布时间:2022-10-05 21:43 热度:
摘要:IBM(国际商业机器公司)或万国商业机器公司,简称IBM(International Business MachinesCorporation)。总公司在纽约州阿蒙克市,1911年创立于美国,是全球最大的信息技术和业务解决方案公司,目前拥有全球雇员 30多万人,业务遍及160多个国家和地区。
关键词:故障解决HPS,IBM,高性能计算机,
IBM高性能计算机系统承担中国气象局主要的天气气候业务科研模式运行,系统在2004年末安装以来,运行一直比较平稳。在整个系统中,数据交换是通过IBM HPS(High Performance Switch)网络实现的,通过SWITCH网络为用户的并行作业提供通信。
1 故障基本情况
2006年9月21日,科研分区的系统性能下降,用户作业的运算速度比较慢,检查发现HPS(High Performance Switch)[1]网络的通信状态大面积出现异常,影响了GPFS(General Parallel File System)[2]数据文件系统和作业管理软件L DLEVEL的正常运行,导致用户无法使用数据空间和正常提交用户作业,最终导致了用户无法使用科研分区;在SWITCH网络通信正常后,GPFS文件系统中的有些文件不能正常访问。
在确保业务可以稳定运行后,由于当时用户已无法使用科研分区,因此首先申请对科研分区进行停机维护,然后分析并解决故障,处理过程如下。
本篇论文发表在期刊《》上,杂志由信息产业部主管、中国电子科技集团第三十研究所主办。16开本,每月10日出版,国内外公开发行的月刊。杂志1967年创刊,是国内创办时间长、影响大的计算机专业媒体,2004版中文核心期刊。
(1)分析HPS网络通信数据,发现F45一S11和F46一S07的两块主板上的芯片内部通信不正常,决定更换这两块主板;但由于备件新损的原因,只有一块主板可用,只更换了F46一S07 SWITCH的主板。
(2)在重新加电启动完毕后,仍有大量的HPS网络不能通信,导致GPFS不能稳定工作,用户无法正常提交作业。
2 故障原因分析
2.1 控制信号传输过程
从图1可见,IBM 高性能计算机系统是通过硬件控制终端HMC(Hardware Management Console)对主机和SWITCH的硬件进行控制,通过HMC上的SNM (SWITCH Network Manager)软件管理HPS,在HMC上启动FNMD(Federation Network Manager Daemon)进程,实现对HPS网络的配置、初始化、监视、控制、恢复、分析和诊断。此功能与节点是否安装操作系统无关,因为这些指令直接由HMC发起,控制指令都是通过电源传输的,只要电源正常,就会响应执行,SWITCH的拓扑结构是在电源启动的过程中通过自检获得的。
2.2 SWITCH初始化实现的功能
在启动SWITCH之前,首先要确保HMC已经正常启动;在SWITCH 机柜加电后,由SSP(SWITCH Service Processor)控制SWITCH的加电过程,在每一个SWITCH芯片的寄存器中记录本地以及相邻芯片的机柜号、端口号等信息。
2.3 故障原因分析
GPFS文件系统不能正常读写主要是由于SWITCH网络通信不稳定,GPFS的通信频繁发生中断,所以GPFS的文件系统也会频繁异常上线或离线(mount或umount状态),使GPFS文件系统控制的有些硬盘上的NSD(Network Shared Disk)控制信息不一致,GPFS为了保证数据的安全性,系统自动对此NSD进行了隔离操作。
3 故障事件的分析和启发
从这次发生的故障情况来看,由于在系统本身设计和日常维护的过程中考虑了高可靠性和对于用户数据的一致性管理,因此在科研分区出现问题的情况下,并没有影响业务作业的正常运行,这是对系统高可靠性的一次检验;但同时通过这次故障事件,也发现了我们的许多不足,并且也为日常维护提供了一个经验和教训。
系统可靠性验证
由于在系统设计上考虑了用户文件系统高可用性的设计以及全局的用户环境一致性,发表职称论文 同时在日常维护工作中对用户文件系统都做了备份,因此对业务用户没有造成影响。
4 后续工作和建议
此次故障发生后,陆续完成和制定了一些工作计划。
(1)完成了业务分区电源微码的检查。察看了业务分区SWITCH的微码版本,发现也存在需要重新安装的警告提示,但是由于报错的机柜比较少,并没有对系统造成影响,目前已经完成对业务分区电源微码的统一刷新。
(2)制定了IBM 高性能计算机系统业务应急备份方案。当遇到紧急情况时,能够快速评估当前状况并进行处理。
5 结束语
此次故障虽然没有对我们的业务造成影响,但是通过此次故障情况,我们看到了我们还存在的许多不足,需要我们在以后的工作中加以改进。通过不断地分析和总结,维护好我们的系统,保持系统高效稳定的运行。
参考文献
[1] IBM,Inc.An Introduction to the New IBM F.server pS~‘ie8 High Performance SWITCH [EB/OL].http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/SG246978.htm1.
[2] IBM,Inc.General Parallel File System Administration and Pro.gramming Reference[EB/OL].http://publib.boulder.ibm.comAnfocenter/dresetr/vxrxAndex.jsp?topic=/corn.ibm .clus—ter.gpfs.doc/gpfsbooks.htm1.
摘要:虚拟参考站的出现是GPS定位的有一项突破,它标志着GPS的发展进入了一个新阶段,它不仅使GPS提高了精度,同时扩大了...
20世纪70年代功能翻译理论在德国蓬勃发展。1971年卡塔琳娜·赖斯 (KatharinaReiss) 在《翻译批评的可能性与局限性》( Possibiliti...
近年来,包括我国在内的世界各国先后发布限时停售传统燃油车的政策。预计10年后,在我国销售的增量新车中,将没有内燃...
结合某项目的太阳能光伏照明设计,具体阐述并网发电系统的构成及功能,并对光伏发电的效益做一定的分析...
随着信息时代的到来,数字化技术被广泛应用。数字化技术在飞机装配中的应用显示了许多优势,使我国航空产品的开发发生...
本文简要介绍了通过AutoCAD的DXF数据格式与MAPGIS的MPJ数据格式直接转换在地质工作中存在的一些不足之处,重点阐述了AutoCAD的...