技术论坛

 【周三技术工坊】冗余服务器故障现场支持

返回主题列表
作者 主题

总坛主
西门子官方工程师西门子官方工程师

经验值:15474
发帖数:1550
精华帖:115
楼主    2019-07-17 09:48:44
主题:【周三技术工坊】冗余服务器故障现场支持 精华帖 

         周末还在睡梦中接到领导的电话,说是化工厂现场正在运行的产线有一个CPU停机,让我去现场去处理一下,收集CPU停机的原因。由于之前很少自己一个人去过现场支持CASE,当时的心情既兴奋又忐忑,就这样接下来了这个任务。  

        由于工厂比较偏僻,经过几次倒车换车在接近中午的时间终于到达了目的地,到了目的地要先拍照留念一下。 

          进了客户现场与客户工程师沟通得知:现场的两个CPU都在正常的运行没有问题,并不是CPU的问题,当时就觉得松了一口气,起码现在不会影响客户的正常生产;继续与客户工程师沟通的值:客户以前的冗余服务器中的SRV01经常卡顿,在今年的三月份将冗余服务器中的SRV01进行了升级改造,更换了一台新的服务器SRV01,在2019年4月19日晚上发生新更换的服务器SRV01也出现卡死现象,并且不能够重新启动,客户将新更换的服务器SRV01卸掉,再次更换成了升级改造之前的老的服务器SRV01,现场冗余CPU都正常工作。目前的问题主要有两个:

  1.  老的冗余服务器SRV01换上之后不能与SRV02同步,WINCC趋势不显示;

  2. 升级改造新的冗余服务器为什么会出现突然卡死不能再重新启动。

        针对第一个问题进行排查,首先检查项目搭建的配置,通过检查不存在什么问题;然后查看两台服务器的诊断日志,具体内容见下面截图:

         通过以上截图发现两台服务器多次同步都出现了失败,目前两台服务器未能同步,所以查找两台服务器未能同步的原因。此时,查看两台服务器的时间,两台服务器的时间大概差了有两个小时,        由于这台老的冗余服务器SRV01已经有几个月未使用,再次更换上SRV01服务器时间可能与SRV02服务器时间的间隔有些大,这很有可能是导致两台服务器同步失败的原因。

        通过查看服务器SRV02的时间将老服务器SRV01的时间更改为与服务器SRV02相差在一分钟内,然后等待两台服务器之间再次进行同步。经过一段时间的同步,两台服务器数据与时间同步都开始正常,WINCC上的趋势也正常显示;然后查看两台服务器的诊断日志,具体内容见下面截图:

 

        通过以上以上截图发现两台服务器的数据与时间同步都已经成功完成,此时WINCC上的趋势显示也都开始正常,就这样第一个问题已经成功解决。此时的心情由刚开始的忐忑变成了抱有一丝丝的喜悦,还沉浸在这种喜悦不能自拔的时候,客户开始搬出了昨晚突然卡死替换下来的服务器。

        就这样开始查找第二个问题的原因。通过查看WINDOWS里面的日志发现在昨晚发生服务器SRV01突然卡死之后,SRV01重启了很多次未能成功的原因可能有以下几个原因,同时附带截图,所谓有图有真相:

        1.WINDOWS日志里报了当时SRVO1重启多次都未能同步完成;


        2.WINDOWS日志里报了很多的F盘硬件文件损坏。

         通过以上截图只能初步怀疑升级改造后的新服务器SRVO1里的磁盘F可能有问题了。升级改造后的新服务器SRVO1昨晚已经被客户换下来了,随后在现场找了一台闲置的显示屏进行连接并启动更换下来的新服务器SRV01,此时服务器正在进行磁盘重构,具体现象如下图所示:

        当时与客户解释服务器众有两块磁盘,当前正在进行磁盘重构,现在已经完成13%,重构完成后闪烁的红灯会消失。但是,目前无法判断磁盘是否真的损坏,这需要将这台服务器寄到西门子进行专业的检测后才能给出最终的回复。

         此时已经是晚上九点多,客户昨晚已经在中控室处理了一整晚,并且客户当时是接受这个解释的,就这样此次任务就算是完成了。虽然此次任务占用了周末的休息时间,但是收获颇丰,后来客户还开车将我们送到了酒店,身体的疲惫也顿时消失。这里要特别感谢沈阳和上海两位SSS的同事。

 

                                                                                                             -------来自 西门子技术支持工程师


您收到0封站内信:
×
×
信息提示
很抱歉!您所访问的页面不存在,或网址发生了变化,请稍后再试。