根据分析个人怀疑程序,CPU或存储卡的故障可能性大。可以的话希望能看到最终解决结果。
quote:以下是引用冰杉在2013-12-22 09:33:15的发言:
现在的情况就像"啤酒鱼"说的"通过电话已经拿不到更多的信息",这点信息我们也只能做些分析推测,我的处理问题方法有点像写疑论文,首先提出问题:“I/O模块同时出现模块插拔故障”,分析问题:首先是插拔故障,那就是与CPU总线通讯有问题,这不用说,再加一个“同时”,可以先排除单个I/O模块的问题(之所以说个先是因为也不排除所有的I/O模块有问题),那么找出与I/O通讯的共同点,一个是背板电源,一个是CPU,还有一个是背板。再提出问题:“大约在十几毫秒后自动恢复”,这个十几毫秒是在CUP硬盘诊断中看到的吗?咱再分析问题:可以自己恢复,说明这个问题不像简单的硬件大范围损坏,比如烧坏断线短路之类(当然也不完全排除,咱做技术就得严谨^_^),那么什么情况下会出现十几毫秒就可以恢复的,找速度共同点,一个是CPU,因为CPU速度快呀,有可能是程序有问题,有可能是存储卡有问题,也有可能是本身就有问题;一个是电源,CPU没停,我想影响I/O的可能性也小但不排除;还有一个是振动,虽然可能性小但有速度这个共同点就不能排除。另外再加一点怀疑,十几毫秒就恢复,外部不应该会跳呀,CPU扫描周期有些也有几十毫秒的,当然也只是怀疑,我也可以当作一个‘提出问题’吧,至于‘分析问题’就请大家分析,这里我就不分析了,必竞这是我的怀疑。最后一个就是处理问题:没在现场或信息仅是如些,这样的问题最好的办法就是“置换法”,首先,程序检查置换最老完成的程序,其次,置换CPU或CPU存储卡,再就是电源和底板,因为涉及到总线,所以通讯模块和某个I/O模块也有可能会影响它,比如某个模块让总线电源短路,信息充足的话可以作进一步测量检测,这里就不说了。所以,要带的工具,有常用接线工具和测量工具,再就是备件(根据分析站上的模块几乎上面的都要带)。