悲情的存储工程师!两次SAN故障经历分享

来源: it168作者:黄永兵
2011/5/16 11:54:50
在我接触过的企业存储设备中,只有一个没有因硬件故障导致灾难性后果,相反,我已经记不清有多少因文档糟糕、技术支持胡乱建议、培训不充分,以及软件或固件等原因导致存储灾难性故障,我想说的是,大部分都是人的原因造成的。

分享到: 新浪微博 腾讯微博
本文关键字: SAN 存储 故障

但他什么问题也没有发现,于是,他插上一根串口线,接到设备的维护端口,在管理软件中发出特定的命令,直接从控制器导出了原始性能数据,其目的是让控制器吐出详细的错误信息,以便更高级的工程师解码分析。

串口和控制器的软件内核是直接相通的,输错一个字符就可能引起严重的后果,在这种情况下,如果你在终端模拟器按下Ctrl-Z,会导致两个冗余控制器同时重启,所有入站存储连接会被突然重置,会发生什么只有求佛主保佑。

仔细看看你的键盘,你会发现Ctrl和Z键隔得并不远,如果事先不知道同时按下它们后果有多严重,或一不小心误按,我想你会一辈子记得这事的。

和第一起案例一样,幸亏中断时间不长,也没有导致数据丢失或破坏,但还是花了几个小时才将各种应用程序重新上线。

教训

事后看来,不管文档上有没有明确说明,在固件不匹配的情况下做任何事情都是自找麻烦,此外,在处理大量数据迁移时不能掉以轻心,想一边喝咖啡一边操作还得悠着点。

也许你从来没有想过一个完全冗余的企业级存储网络还会全部宕掉,是的,这种事情虽然很少见,但的确发生过。在众多存储事故中,我发现大部分都是人为因素造成的,有可能就是你,或你的同事,也可能是新进入的厂商。

各路存储厂商都在努力让自己的管理系统变得更具吸引力,更友好的管理界面,但他们忽略了天天摆弄这些软件和硬件的IT人员,软硬件环境越来越复杂,谁也不能保证不会出现误操作。

除了厂商要做好严格的保护设计,文档实时更新外,作为用户一方,也要加强自身维护队伍的建设,在不确定会引起什么后果之前,最好不要急着动手。

共2页: [1]2 下一页
责编:陈慧
vsharing 微信扫一扫实时了解行业动态
portalart 微信扫一扫分享本文给好友
著作权声明:kaiyun体育官方人口 文章著作权分属kaiyun体育官方人口 、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
    畅享IT
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918
    Baidu
    map