当前位置：首页> 存储> SAN> 正文

悲情的存储工程师！两次SAN故障经历分享

来源： it168作者：黄永兵

2011/5/16 11:54:50

大中小

在我接触过的企业存储设备中，只有一个没有因硬件故障导致灾难性后果，相反，我已经记不清有多少因文档糟糕、技术支持胡乱建议、培训不充分，以及软件或固件等原因导致存储灾难性故障，我想说的是，大部分都是人的原因造成的。

分享到：新浪微博腾讯微博

本文关键字： SAN 存储故障

一般来说，企业级主存储是相当稳定的，如果没有强壮的存储设备，就不能奢望应用程序可靠，它们本身就有一大堆问题，如果存储也闹别扭，事情只会变得更糟，这就是为什么企业愿意把大部分IT预算用于购买最好，最可靠的存储基础设施的原因。

冗余磁盘，冗余控制器，镜像缓存，以及冗余存储网络都旨在提供具备容错能力的存储基础设施，在关键任务环境中，这些都是必需的，但即使是最高强度的冗余存储架构在人面前也是毫无保障的。

就在上个月，我就亲眼目睹了两起主存储崩溃事件。

在企业存储基础设施中，用户由两个独立的但同样重要的小组支持：设备小组和管理小组，故事就发生了他们中间。

固件版本不匹配

在第一起案例中，在现有存储环境中引入了新的存储设备，按照设想，新旧存储设备可以实现无缝整合，最终实现用新设备替换掉旧设备的目的。

由于新系统采用了最新的硬件，需要的固件版本比当前的旧系统要高，按正常情况，升级现有系统的固件版本，和新系统匹配是没有问题的，但它需要一个维护窗口。

根据相关文档的解释，这里使用的两个固件版本似乎可以共存，数据迁移可以平滑地从旧系统转移到新系统，因此数据转移工作就在两个固件版本不同的存储设备之间开始了。

起初，事情进展顺利，测试数据成功转移到了新设备，性能测试结果超出预期，没有发现任何问题，接下来，一些非关键的数据卷也成功迁移了，于是决定迁移所有的生产数据，由于数据量巨大，迁移过程花了几天时间才完成。

就在迁移完成大家终于松了一口气的时候(不到30分钟)，新存储设备(现在存储了组织的所有生产数据)从存储网络掉线了，变得完全不可访问，幸运的是，这事儿发生在周六早上，很少有用户注意到，但最终导致整个虚拟服务器基础设施无法使用。

重新给新设备加电后，它又返回到存储网络了，大家齐心协力花了几个小时将所有系统全部上线，最后还算幸运，数据未丢失，也未遭到破坏。

接下来的任务是找出究竟发生了什么，是新设备不可靠？难道有硬件或实施问题在测试期间未被发现？两周后，在厂家技术支持人员的帮助下，确定这起故障是两个设备因固件不匹配引起的，最后，厂家也修改了相关文档，建议任何时候应尽量将所有设备的固件版本升级为一致。

当然，在厂商提供的那些文档中，我们还是看到许多用词不明确的地方，给读者留下了许多想象的空间，从这个案例中我们总结出一个经验：文档不一定可靠，千万不要自以为是！

倒霉的现场技术人员

在第二个案例中，生产存储阵列开始出现一些瞬时错误，这些错误似乎表明后端光纤通道循环出了问题，由于所有系统在控制器和磁盘之间的连接使用了多个冗余循环，不能立即确定究竟是哪里出了问题，但对进一步调查和修复行动提供了保证。

这个阵列签订了高级支持合同，因此厂商很快就派遣了一位技术人员抵达现场，确定问题的根源，这位技术人员到了现场就立即投入到工作中，首先阅读了系统日志，并对硬件做了简单检查，看了看各种线缆和收发器是否连接正确。

责编：陈慧

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：kaiyun体育官方人口文章著作权分属kaiyun体育官方人口、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。