行业新闻

如何处理数据中心存储系统出现的故障

如何处理数据中心存储系统出现的故障

     在如今的互联网时代,大数据十分重要,而存储系统作为如今大数据云计算时代的根基,它的稳定才是支撑起如此海量数据的根本,保护好数据存储系统就显得相当关键。目前网络攻击越来越严重,数据存储系统也变得越来越不安全。该如何处理数据中心存储系统出现的故障呢?
     普遍来说,存储系统是由主机、交换机及存储设备组成的。其故障大致分为硬件故障、配置故障或者license类问题,先外部后内部,先处理高级警告后处理低级警告,先共性后个性。
一、网络层
   网络层发生的问题大多是连通性问题,由于链路故障导致的丢包或者误码率上升等现象,此现象可以在交换机上观察端口的信息,观察误码率是否在持续增长。其次可能是端口速率或带宽未达到标准,查看端口配置及协商状况。
二、主机层
     在主机层面大多需要检查的是操作系统版本,相应的HBA卡是否达到合适的标准。其次是在主机上安装的多路径软件,查看一下与存储设备连接的物理路径的状态以及存储LUN等信息。
三、存储层
     存储设备可以在导出事件或者运行数据、相关告警、系统日志和硬盘日志来分析发生故障的原因,到底是存储控制器还是底层的硬盘问题都需要逐步排查。在底层存储方面主要考虑存储模块的配置,指示灯状态等信息,从指示灯状态我们可以分析出是否存在硬件故障等,其次在配置方面:RAID级别、分条深度、LUN读写策略、cache策略,LUN归属、硬盘类型等是否符合业务的特点以及不符合时可能导致的问题。
      面对存储系统的故障,一定要保持思路清晰,不要盲目的去做,选择解决问题的最佳方案。