雑記/2014-06-06

https://dexlab.net:443/pukiwiki/index.php?%BB%A8%B5%AD/2014-06-06
 

WD20EARS故障

雑記/2010-06-03に購入し、CentOS5.10 + GW3.5MX2-SUE/CB + WD20EARSx2台 RAID1構成で使っていたHDDのうち1台が壊れたようだ。
寿命はちょうど4年。
結論から言うと、RAID1のおかげでデータは無事。転送速度が遅いだけだったので、HDD故障に気がつくまでちょっと時間がかかった。

  • 環境
    • OS: CentOS 5.10 x86_64
    • HDDケース: GW3.5MX2-SUE/CB(ファームウェアアップグレード済) SATA接続, RAID1モード
    • HDD: WD20EARSx2台, ext3
  • 症状
    • ファイルの読み込み時に、頻繁に待ち状態になる。しばらくすると読み込みが始まるがまた待ち状態になる。
    • topではiowaitが発生しているようにみえる
    • 問題発生時に iostat -x 5 で見ると %util ほぼ100%。(正常なHDDのみを接続して試すと、20%程度だった)
    • iotopも同様
    • RAID1に対してfsckしてもエラー出ず
    • smartedはGW3.5MX2-SUE/CBが対応していないのか表示されず。個別のHDDをWindowsにつないでCrystalDiskInfoで見ると、1台でC5エラー
    • HDD破棄時にAcronis True ImageのDisk Cleanup機能でゼロ埋めした時に、C5エラーが出たHDDで書き込み途中でエラーが出たのでこれが原因のようだ。
  • 1台ずつ接続して確認
    • S.M.A.R.T.でC5エラーなWD20EARS
      # fdisk -l
      
      Disk /dev/sdb: 2000.3 GB, 2000398934016 bytes
      224 heads, 56 sectors/track, 311465 cylinders
      Units = シリンダ数 of 12544 * 512 = 6422528 bytes
      
      # dmesg
      ata6: EH complete
        Vendor: ATA       Model: External Disk 0   Rev: 1.15
        Type:   Direct-Access                      ANSI SCSI revision: 05
      SCSI device sdb: 3907029168 512-byte hdwr sectors (2000399 MB)
      sdb: Write Protect is off
      sdb: Mode Sense: 00 3a 00 00
      SCSI device sdb: drive cache: write back
      SCSI device sdb: 3907029168 512-byte hdwr sectors (2000399 MB)
      sdb: Write Protect is off
      sdb: Mode Sense: 00 3a 00 00
      SCSI device sdb: drive cache: write back
       sdb: sdb1
      sd 5:0:0:0: Attached scsi disk sdb
      sd 5:0:0:0: Attached scsi generic sg2 type 0
      
      デバイス Boot      Start         End      Blocks   Id  System
      /dev/sdb1               1      311465  1953508452   83  Linux

wd-green02-ok.jpg

  • S.M.A.R.T.は正常だが、パーティションサイズが変なWD20EARS。2TBのHDDがなぜか8GBに見える。パーティションも消えているようにみえる。RAIDのリビルド前だと8GBに見えるが、それが原因か?
    # fdisk -l
    ...
    Disk /dev/sdb: 8589 MB, 8589934080 bytes
    255 heads, 63 sectors/track, 1044 cylinders
    Units = シリンダ数 of 16065 * 512 = 8225280 bytes
    
    デバイス Boot      Start         End      Blocks   Id  System
    
    # dmesg
    ata6: hard resetting link
    ata6: SATA link down (SStatus 0 SControl 310)
    ata6: failed to recover some devices, retrying in 5 secs
    ata6: hard resetting link
    ata6: link is slow to respond, please be patient (ready=-19)
    ata6: COMRESET failed (errno=-16)
    ata6: hard resetting link
    ata6: link is slow to respond, please be patient (ready=-19)
    ata6: COMRESET failed (errno=-16)
    ata6: hard resetting link
    ata6: link is slow to respond, please be patient (ready=-19)
    ata6: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
    ata6.00: configured for MWDMA2
    ata6: EH complete
    SCSI device sdb: 16777215 512-byte hdwr sectors (8590 MB)
    sdb: Write Protect is off
    sdb: Mode Sense: 00 3a 00 00
    SCSI device sdb: drive cache: write through

wd-green01-ng.jpg


バックアップ

1台ずつ直接PCへ接続し、どちらか生きているか確認した。
コピー中にエラーになる事があったため、何度かfsckした。
数個のファイルの中身を確認しただけだが、全てのファイルはコピーできた。

  • コピー前に md5deepでハッシュリストを作るのも良い。壊れたファイルを発見できる
  • rsyncでバックアップ
    • コピー元:/dev/sdc1
    • コピー先:/opt/backup
      mount /dev/sdc1 /mnt/disk1
      rsync -av  --exclude "lost+found" --exclude ".recycle" /mnt/disk1/ /opt/backup/
  • コピーエラーの修復。最悪壊れる場合があるので最終手段。また、非常に時間(8時間以上も)がかかる
    umount /mnt/disk1
    fsck -y /dec/sdc1
  • コピー後、md5deep:Memo/Linuxでハッシュリストを作った方が良いだろう

添付ファイル: filewd-green02-ok.jpg 447件 [詳細] filewd-green01-ng.jpg 287件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2018-09-15 (土) 07:31:38 (456d)