もう火を落とすサーバで S.M.A.R.T の警告が出てるが・・・(^^;;;

既に事務所内で運用していたサーバの移行作業は終わったので、そろそろ旧サーバを止めようかな・・・と思いつつ、ログを眺めていると・・・

Jan 19 16:08:09 host3 smartd[3478]: Device: /dev/sdb, 95 Currently unreadable (pending) sectors
Jan 19 16:38:10 host3 smartd[3478]: Device: /dev/sdb, 95 Currently unreadable (pending) sectors

ありゃあ、30分毎に SMART からのメッセージが出てたのねえ。
CentOS では、標準で S.M.A.R.T の情報を確認する smartd が動いている。異常を発見したらメールを送る・・・なども出来るが、俺は設定してない(笑)

とりあえず、詳細を見てみる。

# smartctl -a /dev/sdb
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen

・・・

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   136   136   054    Pre-fail  Offline      -       95
  3 Spin_Up_Time            0x0007   157   157   024    Pre-fail  Always       -       247 (Average 236)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       22
  5 Reallocated_Sector_Ct   0x0033   098   098   005    Pre-fail  Always       -       137
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   140   140   020    Pre-fail  Offline      -       30
  9 Power_On_Hours          0x0012   093   093   000    Old_age   Always       -       49591
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       22
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       25
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       25
194 Temperature_Celsius     0x0002   253   253   000    Old_age   Always       -       22 (Lifetime Min/Max 15/38)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       163
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       95
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

・・・

むむむ・・・

確かに Current_Pending_Sector(現在異常があって代替処理を待つセクタ)があるな。
それも、ワースト値に近い 95セクタもだ(^^;;;

問題がないか、簡易なセルフテストをしてみる。

# smartctl -t short /dev/sdb
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Short self-test routine immediately in off-line mode".
Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 1 minutes for test to complete.
Test will complete after Thu Jan 19 17:35:56 2017

Use smartctl -X to abort test.

「Thu Jan 19 17:04:34 2017 にはテストが終わる」ってことなので、この時間まで待って内容確認。

# date
2017年  1月 19日 木曜日 17:36:10 JST
# smartctl -a /dev/sdb
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen

・・・

196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       163
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       95
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 0
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     49592         -

・・・

おっ。「Completed without error」だから問題無しか?

Current_Pending_Sector は 95セクタあるけど、実質的な問題はないってことかね?
俺もあんまり(というか、実際のところ、ほとんど(^^;)smartctl コマンドを知らないのでアレですが、ま、もう火を落とすサーバだからいいか・・・

この間、UPS が壊れて夜中に電源落ちちゃってたからなあ・・・あの時にそれなりのダメージはあったと思うが・・・

「Completed without error」だからね・・・「Completed without error」だからね・・・

もし、識者でお暇な方がいらっしゃったら、ぜひコメント等でご教授いただければ幸いです。

トラックバック(0)

このブログ記事を参照しているブログ一覧: もう火を落とすサーバで S.M.A.R.T の警告が出てるが・・・(^^;;;

このブログ記事に対するトラックバックURL: https://blog.netandfield.com/mt/mt-tb.cgi/4272

コメントする

このブログ記事について

このページは、shinodaが2017年1月19日 17:44に書いたブログ記事です。

ひとつ前のブログ記事は「Apache2 で、CGI ソースが表示されちゃう件の対応(Debian APT パッケージ編)」です。

次のブログ記事は「PowerEdge 830 よ、長い間お疲れ様・・・」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。


月別 アーカイブ

電気ウナギ的○○ mobile ver.

携帯版「電気ウナギ的○○」はこちら