既に事務所内で運用していたサーバの移行作業は終わったので、そろそろ旧サーバを止めようかな・・・と思いつつ、ログを眺めていると・・・
Jan 19 16:08:09 host3 smartd[3478]: Device: /dev/sdb, 95 Currently unreadable (pending) sectors
Jan 19 16:38:10 host3 smartd[3478]: Device: /dev/sdb, 95 Currently unreadable (pending) sectors
ありゃあ、30分毎に SMART からのメッセージが出てたのねえ。
CentOS では、標準で S.M.A.R.T の情報を確認する smartd が動いている。異常を発見したらメールを送る・・・なども出来るが、俺は設定してない(笑)
とりあえず、詳細を見てみる。
# smartctl -a /dev/sdb
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
・・・
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0
2 Throughput_Performance 0x0005 136 136 054 Pre-fail Offline - 95
3 Spin_Up_Time 0x0007 157 157 024 Pre-fail Always - 247 (Average 236)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 22
5 Reallocated_Sector_Ct 0x0033 098 098 005 Pre-fail Always - 137
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 140 140 020 Pre-fail Offline - 30
9 Power_On_Hours 0x0012 093 093 000 Old_age Always - 49591
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 22
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 25
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 25
194 Temperature_Celsius 0x0002 253 253 000 Old_age Always - 22 (Lifetime Min/Max 15/38)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 163
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 95
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
・・・
むむむ・・・
確かに Current_Pending_Sector(現在異常があって代替処理を待つセクタ)があるな。
それも、ワースト値に近い 95セクタもだ(^^;;;
問題がないか、簡易なセルフテストをしてみる。
# smartctl -t short /dev/sdb
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Short self-test routine immediately in off-line mode".
Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 1 minutes for test to complete.
Test will complete after Thu Jan 19 17:35:56 2017
Use smartctl -X to abort test.
「Thu Jan 19 17:04:34 2017 にはテストが終わる」ってことなので、この時間まで待って内容確認。
# date
2017年 1月 19日 木曜日 17:36:10 JST
# smartctl -a /dev/sdb
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
・・・
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 163
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 95
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
SMART Error Log Version: 0
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 49592 -
・・・
おっ。「Completed without error」だから問題無しか?
Current_Pending_Sector は 95セクタあるけど、実質的な問題はないってことかね?
俺もあんまり(というか、実際のところ、ほとんど(^^;)smartctl コマンドを知らないのでアレですが、ま、もう火を落とすサーバだからいいか・・・
この間、UPS が壊れて夜中に電源落ちちゃってたからなあ・・・あの時にそれなりのダメージはあったと思うが・・・
「Completed without error」だからね・・・「Completed without error」だからね・・・
もし、識者でお暇な方がいらっしゃったら、ぜひコメント等でご教授いただければ幸いです。