SMARTステータス異常、しかしIHMはドライブが正常と表示

IronwolfドライブがSMARTステータスで異常を報告しており、不良セクタ数が10となっていますが、IronWolf Health Monitorではドライブが正常と表示されています。現在、不良ブロックのスキャンを行っていますが、他に何かすべきことはありますか?ドライブの稼働時間は492日です。

ディスクを外部でテストできますか?本当にエラーがある場合は、保証があるはずです。

不良ブロックスキャンはまだ実行中ですが、URE(未修復読み取りエラー)が報告されています。IHM(IronWolf Health Management)はまだドライブが正常だと言っています。

IHMが本当に意味があるのか、それともQNAPが過敏すぎるのか疑問に思い始めています……しかしUREが発生しているので、ヘルスモニターは役に立たないと感じます。

不良ブロックスキャンが完了した後、Seagateの保証交換の基準は何ですか?完全に故障しないといけませんか?それとも「Xセクターが故障したので、交換品を送ってください。故障したドライブはゼロクリアして返送します」と伝えても大丈夫でしょうか。

不良ブロックが16個検出されました。完全なSMARTテストを実行したところ、「致命的または不明なエラー」が表示されました。

IHMはまだドライブが正常だと言っています。IHMが問題を報告しない場合でも、Seagateは保証で交換してくれるのでしょうか?月曜日にサポートに電話して聞いてみようと思います。

Seagateは自社のツールでテストすることを求めるでしょう。

SMARTが問題を検出した場合、IHMがドライブがまだ動作可能であると示していても、ハードドライブに潜在的なリスクが存在する可能性は否定できません。

データが最重要であるという原則に基づき、データのバックアップとハードドライブの交換を推奨します。これにより、予期せぬデータ損失を防ぐことができます。

SeagateがそのドライブのRMA(返品承認)を発行しました。ドライブを取り外し、ドック経由でサーバーに接続し、出荷前にshredコマンドを使ってデバイスをゼロ化します。

質問:これはRAID6アレイです。DEGRADED(劣化)状態でも使用可能ですか?それともストレージプールは読み取り専用モードになりますか?

それで、ドライブを取り外して引き抜き、トレイから外してUSB 3.0 SATAドックに挿し、Linuxサーバーのひとつに接続しました。Seagateに返却する前にshredコマンドを使ってドライブを消去しました。その後、smartctlを実行すると、SMARTは依然として障害を報告しています。Seagateの保証書の細かい字には、問題が見つからなければ請求が却下されると書かれています。そこでSeaToolsをダウンロードしてインストールし、ドライブにロングテストを実施しました。結果は合格でした。なので、おそらくそのまま送り返されるでしょう。再マウントしてNASに戻し、再構築中です。ステータスは「正常」と表示されています。

技術的な観点から言えば、現代のドライブには予備セクタがあります。セクタが不良とマークされると、ファームウェアが予備セクタに再マッピングします。shredコマンドはドライブにランダムデータを3回書き込みますが…3回目の約1/3で中断しました。shred中にエラーは報告されませんでした。書き込みによって不良ブロックがドライブ上で再配置された可能性が高く、今はすべて正常です。

ただし、このドライブは完全には信用していません。来年ドライブをアップグレードする予定でしたが、このドライブが最初により大容量のWD REDに交換されることになります。

SMARTは再配置済みセクタがあることを示すべきです(その値が存在します)。

奇妙なことに、その統計値は0です:
retired_block_count: Value: 100, Worst: 100, Threshold: 10, Raw value: 0
smartctlで取得した完全なSMART統計では:
Device Statistics (GP Log 0x04)
Page Offset Size Value Flags Description
0x03 0x020 4 0 — 再割り当てされた論理セクタ数
0x03 0x028 4 20 — 読み取りリカバリー試行回数
0x03 0x030 4 0 — 機械的スタート失敗数
0x03 0x038 4 0 — 再割り当て候補論理セクタ数
0x03 0x040 4 3 — 高優先アンロードイベント数
0x04 ===== = = === == 一般エラー統計 (rev 1) ==
0x04 0x008 4 18 — 報告された訂正不能エラー数
0x04 0x010 4 0 — コマンド受理から完了までのリセット回数
0x04 0x018 4 0 -D- 物理要素ステータス変更

FARMログでは:
 FARMログページ3:エラー統計
  回復不能な読み取りエラー:0
  回復不能な書き込みエラー:0
  再割り当てセクタ数:0
  読み取りリカバリー試行回数:20
  機械的スタート失敗数:0
  再割り当て候補セクタ数:0
  ASRイベント数:24

訂正不能エラー:0
  ERCによる累積生涯回復不能読み取りエラー:0

  ヘッド7による累積生涯回復不能:
   累積生涯回復不能読み取り(繰り返し):18
   累積生涯回復不能読み取り(ユニーク):0

FARMログページ5:信頼性統計
  エラー率 (SMART属性1 Raw): 0x000000000bf750ae
  エラー率 (SMART属性1 正規化): 83
  エラー率 (SMART属性1 ワースト): 64
  シークエラー率 (SMART属性7 Raw): 0x0000000022dc4e9e
  シークエラー率 (SMART属性7 正規化): 88
  シークエラー率 (SMART属性7 ワースト): 60
  高優先アンロードイベント数:3
  ヘリウム圧力しきい値トリップ:0
  パリティセクタによる修正済みLBA数:1

これらの情報から、ドライブは一時的な障害を経験し、QNAPがパニックを起こし、現在はすべて正常に見えます。もちろん、これら18件のエラーは記録されています。
エラー18はディスク通電寿命:11814時間(492日+6時間)で発生
エラー:UNC(訂正不能エラー) LBA = 0x0fffffff = 268435455

エラー17:
エラー:WP(書き込み保護) LBA = 0x0fffffff = 268435455

そしてもちろん、自己テスト履歴には次のように表示されています:
#3 拡張オフライン 完了:読み取り失敗 90% 11830 1580896880

その後のテストではすべて正常と判定されています。リビルドが完了したら、もう一度完全なSMARTテストを実施し、その後不良ブロックスキャンを行う予定です。本当に奇妙ですね。過去にも一時的な障害のトラブルシュートをしたことがある自分でもそう思います。これではSeagateへの信頼が高まることはありませんね。もし再発した場合はRAIDスクラブを実行するつもりです(mdadmに詳しい方へ、「echo resync > /sys/block/md1/md/sync_action」を実行すると、書き戻しとパリティ検証が行われます)。RAID 5ではブロックエラーが致命的にデータを破壊することがありますが、RAID 6では追加のパリティビットによって通常は解決できます。ドライブを取り外して消去し、再度装着してシステムにリビルドさせる方法もありますが、時間がかかります。メリットとしては、消去されたドライブはパリティ計算を妨げることができません。

RAIDスクラブはGUI経由でも実行できます

これらのFARM値は最近ニュースで取り上げられており、Seagate(シーゲイト)ドライブの大規模な誤表示ドライブ詐欺を示す唯一の指標となっています

@SnArL817

こちらが参考になるかもしれません: Why does my NAS show an 'Abnormal' S.M.A.R.T. status but IHM reports the drive as 'Healthy'? | QNAP