SMART 狀態異常，但 IHM 顯示硬碟健康

SnArL817 · 2025年06月21日02:49

我有一顆 Ironwolf 硬碟，SMART 狀態顯示異常，異常磁區數為 10，但 IronWolf Health Monitor 顯示硬碟健康。我正在掃描壞區，除此之外還需要做什麼嗎？這顆硬碟僅有 492 天的運作時間。

dolbyman · 2025年06月21日03:51

你可以外部測試這個硬碟嗎？如果真的有錯誤，應該還有保固。

SnArL817 · 2025年06月21日04:36

壞區掃描仍在進行中，但已報告出現不可恢復讀取錯誤（URE）。IHM 仍然顯示硬碟健康。

我開始懷疑 IHM 是否真的有意義，或者 QNAP 是否過於敏感……但 URE 讓我覺得健康監控毫無用處。

等壞區掃描完成後，Seagate 保固換貨的門檻是什麼？必須完全故障嗎？還是我可以告訴他們「有 X 個區塊失效，請寄給我一個替換品，我會將故障硬碟歸零後寄回給你們。」

SnArL817 · 2025年06月22日06:28

偵測到16個壞區。執行了完整的SMART測試，結果顯示「致命或未知錯誤」。

IHM仍然顯示硬碟狀態正常。如果IHM沒有報告任何問題，Seagate會在保固期內更換嗎？我想我週一會打電話給客服詢問。

dolbyman · 2025年06月22日15:13

Seagate 會希望你使用他們自己的工具來測試。

SteveKo · 2025年06月23日04:01

當 SMART 偵測到問題 時，即使 IHM 顯示硬碟仍可運作，也不能排除硬碟存在潛在的風險。

基於您的資料至上原則，我們仍然建議您備份資料並更換硬碟。這將有助於防止任何不可預期的資料遺失。

SnArL817 · 2025年06月23日15:34

Seagate 已為我這顆硬碟核發了 RMA。我會將它卸下，透過硬碟擴充座連接到伺服器，然後使用 shred 指令將裝置歸零，之後再寄回去。

SnArL817 · 2025年06月23日16:24

問題：這是一個 RAID6 陣列。在降級（DEGRADED）狀態下還能使用嗎？還是儲存池會進入唯讀模式？

SnArL817 · 2025年06月26日13:42

所以，我卸下了硬碟，把它從托盤中取出，然後插入連接到我其中一台 Linux 伺服器的 USB 3.0 SATA 底座。我使用 shred 指令在將硬碟退回 Seagate 之前先抹除資料。接著我執行 smartctl，SMART 依然回報故障。Seagate 保固文件上的細則寫著，如果未發現問題，他們會拒絕索賠。所以我下載並安裝了 SeaTools，對硬碟進行了長時間測試。結果通過了。所以他們很可能只是把硬碟寄回給我。我重新掛載並把它裝回 NAS，現在正在重建。狀態顯示為「健康」。

從技術角度來看：現代硬碟有備用磁區。如果某個磁區被標記為損壞，韌體會將其重新映射到備用磁區。shred 指令會對硬碟寫入三次隨機資料……我在第三次寫入約三分之一時中止了。shred 過程中沒有報告任何錯誤。很有可能這些寫入導致壞區被重新分配，現在一切都正常了。

但我還是不完全信任這顆硬碟。我原本打算明年升級硬碟。這顆硬碟將會是第一個被換成更大容量 WD RED（WD 紅標）的。

dolbyman · 2025年06月26日16:04

SMART 應該要顯示有重新分配的磁區（因為有相關的數值）

SnArL817 · 2025年06月26日16:52

奇怪的是，那個統計數值居然是 0：
retired_block_count: Value: 100, Worst: 100, Threshold: 10, Raw value: 0
在我用 smartctl 取得的完整 SMART 統計中：
Device Statistics (GP Log 0x04)
Page Offset Size Value Flags Description
0x03 0x020 4 0 — 重分配邏輯扇區數量
0x03 0x028 4 20 — 讀取恢復嘗試次數
0x03 0x030 4 0 — 機械啟動失敗次數
0x03 0x038 4 0 — 重分配候選邏輯扇區數量
0x03 0x040 4 3 — 高優先級卸載事件數量
0x04 ===== = = === == 一般錯誤統計（rev 1）==
0x04 0x008 4 18 — 報告的不可修正錯誤數量
0x04 0x010 4 0 — 指令接受與完成間的重置次數
0x04 0x018 4 0 -D- 物理元件狀態變更

在 FARM 日誌中：
FARM Log Page 3: 錯誤統計
不可恢復讀取錯誤：0
不可恢復寫入錯誤：0
重分配扇區數量：0
讀取恢復嘗試次數：20
機械啟動失敗次數：0
重分配候選扇區數量：0
ASR 事件數量：24

    不可修正錯誤：0
    因 ERC 累積壽命不可恢復讀取錯誤：0

…
Head 7 累積壽命不可恢復：
累積壽命不可恢復重複讀取：18
累積壽命不可恢復唯一讀取：0

FARM Log Page 5: 可靠性統計
    錯誤率（SMART 屬性 1 原始值）：0x000000000bf750ae
    錯誤率（SMART 屬性 1 標準化）：83
    錯誤率（SMART 屬性 1 最差）：64
    尋道錯誤率（SMART 屬性 7 原始值）：0x0000000022dc4e9e
    尋道錯誤率（SMART 屬性 7 標準化）：88
    尋道錯誤率（SMART 屬性 7 最差）：60
    高優先級卸載事件：3
    氦氣壓力閾值觸發：0
    由奇偶扇區修正的 LBA 數量：1

根據這些資訊，看起來硬碟曾經發生過暫時性故障，QNAP（QNAP）嚇到了，但現在一切似乎都正常了。當然，那 18 個錯誤已經被記錄下來。
錯誤 18 發生於硬碟通電壽命：11814 小時（492 天 + 6 小時）
錯誤：UNC 於 LBA = 0x0fffffff = 268435455

錯誤 17：
錯誤：WP 於 LBA = 0x0fffffff = 268435455

當然，自我測試歷史顯示：
#3 延伸離線完成：讀取失敗 90% 11830 1580896880

後續測試顯示一切正常。重建完成後，我打算再執行一次完整 SMART 測試，然後做壞區掃描。這真的很奇怪，尤其是我之前也排除過暫時性故障。這並沒有讓我對 Seagate（Seagate）更有信心。如果再發生，我會啟動 RAID 檢查（對 mdadm 比較熟悉的人來說，就是「echo resync > /sys/block/md1/md/sync_action」這個指令，基本上會執行回寫和奇偶校驗。在 RAID 5 上，區塊錯誤可能會致命損壞你的資料，但 RAID 6 因為多一個奇偶位，通常可以解決這些問題。把硬碟移除、清除、再裝回去讓系統重建也是一種方法，但會比較久。好處是：清除過的硬碟不會搞亂奇偶計算。

dolbyman · 2025年06月26日16:56

你也可以透過 GUI 進行 RAID 檢查

最近新聞上提到那些 FARM 值，作為唯一指標來揭露 Seagate（希捷）硬碟大規模標籤造假事件

Amol · 2025年06月27日00:58

@SnArL817

這可能對你有幫助：Why does my NAS show an 'Abnormal' S.M.A.R.T. status but IHM reports the drive as 'Healthy'? | QNAP