我有一顆 Ironwolf 硬碟,SMART 狀態顯示異常,異常磁區數為 10,但 IronWolf Health Monitor 顯示硬碟健康。我正在掃描壞區,除此之外還需要做什麼嗎?這顆硬碟僅有 492 天的運作時間。
你可以外部測試這個硬碟嗎?如果真的有錯誤,應該還有保固。
壞區掃描仍在進行中,但已報告出現不可恢復讀取錯誤(URE)。IHM 仍然顯示硬碟健康。
我開始懷疑 IHM 是否真的有意義,或者 QNAP 是否過於敏感……但 URE 讓我覺得健康監控毫無用處。
等壞區掃描完成後,Seagate 保固換貨的門檻是什麼?必須完全故障嗎?還是我可以告訴他們「有 X 個區塊失效,請寄給我一個替換品,我會將故障硬碟歸零後寄回給你們。」
偵測到16個壞區。執行了完整的SMART測試,結果顯示「致命或未知錯誤」。
IHM仍然顯示硬碟狀態正常。如果IHM沒有報告任何問題,Seagate會在保固期內更換嗎?我想我週一會打電話給客服詢問。
Seagate 會希望你使用他們自己的工具來測試。
當 SMART 偵測到問題 時,即使 IHM 顯示硬碟仍可運作,也不能排除硬碟存在潛在的風險。
基於您的資料至上原則,我們仍然建議您備份資料並更換硬碟。這將有助於防止任何不可預期的資料遺失。
Seagate 已為我這顆硬碟核發了 RMA。我會將它卸下,透過硬碟擴充座連接到伺服器,然後使用 shred 指令將裝置歸零,之後再寄回去。
問題:這是一個 RAID6 陣列。在降級(DEGRADED)狀態下還能使用嗎?還是儲存池會進入唯讀模式?
所以,我卸下了硬碟,把它從托盤中取出,然後插入連接到我其中一台 Linux 伺服器的 USB 3.0 SATA 底座。我使用 shred 指令在將硬碟退回 Seagate 之前先抹除資料。接著我執行 smartctl,SMART 依然回報故障。Seagate 保固文件上的細則寫著,如果未發現問題,他們會拒絕索賠。所以我下載並安裝了 SeaTools,對硬碟進行了長時間測試。結果通過了。所以他們很可能只是把硬碟寄回給我。我重新掛載並把它裝回 NAS,現在正在重建。狀態顯示為「健康」。
從技術角度來看:現代硬碟有備用磁區。如果某個磁區被標記為損壞,韌體會將其重新映射到備用磁區。shred 指令會對硬碟寫入三次隨機資料……我在第三次寫入約三分之一時中止了。shred 過程中沒有報告任何錯誤。很有可能這些寫入導致壞區被重新分配,現在一切都正常了。
但我還是不完全信任這顆硬碟。我原本打算明年升級硬碟。這顆硬碟將會是第一個被換成更大容量 WD RED(WD 紅標)的。
SMART 應該要顯示有重新分配的磁區(因為有相關的數值)
奇怪的是,那個統計數值居然是 0:
retired_block_count: Value: 100, Worst: 100, Threshold: 10, Raw value: 0
在我用 smartctl 取得的完整 SMART 統計中:
Device Statistics (GP Log 0x04)
Page Offset Size Value Flags Description
0x03 0x020 4 0 — 重分配邏輯扇區數量
0x03 0x028 4 20 — 讀取恢復嘗試次數
0x03 0x030 4 0 — 機械啟動失敗次數
0x03 0x038 4 0 — 重分配候選邏輯扇區數量
0x03 0x040 4 3 — 高優先級卸載事件數量
0x04 ===== = = === == 一般錯誤統計(rev 1)==
0x04 0x008 4 18 — 報告的不可修正錯誤數量
0x04 0x010 4 0 — 指令接受與完成間的重置次數
0x04 0x018 4 0 -D- 物理元件狀態變更
在 FARM 日誌中:
FARM Log Page 3: 錯誤統計
不可恢復讀取錯誤:0
不可恢復寫入錯誤:0
重分配扇區數量:0
讀取恢復嘗試次數:20
機械啟動失敗次數:0
重分配候選扇區數量:0
ASR 事件數量:24
不可修正錯誤:0
因 ERC 累積壽命不可恢復讀取錯誤:0
…
Head 7 累積壽命不可恢復:
累積壽命不可恢復重複讀取:18
累積壽命不可恢復唯一讀取:0
FARM Log Page 5: 可靠性統計
錯誤率(SMART 屬性 1 原始值):0x000000000bf750ae
錯誤率(SMART 屬性 1 標準化):83
錯誤率(SMART 屬性 1 最差):64
尋道錯誤率(SMART 屬性 7 原始值):0x0000000022dc4e9e
尋道錯誤率(SMART 屬性 7 標準化):88
尋道錯誤率(SMART 屬性 7 最差):60
高優先級卸載事件:3
氦氣壓力閾值觸發:0
由奇偶扇區修正的 LBA 數量:1
根據這些資訊,看起來硬碟曾經發生過暫時性故障,QNAP(QNAP)嚇到了,但現在一切似乎都正常了。當然,那 18 個錯誤已經被記錄下來。
錯誤 18 發生於硬碟通電壽命:11814 小時(492 天 + 6 小時)
錯誤:UNC 於 LBA = 0x0fffffff = 268435455
錯誤 17:
錯誤:WP 於 LBA = 0x0fffffff = 268435455
當然,自我測試歷史顯示:
#3 延伸離線 完成:讀取失敗 90% 11830 1580896880
後續測試顯示一切正常。重建完成後,我打算再執行一次完整 SMART 測試,然後做壞區掃描。這真的很奇怪,尤其是我之前也排除過暫時性故障。這並沒有讓我對 Seagate(Seagate)更有信心。如果再發生,我會啟動 RAID 檢查(對 mdadm 比較熟悉的人來說,就是「echo resync > /sys/block/md1/md/sync_action」這個指令,基本上會執行回寫和奇偶校驗。在 RAID 5 上,區塊錯誤可能會致命損壞你的資料,但 RAID 6 因為多一個奇偶位,通常可以解決這些問題。把硬碟移除、清除、再裝回去讓系統重建也是一種方法,但會比較久。好處是:清除過的硬碟不會搞亂奇偶計算。
你也可以透過 GUI 進行 RAID 檢查
最近新聞上提到那些 FARM 值,作為唯一指標來揭露 Seagate(希捷)硬碟大規模標籤造假事件