[經驗筆記] NAS 的IO速度異常緩慢,自行排除的紀錄

TLDR: 過個年硬碟又來討錢了
不過這次的案例滿特別的,因為系統並沒有回報問題,因此花比較多時間確認。

大概在上週開始,覺得 NAS 的反應速度變得很慢,不論是登入、使用 Samba、更新應用都會卡住,而開機關機最糟狀況可能會花一小時以上才開關完畢

今天有時間仔細檢查,發現一個不是那麼容易遇到的問題,因此分享一下經驗

症狀:系統整體非常慢,但如果願意等極度久的話工作可以完成,系統 Log 沒有回報任何警告或者錯誤

檢查:
根據經驗通常是跟磁碟有關,透過 Storage Manager 觀察磁碟,注意到雖然沒回報 SMART 錯誤,但 IHR 有額外提示 “有可用建議”

另外可以注意到「溫度」的參數,是完全不可能達到的 -115 度 :rofl:

雖然主機都在內網,但一開始有點擔心是有勒索軟體跑進來對硬碟做加密,導致效能被吃完,詢問 chatGPT (AI萬歲!) 提供的建議後,使用SSH連進 NAS 做檢查:

iostat -dx 1

注意到在其他硬碟不忙的時候,有特定一顆同型號的硬碟 sde 負擔特別高

而且查詢序號剛好就是跟 IHM 回報問題的硬碟是同一顆

斷定會是硬碟本身的問題,因為我的設計是 RAID6 所以可以較為放心的先移除有問題的硬碟,強迫剔除硬碟後,所有硬碟的讀取恢復成平均,而且效能恢復成原本的水準。

接下來要做的事情就是… 補上另外一顆硬碟了 :money_with_wings:
雖然原本的硬碟能夠活 2000 天已經沒什麼好不滿的就是了

1 Like