我有一台 TS-453D,運行 QTS 5.2.8.3359,並使用 Mac 透過 Firefox 瀏覽器存取系統。
系統配有 4 顆 Seagate IronWolf Pro 4TB 硬碟,配置為 RAID5 並有一顆熱備援(Hot Spare)。
熱備援硬碟出現問題,從系統中消失,我已將其更換為新硬碟。
新硬碟的效能比其他硬碟更好,因此我決定將它用作資料硬碟(Data Drive)。
我移除了其中一顆硬碟,系統開始同步(syncing)。
在同步過程中,另一顆硬碟出現了讀寫(R/W)錯誤。
我重新插入先前移除的硬碟,但現在它被系統識別為空閒硬碟(free drive)。
我已經兩次掃描故障硬碟的壞區,但健康狀態仍然顯示「錯誤」(Error)指示。
目前該儲存空間(volume)為唯讀(read only)。
請問有辦法將我移除的硬碟重新加入 RAID 群組並重新開始同步嗎?
任何協助都將不勝感激。
嗯,這裡有幾點要說。
1.) 首先,你說你有一個熱備份(hot spare)是什麼意思?你是指有一顆硬碟從未被使用嗎?那你應該有一個五顆硬碟的RAID 5,因為根據定義,RAID 5本身就有冗餘。你讓一顆硬碟閒置,實際上什麼都沒做,原本可以加入陣列增加儲存空間。
2.) RAID的效能取決於陣列中「最慢」的硬碟。所以加入一顆效能更好的硬碟並不會提升整體效能。
3.) 當你第二次更換硬碟時,RAID正在重建。現在你等於又模擬了一次硬碟故障。我希望你有備份。絕對、絕對、絕對不要在陣列重建時移除任何硬碟。
4.) 重新插回你第一次移除的硬碟也沒用,因為陣列已經認定那顆硬碟已經不存在,並且正在重建儲存空間。
5.) 你可以試著重新插回有讀寫錯誤(R/W errors)的那顆硬碟,但我也不確定這樣是否有效。
也許其他人能提供更好的建議,但我真的希望你有備份。
是啊……如果沒有備份,你唯一的辦法就是聯絡資料救援專家了……那會很貴。
感謝您的回覆
關於第三點,我只移除了其中一顆硬碟,讓熱備用(hot spare)硬碟接手。
在同步的過程中,另一顆硬碟出現了讀寫錯誤。
我會嘗試第五點。
我本來指望你能給我一個恢復的點子,但我明白了,今天沒有奇蹟。
謝謝你,dolbyman
我明白了。不過當時 RAID 正在重建。重建期間,另一顆硬碟又故障了。但它是真的故障了,還是只是開始出現錯誤?無論如何,你移除那顆硬碟,基本上就是引入了另一個故障。其實最好是等 RAID 完全同步完成後再移除那顆硬碟。但這就是 RAID5 的問題。你只能承受一顆硬碟損壞。如果你損失一顆硬碟,然後在重建過程中(可能需要幾天)又損失第二顆硬碟,那麼你就會失去所有資料。
希望你有備份這些資料。
順帶一提:未來不要再放一顆「熱待命」(hot standby)硬碟在那裡,那只是浪費硬碟。你可以把它加入陣列,讓 RAID5 利用它作為儲存空間(RAID5 本身就有「熱備用」功能),或者改用 RAID6,這樣可以有更高的冗餘性。如果你不打算利用那顆熱待命硬碟的儲存空間,建議改用 RAID6 配置。
我從未移除過其他硬碟,這還不夠明確嗎?
它開始出現錯誤,並提示要檢查壞磁區。硬碟仍然都在原位。
現在,我不知道這個熱備用(hot spare)被內建在 RAID 5 的說法是從哪來的。你可能是指 RAID 5 群組能夠承受一次錯誤,因為這就是它的特性。熱備用硬碟是在你失去其中一顆硬碟時使用,讓資料能與其他硬碟同步,這樣你遭遇第二次錯誤的風險(就時間而言)就能降到最低,這就是它的用途。
一般來說,使用「熱備份」硬碟效果並不好。如果硬碟已經通電並運作,那麼馬達和運行時間就會和其他硬碟一樣,縮短其壽命。是的,致動器(actuator)或許沒被頻繁使用,但除非你在運行生產伺服器,否則通常還是比較好準備一顆「冷備份」硬碟放在架上,隨時可用。
RAID 5(6、10或任何級別)絕對不應被視為「備份」。這個問題已經在無數文章中被討論過了。
任何RAID故障或陣列中的硬碟開始出現錯誤,都會導致系統花費大量精力來恢復或同步。這通常會導致其他硬碟同時開始出現錯誤或故障,因為它們通常都是同一批次、同樣的使用狀況,即使不是,重新同步也會造成很大壓力。
話雖如此,唯一的預防方法(給正在閱讀這篇文章的其他人,因為對你來說可能已經太晚了)就是將備份存到另一台設備(或更好的是多台設備),作為一套符合你的資料重要性和變化性的備份策略。
正如@dolbyman指出的,一旦你拔出硬碟、開始重新同步,且一顆或多顆其他硬碟也開始出現錯誤,如果你沒有備份,那麼你最好的做法就是在你開始亂動、讓情況變得更糟之前,尋求資料救援專家的協助。
你可以嘗試向QNAP支援提交支援單,但在這個階段你自己亂動更有可能讓情況惡化。
感謝你的時間,dosborne。
事實上,擁有熱備份(hot spare)多年來對我以及許多人都非常有用。我是一名 IT 專業人士,不是工程師,曾在 EMC 工作過。
RAID 並不是備份,原因不只一個,也從未被當作備份來處理,你指出這一點對於閱讀本文的人來說非常有幫助。
硬碟並不是同時購買的,但即使是同時購買,從統計上來看,在同步剛開始幾分鐘內就出現錯誤也是很罕見的。沒錯,重新同步確實是一個高壓的操作。不過這些硬碟都不到兩年。
我嘗試使用 chatgpt,得到了一個有用的建議:透過 smb 或 ssh 進入系統並嘗試複製檔案。這樣我能看到部分檔案,但最重要的那個資料目錄需要清理,而這是一個「禁止」操作。最後的結論是關閉系統,然後嘗試用 linux 掛載硬碟。
或許罕見,但我在舊論壇看到過很多帖子描述正是這種情況。這並不是隨意的建議,而是根據許多人實際情況的證據。這很合理。同步作業會讓硬碟承受可能是有史以來最大的負載。你擁有的硬碟越多,其中一顆被壓力逼到出問題的機率就越高。當然,這可能很罕見,但機率確實高於零。
各人有各自的做法,但作為一個有 40 年資歷的「IT 專業人士」,我目前還不會完全依賴 ChatGPT
ChatGPT 應該要指出,在標準 Linux 主機上「掛載」raid(RAID)陣列是一個極其複雜的過程,尤其是 QNAP 系統有多層結構需要處理。隨意執行聊天機器人建議的指令,或在不了解狀況下嘗試載入檔案系統,都可能危及實際資料救援的機會。
我強烈建議你聯絡真正的專業人士,首先可以找 QNAP 技術支援,請他們根據對自家系統的深入了解給你正確建議。如果他們無法提供方向,如前述,你可能就得尋求資料救援專家的協助。
透過 SMB/FTP/SSH 存取檔案確實是個不錯的建議,偶爾也能救回部分檔案。最終,能否救回資料還是要看那顆持續出錯的硬碟損壞程度有多嚴重。
祝你順利,也相信支援人員至少能幫你解決部分問題。
不依賴 ChatGPT 是個合理的觀點。這也是我先來這裡的原因。我比起任何 AI,更信任這裡的人。諮詢 ChatGPT 是在絕望之下的舉動。不過,透過 SMB 找到檔案的想法倒是個不錯的方法。
OK。我讀到的意思不太一樣。我理解成你把開始出錯的那顆硬碟拔掉,然後把你先前移除的第一顆硬碟裝到那個位置。
嚴格來說這並不是熱備援,但因為總硬碟容量是(硬碟數量-1)*最小硬碟空間,所以有冗餘機制可以應付硬碟故障。我不太明白「熱待命」硬碟要怎麼運作,因為它並不是RAID陣列的一部分。即使它有你的所有資料,也沒什麼差別。一旦你把它加入RAID,系統就會開始重建並根據陣列需求把資料寫入該硬碟。但你有你的做法……
重點是,當RAID正在同步時,千萬不能隨便拔硬碟。
到這個階段,我建議你向QNAP提交支援單。
為了防止情況惡化,請暫時不要更換硬碟或調整系統設定。
我們強烈建議您儘快備份重要資料,並向我們提交支援申請。支援團隊將協助您進行進一步分析與問題解決。謝謝!
嗨 Steve,
由於我之前沒有開過支援票,請問可以告訴我正確的申請方式嗎?
系統已經關閉
關於此問題,請直接透過您的 NAS 上的 Helpdesk 應用程式提交支援服務單,或也可以造訪此網址:Customer Service - QNAP
謝謝!
關於熱備援。您可以將熱備援硬碟分配給 RAID 群組或儲存池。這顆備援硬碟旁會有「Spare」的標示。因此,它實際上是 RAID 群組的一部分,當某顆硬碟故障時會自動啟用並開始同步。因此,您暴露於第二顆硬碟故障的時間會比手動介入來得短。這樣您就有更多時間來採購替換硬碟。
但是,你需要注意的是,將資料同步到新的備用硬碟時所產生的額外壓力,可能會導致其他硬碟出現故障或完全損壞。這並不是理論上的問題,即使風險相對較低,也確實存在。
請記住這個規則:RAID 不是備份。熱備用硬碟也不是備份。
![]()
所以如果硬碟故障了,你不打算更換嗎?
你忽略了重點。人們依賴 RAID,卻沒有備份。這讓他們誤以為自己很安全,但現實並非如此。這篇文章,以及網路上到處都在強調的觀點,就是保護你的資料的唯一方法是將其備份到外部媒介。
對你的儲存卷或實體硬碟做任何操作都會帶來風險。只要看看這個論壇,有多少人依賴 RAID、快照、或是在同一台 NAS 裡的不同卷,然後隨意操作,結果驚訝地發現再也無法存取自己的資料。
眾所皆知,重建陣列會對所有硬碟造成壓力。
每個使用者都應該有備份策略。
備份策略是根據資料的價值來識別風險並制定計畫。你是在防範硬碟錯誤、硬碟故障、多顆硬碟同時故障、NAS 故障、火災、洪水、失竊、檔案誤刪、檔案蓄意刪除、惡意程式、斷電、網路故障、雲端故障、針對 NAS 的惡意程式、針對雲端服務的惡意程式等等嗎?
有些資料很重要,有些則不然。每一組資料都需要相對應的策略。有些資料不需要備份(可以重新下載),有些只需要簡單複製到另一個位置,有些需要版本控管,有些需要複製,有些需要分階段備份,有些需要主動備份。
只有使用者自己能決定什麼是合適的,但必須是根據實際資料做出明智的決定。以為自己很安全,只因為設置了 RAID 1,並不能防止誤刪重要檔案、失竊、NAS 故障等等。用完全相同的設置,改成兩個卷,對某些使用者來說,也許分階段備份到第二顆硬碟更重要,也許不是。
每個情境和資料集都是獨特的,沒有唯一正確的答案。重點是要教育使用者,讓他們能判斷資料對自己的價值,並選擇可能包含多種方案的策略。舉例來說:有些資料不需要備份,有些放在 RAID 陣列,有些複製到雲端,有些複製到另一台 NAS,有些複製到 USB 隨身碟並存放在保險箱裡。身為家庭使用者,我採用所有這些策略甚至更多。每一組資料都根據我對其價值的評估,配對相應的備份策略。
此外,更換硬體並不等同於更換資料。
在緊急情況下,一個簡單的解決方案是在更換硬碟之前,先備份(新的)資料(理想狀況下,當然應該一直都有備份,這樣這步就沒那麼重要了)。即使在降級模式下,備份的風險也比重建來得小。然後,在資料保存好之後,再處理硬體問題。