QNAP Hero システムが遅い、Virtualization Stationがなかなか起動しない・ロード画面で止まる

こんにちは、
私はQnap TVS 1288xを以下のスペックで使用しています。

  • QuTS hero h5.2.9.3492
  • 80GB RAM
  • メインプールは2つのNVMeディスクを使用しており、ほとんどのアプリケーションがここにあります

現在抱えている問題は以下の通りです:

  1. システムが1〜2日後にランダムに遅くなり始めます。
    1. このタイミングでほとんどのアプリがフリーズしたり、全く起動しなくなります。
  2. 上記の状態になると、Virtualization Stationが起動しません。

いくつかトラブルシューティングを試しました。

  • アプリケーションを別のプールへ移動してみましたが、改善されませんでした。
  • 再起動すると一時的には動作しますが、数日後に再発します。恒久的な解決にはなっていません。

同じような症状が出ている方、もしくはトラブルシューティングの取り掛かりが分かる方がいれば、アドバイスいただけますか?

ディスク構成の残りはどのようになっていますか?

使用しているディスクモデルは何ですか?

ARC以外に有効になっているキャッシュはありますか?

こんにちは、

ARC RAM使用量の設定はどうなっていますか?

ストレージグローバル設定 | QuTS hero h5.2.x

残りのディスク構成は以下の通りです:

  • プール2 - 4 x 4TB HDD - RAID 5
    • PCIe 1x m.2 NVMeでキャッシュ
  • プール3 - 4 x 10TB HDD - RAID 5
    • PCIe 1x m.2 NVMeでキャッシュ
  • プール4 - 4 x 512GB SSD - RAID 10 - VM用に使用
  • ARC RAM使用量は60%に設定
    • メモリ使用率がグローバルで55%を超えたことはありません。

ARCがこの問題の原因になることはありますか?

メインのファイルシステムに破損がある可能性は?
それを切り分けるためにどのようにトラブルシューティングすればいいか分かりません。

キャッシュを削除して再試行してみます。

QuTSはキャッシュ関連の問題には安全だと思っていましたが、システムの遅延やRAIDの再シルバーリング(再同期)に関する問題が発生し始めています。

試してみます。
キャッシュは1日前に適用しました。それ以前は設定されていなくて、同じ問題が発生していました。

問題が再発したときにログを取れるように、システムのデバッグモードはどうやって有効にできますか?

減速に関するログはないと思います。

dmesgtop が、エラーやRAM/CPU使用率(CLI経由)を確認する候補になります。

quts heroでキャッシュ機能がうまく動いていないようです。私も同じような経験をして、結局使うのをやめました。

@Blaze7810 さん、新しいトピックを作成しましたか?

どうしてですか?(重複したトピックは削除しました)

これは2つの問題があったので分けていました。でもここにまとめておきます。

キャッシュをクリアしましたが、それでも問題が出続けます。特にVirtualization Stationアプリで顕著です。

他にできることが思いつきません。

どうやら関連しているようですね(ストレージが遅くなると、VMStationもロードされなくなります)。

リソースを分散させて解決を遠回りしないようにしたいだけです。

なるほど、納得です

はっきりとは分かりませんが、パフォーマンステストをいくつか実行した後、2台のSSDが正常に動作していないように思います。

M.2は近々交換する予定ですが、その2つのSSDは正常な速度で動作していません。スクリーンショットを確認してください。これが原因かもしれません。

えっと、警告が出ているSSDがあるみたいですね。その警告内容は何ですか?それが他の問題の原因になっている可能性はありますか?フラッシュメモリが劣化すると、消去や書き込みのサイクルが長くなることがあります。

その(m.2)はメインのOS用です。近いうちに交換する予定です。でも、VMを他のプールに移動したら、すべてちゃんと動きました。ハイライトした2つはRMAに出して、交換品を受け取る予定です。

どうやらディスクの問題だったみたいです。

OSはすべてのディスク(スパニングRAID1)に入っています。システムプールのことを指しているのであれば、それは常に冗長化されているべきです。というのも、そのドライブを交換したり故障した場合、すべてのアプリが失われてしまうからです。

ご指摘いただいた両方のドライブのIOPSに異常が見られます。特に「32」と表示されているドライブは異常値です。できるだけ早くデータのバックアップを行い、ドライブを交換することをおすすめします。その後、引き続き問題が発生するかどうか確認させていただきます。よろしくお願いします。