NAS verzögert

Ich habe kürzlich mein NAS von einem QNAP TS-231P auf ein QNAP TS-932PX aufgerüstet. Die neue Konfiguration verwendet 4 SSDs in RAID 6 für die Dateifreigabe und 5 HDDs in RAID 6 für Backups. Zusätzlich läuft jede Nacht ein Cloud-Backup.

Etwa 10 Personen in unserem Büro nutzen das NAS für die Dateifreigabe, und es ist in die Active Directory auf Windows Server 2019 eingebunden.

Alles funktionierte mehrere Monate lang einwandfrei. Doch seit etwa letztem Monat berichten Benutzer von sehr langsamer Performance jeden Morgen. Das Durchsuchen von Ordnern oder das Öffnen von Dateien dauert zwischen 2 und 30 Sekunden.

Wenn ich das NAS morgens neu starte, funktioniert es den Rest des Tages normal. Aber am nächsten Morgen tritt die Verzögerung wieder auf, und die einzige Möglichkeit, das Problem erneut zu beheben, ist ein weiterer Neustart.

Ich habe den QNAP-Support kontaktiert, und deren Techniker auf höherer Ebene haben versucht, das Problem zu beheben, konnten aber keine klaren Ursachen finden. Sie schlugen vor, die Swap-Datei zu überwachen und eventuell mehr RAM hinzuzufügen, aber das erscheint mir nicht logisch, weil:

  • Die RAM-Auslastung liegt nie über 40%
  • Die CPU-Auslastung bleibt unter 10%
  • Das Netzwerk (2,5Gb) wird kaum genutzt
  • Ich habe das NAS aus der Active Directory entfernt und wieder hinzugefügt
  • Die Ping-Latenz zwischen den Benutzern, dem Server und dem NAS liegt immer bei etwa 1 ms.
  • Die Festplatten laufen mit der vorgesehenen Geschwindigkeit.

Nach zwei Wochen Fehlersuche gehen mir langsam die Ideen aus. Meine nächsten Schritte wären eventuell, das NAS aus der Active Directory zu entfernen und zu testen, oder möglicherweise das NAS zurückzusetzen und neu zu formatieren.

Danke für jegliche Vorschläge.

Also, ein paar Dinge:

Niemals annehmen, dass CPU-Auslastung = CPU-Last ist. Das sind unterschiedliche Dinge. Du kannst eine niedrige CPU-Auslastung und eine hohe CPU-Last haben, was dein System definitiv beeinflussen wird. Um die CPU-Last zu sehen, öffne eine SSH-Shell und führe den Befehl top aus. Es gibt dort eine Zeile namens Load Average, die aus 3 Zahlen besteht. Diese Zahlen repräsentieren die Durchschnittslast der letzten 1, 5 und 15 Minuten bzw. die Anzahl der Threads, die vom Prozessor bearbeitet werden. Wenn der Load Average höher ist als die Anzahl deiner CPU-Kerne, wirst du langsame Geschwindigkeiten feststellen. Zum Beispiel hat mein TS-873A 4 echte Kerne, die jeweils 2 Threads verarbeiten können, also insgesamt 8 Kerne. Wenn mein TS-873A also über 8 kommt, wird er langsamer. Wenn du Geschwindigkeitsprobleme hast, überprüfe dies, wenn es langsam ist.

image

Ich habe auf meinem QNAP schon Probleme gesehen, bei denen Zombie-Prozesse laufen, die Ressourcen verbrauchen und nicht richtig beendet werden. Vor einem Monat hatte ich ein Problem, bei dem die Last riesige Werte anzeigte. Es stellte sich heraus, dass es durch etwas in Hybrid Backup Sync verursacht wurde.

Welcher Prozess oder welche Anwendung läuft auf deinem NAS z.B. über Nacht oder zu einer anderen Zeit, die die Verlangsamung verursachen könnte? Backups können viele Ressourcen benötigen und alles verlangsamen, wenn sie nicht vor dem nächsten Tag abgeschlossen sind. Das gilt auch für andere Apps usw.

Die Schritte zur Behebung sind also:

1.) Schau dir zuerst mit TOP an, wie hoch deine Last ist und ob sie hoch ist, ob eine App in der Liste darunter eine hohe CPU-Auslastung zeigt.

2.) Beginne damit, potenziell ressourcenintensive Apps wie Container Station, Virtualization Station usw. zu stoppen. Stoppe eine Anwendung über das App Center. Beobachte ein paar Minuten, ob die Last sinkt. Wenn ja, hast du die verursachende App gefunden. Wiederhole das, bis du die App gefunden hast, die die Last verursacht.

3.) Mit gestoppter Problem-App starte das NAS neu.

4.) Nach dem Neustart des NAS starte die App wieder.

5.) Überwache deine Last, um zu sehen, ob das Problem weiterhin besteht.

Solche Probleme können einige Zeit und Mühe kosten, um sie herauszufinden. Wenn du QNAP-Support weiterhin bittest, sich das anzusehen, werden sie dir helfen. Es wird etwas Hin und Her geben und du musst alles genau erklären, was du tust. Bitte darum, dass der Fall eskaliert wird. Stelle sicher, dass sie sich über den Helpdesk auf deinem NAS einloggen und sich alles anschauen.

Dies ist während der Verlangsamung am 27. Februar und ich sehe ähnliche Load-Average-Werte an anderen Tagen während der Verlangsamung

[~] # top
Mem: 3710592K verwendet, 325376K frei, 54016K shrd, 1495552K buff, 298496K gecached
CPU: 6.5% usr 0.0% sys 0.0% nic 0.0% idle 93.4% io 0.0% irq 0.0% sirq
Load average: 22.89 20.50 13.37 2/879 17322
PID PPID USER STAT VSZ %VSZ CPU %CPU COMMAND
9727 1 admin S 2314m 58.3 3 2.1 /sbin/hal_daemon -f
17316 14395 admin R 3520 0.0 1 2.1 top
24832 17582 admin S < 3060m 77.1 0 0.0 /usr/local/apache/bin/apache_proxy
29175 1 admin S 1406m 35.4 1 0.0 {cc3-fastcgi} python /share/CACHED
14546 1 admin S 1238m 31.1 1 0.0 /usr/local/sbin/qulogdb --defaults
26475 1 admin S 1210m 30.4 0 0.0 {p2pagent} /share/CACHEDEV2_DATA/.
30866 18157 admin S 1205m 30.3 3 0.0 {apache_proxys} /usr/local/apache/
31531 1 admin S 967m 24.3 2 0.0 /usr/local/mariadb/bin/mysqld --de
15705 15704 admin S 856m 21.5 0 0.0 /usr/local/sbin/ncd
12976 1 admin S 855m 21.5 1 0.0 /usr/local/mariadb/bin/mysqld --de
23248 1 admin S 838m 21.1 2 0.0 /usr/local/mariadb/bin/mysqld --de
15614 1 admin S 486m 12.2 2 0.0 /usr/local/sbin/ncdb --defaults-fi
7338 1 admin S 425m 10.7 2 0.0 /mnt/ext/opt/Python/bin/python ./m
26437 1 admin S 326m 8.2 0 0.0 tunnelagent
5698 1 admin S 296m 7.4 1 0.0 /sbin/cs_qdaemon
11507 1 admin S 266m 6.7 3 0.0 /mnt/ext/opt/Python/bin/python /mn
14644 14636 admin S 260m 6.5 2 0.0 /usr/local/sbin/qulogd
14366 1 admin S 260m 6.5 0 0.0 /usr/local/sbin/qulogd
17118 1 admin S 260m 6.5 2 0.0 /usr/local/sbin/qulogd
31916 1 admin S 249m 6.2 3 0.0 /usr/local/bin/qsyncsrv_monitor -p

Das ist jetzt, wenn niemand arbeitet

Mem: 3723328K verwendet, 312640K frei, 46592K shrd, 1653312K buff, 219584K gecached
CPU: 0.9% usr 1.3% sys 0.0% nic 97.6% idle 0.0% io 0.0% irq 0.0% sirq
Load average: 1.28 1.32 1.40 1/823 6903
PID PPID USER STAT VSZ %VSZ CPU %CPU COMMAND
9838 1 admin S 2251m 56.7 1 0.9 /sbin/hal_daemon -f
31602 1 admin S 903m 22.7 2 0.0 /usr/local/mariadb/bin/mysqld --defaults-file=/etc/
9890 1 admin S 46976 1.1 3 0.0 {nmd} python /usr/local/network/nmd/nmd.pyc
7426 1 admin S 14912 0.3 0 0.0 /mnt/ext/opt/netmgr/util/redis/redis-server *:0
6856 28205 admin R 4096 0.1 0 0.0 top
3808 17771 admin S < 3060m 77.1 2 0.0 /usr/local/apache/bin/apache_proxy -k start -f /etc
29211 1 admin S 1406m 35.4 0 0.0 {cc3-fastcgi} python /share/CACHEDEV3_DATA/.qpkg/Hy
14657 1 admin S 1238m 31.1 3 0.0 /usr/local/sbin/qulogdb --defaults-file=/mnt/ext/op
26675 1 admin S 1209m 30.4 0 0.0 /share/CACHEDEV2_DATA/.qpkg/CloudLink/bin/p2pagent
30877 18338 admin S 1205m 30.3 2 0.0 /usr/local/apache/bin/apache_proxys -k start -f /et
13123 1 admin S 855m 21.5 0 0.0 /usr/local/mariadb/bin/mysqld --defaults-file=/usr/
23639 1 admin S 838m 21.1 0 0.0 /usr/local/mariadb/bin/mysqld --defaults-file=/etc/
15746 15742 admin S 827m 20.8 2 0.0 /usr/local/sbin/ncd
15651 1 admin S 485m 12.2 2 0.0 /usr/local/sbin/ncdb --defaults-file=/mnt/ext/opt/N
7388 1 admin S 425m 10.7 3 0.0 /mnt/ext/opt/Python/bin/python ./manage.pyc runfcgi
27172 1 admin S 328m 8.2 0 0.0 tunnelagent
5757 1 admin S 296m 7.4 1 0.0 /sbin/cs_qdaemon
11649 1 admin S 266m 6.7 1 0.0 /mnt/ext/opt/Python/bin/python /mnt/ext/opt/netmgr/
14759 14751 admin S 260m 6.5 2 0.0 /usr/local/sbin/qulogd
31944 1 admin S 249m 6.2 1 0.0 /usr/local/bin/qsyncsrv_monitor -pid:31940 -reg:/sh
23915 1 admin S 248m 6.2 0 0.0 /usr/local/sbin/pp_qcoolied -f /etc/config/pp_qcool
4329 1 admin S 227m 5.7 3 0.0 /sbin/lvmetad
20500 1 admin S 219m 5.5 2 0.0 /usr/sbin/rsyslogd -f /etc/rsyslog_only_klog.conf -
30153 1 admin S 194m 4.8 1 0.0 {php-fpm-proxy} php-fpm: master process (/etc/php-f
30157 30153 admin S 194m 4.8 2 0.0 {php-fpm-proxy} php-fpm: pool www
30158 30153 admin S 194m 4.8 1 0.0 {php-fpm-proxy} php-fpm: pool www
31833 1 admin S 192m 4.8 3 0.0 /sbin/qsyncsrv_dbm -b
20970 1 admin S 174m 4.4 1 0.0 /sbin/qShield
20965 1 admin S 174m 4.4 3 0.0 qNoticeEngined: Write notice is enabled…
19864 1 admin S 169m 4.2 1 0.0 /usr/local/bin/rfsd_qmonitor -f:/tmp/rfsd_qmonitor.
18780 1 admin S 168m 4.2 2 0.0 /mnt/ext/opt/Python/bin/python2 /sbin/wsd.py
20967 1 admin S 167m 4.2 2 0.0 qLogEngined: Write log is enabled…
10396 10393 admin S 149m 3.7 0 0.0 /usr/local/bin/rates_monitor_start
18367 32316 admin S 135m 3.4 2 0.0 /usr/local/samba/sbin/smbd -l /var/log -D -s /etc/c
4595 32316 admin S 129m 3.2 0 0.0 /usr/local/samba/sbin/smbd -l /var/log -D -s /etc/c
24710 32316 admin S 126m 3.1 3 0.0 /usr/local/samba/sbin/smbd -l /var/log -D -s /etc/c
3771 32316 admin S 126m 3.1 1 0.0 /usr/local/samba/sbin/smbd -l /var/log -D -s /etc/c
9922 9890 admin S 116m 2.9 2 0.0 {ncaas} python /usr/local/network/nmd/nmd.pyc
9923 9890 admin S 116m 2.9 1 0.0 {qserviced} python /usr/local/network/nmd/nmd.pyc
32424 32316 admin S 113m 2.8 2 0.0 /usr/local/samba/sbin/smbd -l /var/log -D -s /etc/c
32316 1 admin S 113m 2.8 0 0.0 /usr/local/samba/sbin/smbd -l /var/log -D -s /etc/c
14751 1 admin S 108m 2.7 2 0.0 /usr/local/sbin/qulogd
10729 9808 admin S < 107m 2.7 0 0.0 /usr/local/samba/sbin/winbindd -s /etc/config/smb.c
15742 1 admin S 106m 2.6 2 0.0 /usr/local/sbin/ncd
21592 1 admin S 104m 2.6 2 0.0 /usr/bin/qsnapman
29655 1 admin S 99m 2.5 2 0.0 /usr/bin/RTRR_MANAGER
9846 9808 admin S < 98m 2.4 0 0.0 /usr/local/samba/sbin/winbindd -s /etc/config/smb.c
15727 1 admin S 99520 2.4 0 0.0 /usr/local/sbin/ncloud
9847 9808 admin S < 97152 2.3 0 0.0 /usr/local/samba/sbin/winbindd -s /etc/config/smb.c
9902 9808 admin S < 96832 2.3 3 0.0 /usr/local/samba/sbin/winbindd -s /etc/config/smb.c
32321 32316 admin S 95360 2.3 0 0.0 {cleanupd} /usr/local/samba/sbin/smbd -l /var/log -
32319 32316 admin S 95232 2.3 3 0.0 {smbd-notifyd} /usr/local/samba/sbin/smbd -l /var/l
7037 9808 admin S < 93312 2.3 2 0.0 /usr/local/samba/sbin/winbindd -s /etc/config/smb.c
9808 1 admin S < 86912 2.1 0 0.0 /usr/local/samba/sbin/winbindd -s /etc/config/smb.c
19856 1 admin S 77056 1.9 2 0.0 /sbin/rfsd -i -f /etc/rfsd.conf
30107 30105 admin S < 73792 1.8 0 0.0 /home/httpd/cgi-bin/qsync/qsyncsrv.fcgi

Ich habe die Statistiken auch an die KI weitergegeben

https://x.com/i/grok/share/c0ff440f825b46b8a25c50b0050f0416

Eine Last von 22,89 wird also extrem langsam sein.

Jetzt musst du herausfinden, was das verursacht. Es ist schwer zu sagen, welcher Prozess das genau ist. Schau dir daher Folgendes an:

1.) Führst du nachts Backups durch?
2.) Waren diese Backups vor dem Morgen abgeschlossen?
3.) Was passiert, wenn du nachts kein Backup laufen lässt?
4.) Beginne damit, Anwendungen nacheinander zu stoppen, wenn die Last hoch ist. Fang mit Dingen wie Container Station, Virtualization Station, Web Server usw. an. Fahre sie einzeln herunter. Warte jedes Mal ein paar Minuten und beobachte, was mit der Last passiert. Wenn du die betreffende Anwendung findest, wird die Last ziemlich schnell sinken.

Leider ist dein TS-932PX mit einer ARM A57 CPU ausgestattet. Das ist zwar ein Upgrade von deinem TS-231P, aber nur knapp. Wenn du dieses NAS in einer geschäftlichen Umgebung einsetzt, solltest du dir ein anderes NAS kaufen. Der ARM Cortex A57 ist ein großartiger Mikroprozessor (MPU), aber wirklich für spezielle Embedded-Anwendungen gedacht. Er ist einfach nicht das, was du für einen Dateiserver für 10 Personen verwenden möchtest. Es tut mir leid, dir das sagen zu müssen, aber du hast das falsche NAS als Upgrade gekauft. Du solltest zumindest auf ein X86 NAS umsteigen, und das Mindeste, was ich empfehlen würde, wäre ein Modell mit AMD Ryzen V1500B wie das TS-x73A NAS. Noch besser wäre ein i5 oder i7, aber diese werden dann teurer.

1 „Gefällt mir“

Das NAS wird ausschließlich für die Dateifreigabe verwendet. Es hostet keine Server. Das TS-231P hat jahrelang problemlos funktioniert. Ich habe auf das TS-932PX aufgerüstet, nur um den Speicherplatz zu erhöhen.

Das NAS arbeitet den ganzen Tag schnell, wenn es morgens neu gestartet wird. Backups werden nachts abgeschlossen und laufen morgens nicht.

Ihr Hinweis auf die hohe Last war bisher das hilfreichste und gibt mir eine Richtung für die weitere Fehlersuche.

Definitiv nicht gut.

Nur als Randnotiz: Wenn es wirklich nur ein Platzproblem war, hättest du auch die Festplatten im 231P aufrüsten können. Genau das habe ich gemacht (QNAP TS-231P-US 2x18TB Seagate Exos).

In solchen Situationen verdächtige ich normalerweise die Speichermedien. Normalerweise würde ich empfehlen, die Laufwerksstatistiken und SMART-Diagnosen zu überprüfen, aber ich bin mir nicht sicher, was dir bei SSDs zur Verfügung steht (da ich selbst keine in meinen NAS-Geräten habe).

Vielleicht postest du die SSD-Modellnummern, und es fällt jemand anderem etwas dazu ein.

Irgendwo gibt es einen Engpass, der die CPU-Last verzögert.

Du könntest auch ein Support-Ticket bei QNAP eröffnen, damit sie das untersuchen.

Die Festplatten wurden getestet und laufen mit der richtigen Geschwindigkeit und IOPS. Ich bin von einer QNAP TS-231P migriert. Daher überlege ich, das ganze System zurückzusetzen und komplett neu einzurichten.

5x WD Red Plus für RAID6-Nachtsicherungen

IOPS 73, 117, 77, 125, 113

MB/s 176, 177, 176, 194

4x WD Red SA500 2TB RAID6-Speicher

IOPS 40434, 40701, 40627, 40011

MB/s 537, 537, 538, 538