Also, ich habe eine Frage und vielleicht muss das QNAP-Team sie beantworten…
Ich wollte mit On-Premise-LLM und RAG-Suchen in Qsirch experimentieren. Allerdings habe ich keine GPU in meinem NAS installiert. Ich habe jedoch das QNAP USB AI Accelerator-Gerät.
Auf der QNAP-Website wird nichts darüber gesagt, dass eine GPU erforderlich ist:
Die On-Premise-RAG-Suche lädt LLMs beim ersten Suchvorgang in den Videospeicher. Wenn nicht genügend GPU-Speicher vorhanden ist, wird ein Fehler (unzureichender Speicher) gemeldet.
Es werden keine Mindestanforderungen genannt, aber hier sind die „empfohlenen“ Anforderungen aufgeführt:
Empfohlen werden eine RTX 4000 (Ada Generation, die über 20 GB vRAM verfügt) und eine RTX 6000 Pro (ebenfalls Ada Generation, mit 96 GB vRAM). Zum Testen habe ich es mit einer RTX 3050 6GB probiert und konnte einige der kleineren Modelle laden, aber nicht viele. Die Performance ist vergleichbar mit dem Betrieb von ollama auf einem ähnlichen Desktop.
Bezüglich des „AI Accelerator“ würde ich vermuten, dass dieser nicht über genügend Speicher für diese Art von Aufgabe verfügt, aber es ist besser, wenn QNAP diesen Anwendungsfall selbst erklärt oder abdeckt.
Zusätzlich sei erwähnt, dass man in der RAG-Suche auch immer die Online-LLMs verwenden kann, aber dann sendet Ihr NAS die Daten an Gemini, ChatGPT usw., anstatt alles lokal auszuführen. Dafür ist keine GPU erforderlich, da die gesamte Arbeit in den Rechenzentren der Cloud-Anbieter erledigt wird.
Aha. OK. Der Speicher ist hier wahrscheinlich das Entscheidende. Ich stimme zu, dass die Beschleuniger (Accelerators) wahrscheinlich nicht über den nötigen Speicher verfügen.
Ich werde auf keinen Fall auf mein 10-Gbit-Glasfaser verzichten und eine GPU einbauen, die möglicherweise mit meinem TS-873A nicht gut funktioniert. Das ist es nicht wert.
Und ich möchte meine Suchanfragen wirklich nicht nach außen ins Internet schicken. Das kann ich auch einfach machen, indem ich direkt auf diese Webseiten gehe…
Vielen Dank für Ihr Interesse an Qsirch RAG Search.
Derzeit ist es so, dass Sie für den Betrieb von Qsirch mit einem lokalen LLM (Large Language Model) und RAG Search eine NVIDIA GPU benötigen. Der Hauptgrund dafür ist, dass lokale LLMs ziemlich viel GPU-Speicher benötigen, um richtig zu funktionieren, und das kann der AI Accelerator derzeit noch nicht leisten.
Wir verstehen, dass Ihnen Datenschutz wichtig ist und Sie Ihre Daten lieber lokal halten möchten. Das ist absolut nachvollziehbar.
Wenn Sie jedoch bereit sind, RAG Search zu Evaluierungszwecken mit einem Cloud-LLM auszuprobieren, kann das eine gute Möglichkeit sein, um einen klaren Eindruck davon zu bekommen, wie RAG in Qsirch funktioniert und wie Sie OpenAI-kompatible APIs einrichten.
Sie können auch zunächst mit einem kleinen oder nicht sensiblen Datensatz beginnen, um den Workflow kennenzulernen, und später entscheiden, ob der Betrieb komplett lokal mit einer GPU für Ihren Anwendungsfall sinnvoll ist.