本地部署 RAG 搜尋

NA9D · 2025年12月09日14:40

所以我有個問題，也許需要 QNAP 工作人員來回答……

我想在 Qsirch 上嘗試本地部署的 LLM 和 RAG 搜尋。不過，我的 NAS 沒有安裝 GPU，但我有 QNAP 的 USB AI 加速器裝置。

在 QNAP 的網站上，並沒有提到需要 GPU：

但顯然還是需要。那為什麼我們不能用 AI 加速器來取代 GPU 呢？

rinthos · 2025年12月09日16:14

本地端 RAG 搜尋會在首次搜尋時將 LLMs 載入顯示卡記憶體（video memory）。如果 GPU 記憶體不足，系統會回報錯誤（記憶體不足）。

他們沒有說明最低需求，但在這裡列出了「建議」需求：

他們「建議」使用 RTX 4000（Ada 世代，擁有 20GB vRAM）和 RTX 6000 Pro（同為 Ada 世代，擁有 96GB vRAM）。我曾用 RTX 3050 6GB 嘗試，能載入一些較小的模型，但不多。效能大致與在同等級桌機上執行 ollama 差不多。

至於「AI 加速卡」，我猜它的記憶體不足以應付這類任務，但還是讓 QNAP 來說明/覆蓋這種使用情境會比較好。

補充說明，你也可以在 RAG 搜尋功能中使用線上 LLMs，但這樣 NAS 會將資料傳送到 Gemini、ChatGPT 等，而不是完全在本地端執行。不需要 GPU，因為所有運算都在這些雲端供應商的資料中心完成。

希望這些資訊對你有幫助。

NA9D · 2025年12月09日17:58

啊哈。好的。這裡記憶體可能是主要的問題。我同意加速器大概沒有那麼多記憶體。

我不會放棄我的 10 Gbit 光纖，然後在我的 TS-873A 裝上一張可能跟這個不太搭的 GPU。這不值得。

而且我真的不想把我的搜尋發到外網。我直接去那些網站就可以了……

Vivian · 2025年12月12日07:23

感謝您對 Qsirch RAG 搜尋的關注。

目前，如果您想要在本地端運行 Qsirch 搭配本地 LLM（大型語言模型）與 RAG 搜尋，確實需要 NVIDIA GPU。主要原因是本地 LLM 需要相當多的 GPU 記憶體才能正常運作，而 AI Accelerator 目前還無法勝任這項需求。

我們了解您對資料隱私的重視，並且希望將資料保留在本地，這完全可以理解。
不過，如果您願意先嘗試以雲端 LLM 進行 RAG 搜尋作為評估，這會是一個很好的方式，能讓您更清楚了解 RAG 在 Qsirch 中的運作方式，以及如何設定支援 OpenAI 的 API。

您也可以先從小型或非敏感的資料集開始，只是為了先熟悉整個流程，之後再決定是否需要在本地端搭配 GPU 完整運行以符合您的需求。

NA9D · 2025年12月12日14:36

謝謝你，Vivian。我其實並不需要大型語言模型（LLM）的搜尋功能，這主要是想實驗一下NAS的功能。