當企業決定要做「內部知識庫 RAG」——讓員工用自然語言問合約、SOP、產品手冊、客訴紀錄,由 AI 檢索後生成答案——真正的難題從來不是要不要做,而是放在哪裡、誰來維護、三年要花多少錢。2026 年,這個決策大致收斂成三條路:自己拼一套開源 RAG stack(純自建)、買軟硬整合的地端主機(以 MAQ Atlas 為例)、或直接訂閱雲端 RAG SaaS。三者在資料主權、導入時間與總持有成本(TCO)上的差異,比表面月費大得多。
這篇評比用 2026 年實際查證的硬體價格、VRAM 數據與雲端 API 計費,把三條路攤開來比,目標是讓你讀完就能在會議上拍板。
先講結論:三條路各自適合誰
沒有最好的方案,只有最符合你「資料敏感度 × 團隊能量 × 三年預算」的方案。資料越敏感、團隊越不想養 MLOps,地端軟硬整合的相對優勢就越大。
- 純自建(開源 RAG stack):適合已有 AI/MLOps 團隊、想完全掌控每一層、且把工程人力視為既有成本的科技公司或研究室。
- MAQ Atlas(軟硬一次到位、地端):適合要求資料不出區網、但不想(或無法)養一整組 MLOps 的企業、醫院、事務所、製造業與政府單位。
- 雲端 SaaS:適合資料敏感度低、需求變動大、想快速試水溫、且能接受資料外送與長期月費的團隊。
關鍵一:資料主權,決定你能不能上線
對許多產業,這一項不是「加分題」而是「及格線」。醫療病歷、法律卷證、研發配方、客戶個資、財務報表——只要外送到第三方雲端,就可能踩到個資法、營業秘密、合約保密條款,甚至客戶的稽核要求。
雲端 SaaS:資料外送是預設值
主流 RAG SaaS 與雲端大模型 API(OpenAI、各家託管平台)本質上都是把你的文件切塊、做 embedding、送進對方的向量庫與模型推論。即使供應商提供多區資料落地(美國/歐洲/英國/日本)與 DPA 合約條款,資料的物理位置與處理權仍在對方手上。對受監理產業,這往往需要法遵與資安團隊額外背書,導入前的合約與稽核成本不可忽視。
純自建:主權可控,但責任全包
自建天然解決外送問題——所有資料都在你機房。但「資料主權」不等於「資料安全」:權限控管、稽核軌跡、向量庫的存取隔離、模型不洩漏訓練資料,每一項都要你自己設計與維護。主權拿回來了,整套資安責任也全包了。
地端軟硬整合:主權 + 內建治理
MAQ Atlas 走的是地端路線,資料 100% 留地端、不出區網,並把 RAG、知識圖譜、AI 助理與權限稽核整合進同一台主機。差別在於:自建是你從零搭治理層,Atlas 是出廠就帶權限與稽核機制。對「要主權、又不想自己造輪子」的企業,這是關鍵分水嶺。
關鍵二:導入時間,從採購到員工真的會用
很多評估只比「裝起來要多久」,卻忽略了「裝到能用、能維運、能擴充」的完整時程。
| 階段 | 純自建 | MAQ Atlas(地端) | 雲端 SaaS |
|---|---|---|---|
| 硬體採購 / 開通 | 數週~數月(高階 GPU 缺貨、配機驗機) | 下單後親送驗機(含外島) | 當天開通 |
| RAG stack 組裝 | 自選向量庫+embedding+推論引擎+編排,逐一整合除錯 | 出廠預裝(Ollama/vLLM/n8n/LangGraph/CrewAI 等) | 平台已備好 |
| 模型部署 / 調校 | 自己選模型、量化、測 VRAM 與吞吐 | 預載 gpt-oss-120B,實測 161 tok/s、8 人並行 | 呼叫 API 即可 |
| 權限 / 稽核 / 資安 | 自行設計實作 | 內建權限稽核+地端資安 | 平台提供(資料外送) |
| 典型上線時程 | 數月起跳 | 數天~數週 | 數天 |
純自建最大的隱形成本就在「整合」這一格。2026 年開源 RAG 生態非常成熟——向量庫有 Milvus、Qdrant、Weaviate,推論有 vLLM、Ollama、llama.cpp,編排有 LangGraph、CrewAI——但成熟的零件不等於成熟的系統。把這些接起來、調好量化與 KV cache、壓出穩定吞吐、再加上權限稽核,對沒有專職團隊的企業,數月是常態。
關鍵三:硬體與 VRAM,地端方案的硬底氣
地端 RAG 的核心是「一張卡的 VRAM 能不能裝下你要的模型」。這裡用 2026 實證數據對齊,避免被行銷話術帶偏(以下為保守、標量化前提):
- Llama 3.3 70B(Q4_K_M 4-bit):約 39–43GB → 單卡 48GB 可跑。
- 72B Q4:約 47GB,逼近 48GB 上限,要留 KV cache 餘裕。
- gpt-oss-120b(MXFP4):約 60–61GB → 單卡 96GB 可單卡載。MXFP4 原生加速是 NVIDIA Blackwell(非 AMD)。
- 全精度 70B FP16:約 140GB → 需多卡並聯(例如 WRX90 平台)。
- QLoRA 微調 70B:約 46–48GB;標準 LoRA 70B(16-bit)則暴增到約 200GB 以上——光基礎權重 FP16 就約 140GB,再加梯度、優化器狀態與激活,實務上通常要 4 張以上 80GB GPU 並聯,並非單機能撐。
- 影像:Flux.1 dev fp8 約 17GB/fp16 約 24GB;SDXL fp16 約 6–10GB(含工作記憶體餘裕)。
對應到硬體選型,這直接決定你要哪一級的卡。RTX PRO 6000 Blackwell 96GB 在 2026 年因供給吃緊,街價約在 US$8,000–9,200 之間波動,NVIDIA 官方 Marketplace 牌價甚至一度標到 US$13,250——這正是自建者「自己買卡配機」時最容易踩到的不確定因素:交期與報價都不在你掌握。
MAQ 機型怎麼對應你的 RAG 規模
- 跑 70B 等級 內部知識庫:看 AI-High(RTX PRO 5000 48GB/Threadripper 9960X/128GB ECC,NT$567,000)。
- 要 單卡載 gpt-oss-120B、多人並行的旗艦:AI-Highend(RTX PRO 6000 96GB Blackwell/9975WX 32核/256GB ECC,NT$1,145,000),與 Atlas 同級硬體。
- 要 多卡並聯 跑全精度或更大模型:AMD-WRX90(96核 9995WX/WRX90 原生 4–7 卡並聯,NT$1,410,000)。
- 預算型試點:AI-Eco(RTX PRO 4000 24GB,NT$185,000) 或 AI-Medium(Radeon AI PRO R9700 32GB,預載 gpt-oss-20b,NT$155,000)。
不確定卡怎麼選,可先看 AI 硬體選購指南 或 AI 主機系列。
關鍵四:三年 TCO,月費背後的真實帳
這是最容易被低估的一格。SaaS 月費看起來小,但會用越多、付越多,且永遠在付;地端是前期資本支出,但攤平後邊際成本趨近於零。
雲端 SaaS 的累積成本
以 2026 行情,雲端大模型 API(如 GPT-4o,現已屬上一代,後繼為 GPT-5 系列、現任旗艦 GPT-5.5)約為輸入 US$2.50/百萬 token、輸出 US$10.00/百萬 token;RAG SaaS 平台的持續營運費用視查詢量落在每月 US$500–5,000區間。一個中型團隊重度使用,三年累積輕鬆突破數萬美元,且這筆錢買不到任何資產——停付即停用。
純自建的隱形人力成本
自建的硬體可能比 SaaS 划算,但真正的大頭是人。2026 年台灣 AI 工程師年薪中位數約 NT$114 萬,具 MLOps/RAG 維運能力者再加價。一套自建 RAG 要持續維護向量庫、模型更新、權限稽核、效能調校——這往往不是 0.5 個人力能撐住的。把人力折進去,自建的三年 TCO 經常不比想像中低。
地端軟硬整合的 TCO 結構
Atlas 這類方案把成本壓在「一次資本支出 + 三年硬體保固 + 技術支援」,沒有按 token 計費、沒有月費吃到飽的恐懼。員工用得越多,單次成本越低。對使用量會成長的內部知識庫,這個結構長期最穩。
| 面向 | 純自建 | MAQ Atlas(地端) | 雲端 SaaS |
|---|---|---|---|
| 資料主權 | 高(責任自負) | 高(資料不出區網+內建稽核) | 低(資料外送第三方) |
| 導入時間 | 數月起 | 數天~數週 | 數天 |
| 維運負擔 | 重(需 MLOps 團隊) | 輕(含保固+到府/遠端支援) | 輕(平台代管) |
| 成本結構 | 資本支出+高人力 | 資本支出+保固,邊際成本趨零 | 持續月費+按量計費 |
| 用量越大 | 邊際成本低 | 邊際成本趨零 | 成本線性上升 |
| 最適對象 | 有 AI 團隊的科技公司/研究室 | 要主權又不想養團隊的企業 | 低敏感度、需求多變的試點 |
那麼,MAQ Atlas 補的是哪一塊?
把上面四個關鍵串起來:純自建給你最大主權,代價是時間與人力;雲端 SaaS 給你最快上線,代價是資料外送與長期月費。中間那塊「要地端主權、要快上線、又不想養 MLOps」的需求,正是 MAQ Atlas 設計的位置。
Atlas 是企業地端 RAG 知識主機,把四件事整合進一台:RAG 檢索、知識圖譜、AI 助理、權限稽核。硬體跑 RTX PRO 6000 96GB,單卡載 gpt-oss-120B、實測 161 tok/s、支援 8 人並行、資料不出區網。出廠就預裝 Ollama/ComfyUI/CUDA/Docker/vLLM/MLX/n8n/LangGraph/CrewAI——也就是說,你自建時要逐一整合除錯的那整套 stack,這裡是開機即用。
服務面同樣是為「不想自己扛」設計:工程師全台(含外島)親送驗機、三年硬體保固、簽約戶備機、Proxmox VE 虛擬化、遠端+到府技術支援。等於把純自建最痛的「整合 + 維運 + 資安」三件事一次外包,但資料仍 100% 留在你機房。
如果你還在猶豫
- 資料敏感、且使用量會長期成長 → 地端(Atlas 或自建)幾乎一定比 SaaS 划算,差別只在你要不要自己組。
- 有現成 AI 團隊、想掌控每一層 → 純自建合理,建議從 硬體選購指南 對齊 VRAM 需求開始選卡。
- 要主權、要快、不想養人 → 直接看 MAQ Atlas 的軟硬整合方案。
三條路沒有對錯,只有合不合。把你的資料敏感度、團隊能量、三年預算三個變數填進上面的對照表,答案通常會自己浮現。