「我想在公司內部跑 Llama 3.3 70B,或是 OpenAI 開源的 gpt-oss-120b,到底要買幾張卡、買哪一張?」這是 2026 年企業導入地端 LLM 時最常見、也最容易買錯的問題。買太小,模型載不進去;買太大,預算燒在用不到的算力上。本文用已驗證的量化 VRAM 數據,把 NVIDIA RTX PRO 6000 96GB、RTX PRO 5000 48GB、GeForce RTX 5090 32GB,以及 AMD WRX90 多卡平台一字排開,告訴你各跑得動哪些模型、量化的前提、什麼時候該上多卡,以及性價比怎麼算。
先講結論:VRAM 才是真正的門檻
選 LLM 推論硬體,第一個、也是唯一的硬約束就是 VRAM 夠不夠把模型載進去。算力決定你跑多快,但 VRAM 決定你「跑不跑得起來」。同一個 70B 模型,用不同精度(量化)載入,記憶體需求可以差到三倍以上,這也是為什麼很多人比較參數量卻買錯卡。
下面是 MAQ 工程團隊實測整理、保守標註量化前提的對照數據,這張表是整篇文章的地基:
| 模型 / 任務 | 精度(量化) | 權重 VRAM | 最低可行卡 |
|---|---|---|---|
| Llama 3.3 70B 推論 | 4-bit(Q4_K_M) | 約 43 GB | 單卡 48 GB |
| 72B 級模型推論 | 4-bit(Q4) | 約 47 GB | 單卡 48 GB(逼近上限) |
| gpt-oss-120b 推論 | MXFP4(原生) | 約 60 GB | 單卡 96 GB |
| Llama 3.3 70B 全精度 | FP16 | 約 140 GB | 多卡(WRX90) |
| QLoRA 微調 70B | 4-bit 基底 | 約 46–48 GB | 單卡 48 GB |
| 標準 LoRA 微調 70B | FP16 基底 | 約 160 GB | 多卡(WRX90) |
| Flux.1 dev 影像生成 | fp8 / fp16 | 約 17 / 24 GB | 單卡 24–32 GB |
| SDXL 影像生成 | fp16 | 約 8–12 GB | 單卡 24 GB |
看懂這張表,後面的選卡邏輯就只是「對號入座」。要特別提醒一個 2026 年的關鍵細節:gpt-oss-120b 用的 MXFP4 量化,在工作站與消費級 GPU 中,原生硬體加速目前只有 NVIDIA Blackwell 架構支援(RTX PRO 6000、PRO 5000、5090 都是 Blackwell);資料中心級則 AMD Instinct MI350/MI355X 也具備原生 MXFP4 加速。但 MAQ 這個級距常見對比的 AMD 消費級/工作站卡(Radeon、R9700 等)目前走軟體模擬路線,吞吐量會打折。這點直接決定了工作站等級的 120b 部署選 NVIDIA Blackwell。
四張卡的定位:從 32GB 到多卡 96GB×N
RTX 5090 32GB — 影像生成與中小模型的性價比甜蜜點
RTX 5090 是 Blackwell 架構的消費級旗艦,32GB GDDR7。它的算力極強,但 32GB 的 VRAM 註定它跑不動 70B——Q4 量化的 70B 權重就要 43GB,超過上限。5090 真正的主場是:
- 影像 / 影片生成:Flux.1 dev(fp16 約 24GB)、SDXL(fp16 約 8–12GB)都在它射程內,跑 ComfyUI 非常順。
- 30B 以下文字模型:Qwen3 32B、Gemma 3 27B、gpt-oss-20b 量化後都能舒服運作,做 RAG、客服、文件摘要綽綽有餘。
2026 年受記憶體缺貨影響,5090 的市場價格被推到遠高於建議售價的水位(國際零售普遍落在 4,000 美元以上)。它是「算力換 VRAM」的代表:你買到頂級算力,但要清楚 32GB 的天花板。MAQ 對應的整機是 AI-TOP-Z890-RTX5090(RTX 5090 32GB|Core Ultra 9 24 核|128GB|NT$269,000)。
RTX PRO 5000 48GB — 跑 70B 的入場券
這是整個評比的分水嶺。48GB 是「單卡跑 70B」的最低門檻:Llama 3.3 70B 在 Q4_K_M 下約 43GB,剛好塞得進 48GB 並留出 KV cache 與運行緩衝的空間。PRO 5000 Blackwell 提供 48GB GDDR7 ECC、14,080 CUDA 核心,是企業級穩定運作的設計(ECC 記憶體對長時間推論很重要)。
想單卡跑 Llama 3.3 70B,48GB 不是「建議」,而是「最低」。低於這個數字,你就被迫多卡或更激進的量化,兩者都有代價。
值得注意的是 72B 級模型在 Q4 下約 47GB,已經逼近 48GB 上限——能跑,但 context 拉長時餘裕很小。如果你的主力是 70B 且追求單卡簡潔、不想處理多卡複雜度,PRO 5000 48GB 是最務實的選擇。MAQ 對應機型為 AI-High(RTX PRO 5000 48GB|Threadripper 9960X 24 核|128GB ECC,定位就是跑 70B|NT$567,000)。
RTX PRO 6000 96GB — 單卡通吃 120b 的天花板
RTX PRO 6000 Blackwell 是目前市場上唯一一張 96GB VRAM 的工作站卡(24,064 CUDA 核心、512-bit、約 1,792 GB/s 頻寬)。96GB 的意義在於它把一整類模型從「多卡才跑得動」拉回「單卡就搞定」:
- gpt-oss-120b:MXFP4 約 60GB 權重,96GB 單卡輕鬆容納,還能留大量空間給 KV cache 與長 context。Blackwell 原生 MXFP4 加速讓它跑得又快又穩。
- 70B FP8 / 高品質推論:精度比 Q4 更高,單卡也能服務。
- 多人並行:MAQ Atlas 知識主機正是用單張 PRO 6000 96GB 載入 gpt-oss-120b,實測 161 tok/s、8 人同時並行,資料完全不出區網。
因為它是唯一的 96GB 工作站卡,2026 年價格居高不下(國際零售約 8,000–9,000 美元起,官方通路更高)。但「一張卡解決 120b」帶來的整機簡潔度、功耗、機架空間與維運成本優勢,往往比卡價本身更值錢。MAQ 對應機型 AI-Highend(RTX PRO 6000 96GB|Threadripper PRO 9975WX 32 核|256GB ECC|出廠預載 gpt-oss-120b|NT$1,145,000)。
WRX90 多卡平台 — FP16 全精度與大規模微調的唯一解
什麼時候連 96GB 都不夠?答案是全精度(FP16)與標準 LoRA 微調:
- Llama 3.3 70B 在 FP16 全精度約 140GB,單卡 96GB 裝不下。
- 標準 LoRA 微調 70B 約 160GB,更是遠超單卡。
這時你需要的是平台級的多卡並聯。AMD WRX90 是少數能原生支援 4–7 張 GPU 並聯的工作站平台,搭配 96 核 Threadripper PRO 9995WX,提供足夠的 PCIe 通道把多張 RTX PRO 6000 串起來,用張量/管線並行把 140–160GB 的記憶體需求攤到多張卡上。MAQ 對應機型 AMD-WRX90(96 核 9995WX|RTX PRO 6000 96GB|256GB ECC|WRX90 原生 4–7 卡並聯|NT$1,410,000)。需要 FP16 全精度服務、或要做大模型微調訓練的研究室與企業,這是唯一不妥協的路線。
單卡 vs 多卡:什麼時候該跨過那條線?
多卡不是越多越好。跨卡通訊(即使 PCIe Gen5 也比不上 SXM 的 NVLink)會帶來延遲與工程複雜度,能單卡解決就單卡。判斷準則很簡單:
- 能用量化 + 單卡裝下 → 一律單卡。70B Q4 上 48GB、120b MXFP4 上 96GB,都該單卡,維運最省心。
- 要 FP16 全精度、或標準 LoRA 訓練 → 必須多卡。140–160GB 的需求沒有單卡能滿足,WRX90 平台是正解。
- 要服務大量並行使用者、追求高吞吐 → 考慮多卡。即使模型裝得下,多卡也能用張量並行提升整體 token/s。
性價比怎麼算:地端一次投資 vs 雲端 API 持續計費
很多人用「卡很貴」否定地端,但這忽略了雲端 API 是持續性費用。以 2026 年行情,Llama 3.3 70B 的 API 約落在每百萬 token 0.35–0.90 美元(輸入/輸出),gpt-oss-120b 因為是開源 MoE 架構更便宜(部分供應商輸入低至約 0.04、輸出約 0.10–0.19 美元)。看起來很省,但真正的成本來自三件事:
- 用量規模化後費用線性成長:團隊每天幾千萬 token 的 RAG/Agent 工作流,月費很快堆到六位數新台幣,且永遠停不下來。
- 資料合規與外洩風險:把客戶資料、病歷、法務文件、研發機密送進雲端 API,在許多產業是合規紅線。
- 延遲與可用性受制於人:尖峰排隊、供應商調價、模型下架,你都無法掌控。
地端反過來是一次性資本支出 + 可控的電費,模型與資料 100% 留在自己機房。一台 AI-High(NT$567,000)相當於企業在雲端 API 上跑一兩年的累積帳單,但之後算力是你的、資料是你的、模型版本是你的。對高用量、重隱私的場景,地端的 TCO(總持有成本)通常在 12–24 個月內就反超雲端。
企業採購對照表:照著選就對了
| 你的主力需求 | 建議卡 / 平台 | MAQ 機型 | 參考價(NT$) |
|---|---|---|---|
| 影像生成 / 30B 以下模型 | RTX 5090 32GB | AI-TOP-Z890-RTX5090 | 269,000 |
| ComfyUI 影像產線(預載) | RTX PRO 4500 32GB | Stable-Diffusion-Highend | 277,000 |
| 單卡跑 Llama 3.3 70B(Q4) | RTX PRO 5000 48GB | AI-High | 567,000 |
| 單卡跑 gpt-oss-120b(MXFP4) | RTX PRO 6000 96GB | AI-Highend | 1,145,000 |
| 地端 RAG 知識主機(8 人並行) | RTX PRO 6000 96GB | MAQ Atlas | 洽詢 |
| FP16 全精度 / 70B 微調訓練 | WRX90 多卡並聯 | AMD-WRX90 | 1,410,000 |
| 輕量入門 / 24GB 起步 | RTX PRO 4000 24GB | AI-Eco | 185,000 |
| AI Agent 工作流(n8n/LangGraph) | 內顯 + 32GB | AI-Agent-Medium | 53,000 |
不只是賣卡:整機調校與在地服務
自己採購裸卡再組裝,最大的隱形成本是軟體棧的整合與調校。MAQ 的每一台機器出廠就預裝 Ollama、vLLM、ComfyUI、CUDA、Docker、MLX、n8n、LangGraph、CrewAI,你開機就能 ollama run llama3.3 直接推論,不用花一週搞驅動與量化框架。再加上工程師全台(含外島)親送驗機、三年硬體保固、簽約戶備機、Proxmox VE 虛擬化、遠端+到府技術支援,以及資料 100% 留地端的資安設計——這些才是把一張 GPU 變成「能上線生產的 AI 系統」的關鍵。
如果你還在「Llama 3.3 70B 要買幾張卡」這一題上猶豫,記住三個數字就夠了:70B 走 Q4 上 48GB、120b 走 MXFP4 上 96GB、要 FP16 全精度才上多卡 WRX90。剩下的整合與調校,交給 MAQ。想看完整選型邏輯,也可以參考我們的 AI 硬體選購指南,或直接瀏覽 AI 工作站全系列、MAQ Atlas 知識主機與 AMD 多卡平台。