採購評比

2026 LLM GPU 選購評比:跑 Llama 3.3 70B/gpt-oss-120b 要買幾張卡?

2026-06-11 | 約 9 分鐘 | MAQ 技術團隊

「我想在公司內部跑 Llama 3.3 70B,或是 OpenAI 開源的 gpt-oss-120b,到底要買幾張卡、買哪一張?」這是 2026 年企業導入地端 LLM 時最常見、也最容易買錯的問題。買太小,模型載不進去;買太大,預算燒在用不到的算力上。本文用已驗證的量化 VRAM 數據,把 NVIDIA RTX PRO 6000 96GB、RTX PRO 5000 48GB、GeForce RTX 5090 32GB,以及 AMD WRX90 多卡平台一字排開,告訴你各跑得動哪些模型、量化的前提、什麼時候該上多卡,以及性價比怎麼算。

先講結論:VRAM 才是真正的門檻

選 LLM 推論硬體,第一個、也是唯一的硬約束就是 VRAM 夠不夠把模型載進去。算力決定你跑多快,但 VRAM 決定你「跑不跑得起來」。同一個 70B 模型,用不同精度(量化)載入,記憶體需求可以差到三倍以上,這也是為什麼很多人比較參數量卻買錯卡。

下面是 MAQ 工程團隊實測整理、保守標註量化前提的對照數據,這張表是整篇文章的地基:

模型 / 任務精度(量化)權重 VRAM最低可行卡
Llama 3.3 70B 推論4-bit(Q4_K_M)約 43 GB單卡 48 GB
72B 級模型推論4-bit(Q4)約 47 GB單卡 48 GB(逼近上限)
gpt-oss-120b 推論MXFP4(原生)約 60 GB單卡 96 GB
Llama 3.3 70B 全精度FP16約 140 GB多卡(WRX90)
QLoRA 微調 70B4-bit 基底約 46–48 GB單卡 48 GB
標準 LoRA 微調 70BFP16 基底約 160 GB多卡(WRX90)
Flux.1 dev 影像生成fp8 / fp16約 17 / 24 GB單卡 24–32 GB
SDXL 影像生成fp16約 8–12 GB單卡 24 GB

看懂這張表,後面的選卡邏輯就只是「對號入座」。要特別提醒一個 2026 年的關鍵細節:gpt-oss-120b 用的 MXFP4 量化,在工作站與消費級 GPU 中,原生硬體加速目前只有 NVIDIA Blackwell 架構支援(RTX PRO 6000、PRO 5000、5090 都是 Blackwell);資料中心級則 AMD Instinct MI350/MI355X 也具備原生 MXFP4 加速。但 MAQ 這個級距常見對比的 AMD 消費級/工作站卡(Radeon、R9700 等)目前走軟體模擬路線,吞吐量會打折。這點直接決定了工作站等級的 120b 部署選 NVIDIA Blackwell。

四張卡的定位:從 32GB 到多卡 96GB×N

RTX 5090 32GB — 影像生成與中小模型的性價比甜蜜點

RTX 5090 是 Blackwell 架構的消費級旗艦,32GB GDDR7。它的算力極強,但 32GB 的 VRAM 註定它跑不動 70B——Q4 量化的 70B 權重就要 43GB,超過上限。5090 真正的主場是:

  • 影像 / 影片生成:Flux.1 dev(fp16 約 24GB)、SDXL(fp16 約 8–12GB)都在它射程內,跑 ComfyUI 非常順。
  • 30B 以下文字模型:Qwen3 32B、Gemma 3 27B、gpt-oss-20b 量化後都能舒服運作,做 RAG、客服、文件摘要綽綽有餘。

2026 年受記憶體缺貨影響,5090 的市場價格被推到遠高於建議售價的水位(國際零售普遍落在 4,000 美元以上)。它是「算力換 VRAM」的代表:你買到頂級算力,但要清楚 32GB 的天花板。MAQ 對應的整機是 AI-TOP-Z890-RTX5090(RTX 5090 32GB|Core Ultra 9 24 核|128GB|NT$269,000)。

RTX PRO 5000 48GB — 跑 70B 的入場券

這是整個評比的分水嶺。48GB 是「單卡跑 70B」的最低門檻:Llama 3.3 70B 在 Q4_K_M 下約 43GB,剛好塞得進 48GB 並留出 KV cache 與運行緩衝的空間。PRO 5000 Blackwell 提供 48GB GDDR7 ECC、14,080 CUDA 核心,是企業級穩定運作的設計(ECC 記憶體對長時間推論很重要)。

想單卡跑 Llama 3.3 70B,48GB 不是「建議」,而是「最低」。低於這個數字,你就被迫多卡或更激進的量化,兩者都有代價。

值得注意的是 72B 級模型在 Q4 下約 47GB,已經逼近 48GB 上限——能跑,但 context 拉長時餘裕很小。如果你的主力是 70B 且追求單卡簡潔、不想處理多卡複雜度,PRO 5000 48GB 是最務實的選擇。MAQ 對應機型為 AI-High(RTX PRO 5000 48GB|Threadripper 9960X 24 核|128GB ECC,定位就是跑 70B|NT$567,000)。

RTX PRO 6000 96GB — 單卡通吃 120b 的天花板

RTX PRO 6000 Blackwell 是目前市場上唯一一張 96GB VRAM 的工作站卡(24,064 CUDA 核心、512-bit、約 1,792 GB/s 頻寬)。96GB 的意義在於它把一整類模型從「多卡才跑得動」拉回「單卡就搞定」:

  • gpt-oss-120b:MXFP4 約 60GB 權重,96GB 單卡輕鬆容納,還能留大量空間給 KV cache 與長 context。Blackwell 原生 MXFP4 加速讓它跑得又快又穩。
  • 70B FP8 / 高品質推論:精度比 Q4 更高,單卡也能服務。
  • 多人並行:MAQ Atlas 知識主機正是用單張 PRO 6000 96GB 載入 gpt-oss-120b,實測 161 tok/s、8 人同時並行,資料完全不出區網。

因為它是唯一的 96GB 工作站卡,2026 年價格居高不下(國際零售約 8,000–9,000 美元起,官方通路更高)。但「一張卡解決 120b」帶來的整機簡潔度、功耗、機架空間與維運成本優勢,往往比卡價本身更值錢。MAQ 對應機型 AI-Highend(RTX PRO 6000 96GB|Threadripper PRO 9975WX 32 核|256GB ECC|出廠預載 gpt-oss-120b|NT$1,145,000)。

WRX90 多卡平台 — FP16 全精度與大規模微調的唯一解

什麼時候連 96GB 都不夠?答案是全精度(FP16)與標準 LoRA 微調

  • Llama 3.3 70B 在 FP16 全精度約 140GB,單卡 96GB 裝不下。
  • 標準 LoRA 微調 70B 約 160GB,更是遠超單卡。

這時你需要的是平台級的多卡並聯。AMD WRX90 是少數能原生支援 4–7 張 GPU 並聯的工作站平台,搭配 96 核 Threadripper PRO 9995WX,提供足夠的 PCIe 通道把多張 RTX PRO 6000 串起來,用張量/管線並行把 140–160GB 的記憶體需求攤到多張卡上。MAQ 對應機型 AMD-WRX90(96 核 9995WX|RTX PRO 6000 96GB|256GB ECC|WRX90 原生 4–7 卡並聯|NT$1,410,000)。需要 FP16 全精度服務、或要做大模型微調訓練的研究室與企業,這是唯一不妥協的路線。

單卡 vs 多卡:什麼時候該跨過那條線?

多卡不是越多越好。跨卡通訊(即使 PCIe Gen5 也比不上 SXM 的 NVLink)會帶來延遲與工程複雜度,能單卡解決就單卡。判斷準則很簡單:

  • 能用量化 + 單卡裝下 → 一律單卡。70B Q4 上 48GB、120b MXFP4 上 96GB,都該單卡,維運最省心。
  • 要 FP16 全精度、或標準 LoRA 訓練 → 必須多卡。140–160GB 的需求沒有單卡能滿足,WRX90 平台是正解。
  • 要服務大量並行使用者、追求高吞吐 → 考慮多卡。即使模型裝得下,多卡也能用張量並行提升整體 token/s。

性價比怎麼算:地端一次投資 vs 雲端 API 持續計費

很多人用「卡很貴」否定地端,但這忽略了雲端 API 是持續性費用。以 2026 年行情,Llama 3.3 70B 的 API 約落在每百萬 token 0.35–0.90 美元(輸入/輸出),gpt-oss-120b 因為是開源 MoE 架構更便宜(部分供應商輸入低至約 0.04、輸出約 0.10–0.19 美元)。看起來很省,但真正的成本來自三件事:

  • 用量規模化後費用線性成長:團隊每天幾千萬 token 的 RAG/Agent 工作流,月費很快堆到六位數新台幣,且永遠停不下來。
  • 資料合規與外洩風險:把客戶資料、病歷、法務文件、研發機密送進雲端 API,在許多產業是合規紅線。
  • 延遲與可用性受制於人:尖峰排隊、供應商調價、模型下架,你都無法掌控。

地端反過來是一次性資本支出 + 可控的電費,模型與資料 100% 留在自己機房。一台 AI-High(NT$567,000)相當於企業在雲端 API 上跑一兩年的累積帳單,但之後算力是你的、資料是你的、模型版本是你的。對高用量、重隱私的場景,地端的 TCO(總持有成本)通常在 12–24 個月內就反超雲端。

企業採購對照表:照著選就對了

你的主力需求建議卡 / 平台MAQ 機型參考價(NT$)
影像生成 / 30B 以下模型RTX 5090 32GBAI-TOP-Z890-RTX5090269,000
ComfyUI 影像產線(預載)RTX PRO 4500 32GBStable-Diffusion-Highend277,000
單卡跑 Llama 3.3 70B(Q4)RTX PRO 5000 48GBAI-High567,000
單卡跑 gpt-oss-120b(MXFP4)RTX PRO 6000 96GBAI-Highend1,145,000
地端 RAG 知識主機(8 人並行)RTX PRO 6000 96GBMAQ Atlas洽詢
FP16 全精度 / 70B 微調訓練WRX90 多卡並聯AMD-WRX901,410,000
輕量入門 / 24GB 起步RTX PRO 4000 24GBAI-Eco185,000
AI Agent 工作流(n8n/LangGraph)內顯 + 32GBAI-Agent-Medium53,000

不只是賣卡:整機調校與在地服務

自己採購裸卡再組裝,最大的隱形成本是軟體棧的整合與調校。MAQ 的每一台機器出廠就預裝 Ollama、vLLM、ComfyUI、CUDA、Docker、MLX、n8n、LangGraph、CrewAI,你開機就能 ollama run llama3.3 直接推論,不用花一週搞驅動與量化框架。再加上工程師全台(含外島)親送驗機、三年硬體保固、簽約戶備機、Proxmox VE 虛擬化、遠端+到府技術支援,以及資料 100% 留地端的資安設計——這些才是把一張 GPU 變成「能上線生產的 AI 系統」的關鍵。

如果你還在「Llama 3.3 70B 要買幾張卡」這一題上猶豫,記住三個數字就夠了:70B 走 Q4 上 48GB、120b 走 MXFP4 上 96GB、要 FP16 全精度才上多卡 WRX90。剩下的整合與調校,交給 MAQ。想看完整選型邏輯,也可以參考我們的 AI 硬體選購指南,或直接瀏覽 AI 工作站全系列MAQ Atlas 知識主機AMD 多卡平台

常見問題

跑 Llama 3.3 70B 最少要買幾張 GPU?

單卡就夠,但 VRAM 必須至少 48GB。Llama 3.3 70B 在 4-bit(Q4_K_M)量化下權重約 43GB,搭配一張 RTX PRO 5000 48GB(如 MAQ AI-High)即可單卡運作。只有要跑 FP16 全精度(約 140GB)或做標準 LoRA 微調(約 160GB)時,才需要 WRX90 多卡平台。

gpt-oss-120b 用一張卡跑得動嗎?要什麼卡?

可以。gpt-oss-120b 在 MXFP4 量化下權重約 60GB,單張 RTX PRO 6000 96GB 即可容納並留有充足 KV cache 空間。關鍵是在工作站/消費級 GPU 中,MXFP4 的原生硬體加速目前只有 NVIDIA Blackwell 架構支援(資料中心級則 AMD Instinct MI350/MI355X 也支援),所以工作站部署建議選 Blackwell 卡(如 MAQ AI-Highend,出廠預載 gpt-oss-120b)。

RTX 5090 32GB 能跑 70B 模型嗎?

不能。即使是最省的 Q4 量化,70B 權重也要約 43GB,超過 5090 的 32GB 上限。RTX 5090 適合影像生成(Flux.1、SDXL)與 30B 以下的文字模型,是性價比很高的中小模型與創作機型,但跑 70B 必須升級到 48GB 以上的卡。

地端買 GPU 跟用雲端 API 哪個划算?

看用量與隱私需求。雲端 API 是持續性費用,高用量團隊月費很快堆到六位數新台幣且永不停止;地端是一次性投資加可控電費,資料 100% 留機房。對高用量、重隱私的企業,地端的總持有成本通常在 12–24 個月內反超雲端,同時解決合規與資料外洩風險。

RTX PRO 6000 96GB 跟 WRX90 多卡,我該選哪個?

看你要不要全精度。若用量化(120b MXFP4、70B Q4/FP8)能單卡裝下,就選 RTX PRO 6000 96GB,維運最簡單。若需要 FP16 全精度服務(70B 約 140GB)或做大模型微調訓練(約 160GB),單卡裝不下,必須用 WRX90 原生 4–7 卡並聯平台(MAQ AMD-WRX90)。

不想自己算 VRAM?讓 MAQ 幫你配到位

從 Llama 3.3 70B 到 gpt-oss-120b,MAQ 已把卡、平台與軟體棧整機調校好,工程師全台親送驗機、三年保固。