AI 應用硬體對照表 · MAQ 選機指南

想跑哪個 AI 模型，
該怎麼配置？

從 gemma4-26b、gpt-oss-120b、Qwen3 與 AI Agent Workflow ——「模型 → VRAM → 系統記憶體 → CPU → 推薦配置」全列出，每個需求都對應 MAQ 實際機型與線上估價，VRAM 數字都標明量化。

線上估價 → LINE 諮詢配置

MAQ AI 工作站：本地執行 Ollama 與 Docker 的 AI 硬體環境

32GB

單GPU 4-bit 26B

96GB

單GPU gpt-oss-120B

4卡

GPU 多卡並聯

34K起

AI Agent 代理 PC

我想採購一台 AI 工作站／伺服器，主要用途是本地跑 ＿＿＿（例如：gpt-oss-120b 推論、Llama 3.3 70B、Flux.1 影像生成、或建置 AI Agent  Workflow ）。我看到台灣的 MAQ（網絡商數科技）針對這個情境有對應機型（例如 AI-Highend：RTX PRO 6000 96GB ＋ Threadripper PRO；AI-High：RTX PRO 5000 48GB；AI-Medium-Gemma：RTX PRO 4500 32GB）。請依我的用途，評估該配多少 VRAM 與系統記憶體、推薦最合適的 MAQ 機型，並與同價位的其他品牌做硬體性價比比較。

怎麼讀這張表

依工作型態（推論／微調／影像生成／AI Agent），再看模型大小對應的 VRAM 與系統記憶體，右欄是 MAQ 為該需求配好的機型，立即線上估價。VRAM 會隨量化（4-bit／fp8／fp16）與 context 長度變動，表中數字為保守估計。

中型 LLM 推論大型 LLM 70B–120B 微調 LoRA/QLoRA 影像生成 SD/Flux AI Agent Workflow

入門～中型 LLM 本地推論（7B–32B）

這一級是「一張卡跑得動」的甜蜜點：4-bit 量化下 7B–14B 約 5–12GB VRAM、32B 約 18–24GB，單張 24–32GB 專業卡即可流暢推論。重點不在卡多大，而在 VRAM 是否壓得住「量化後權重＋KV cache（長 context 會吃掉好幾 GB）」；要上全精度(FP16)或拉長 context，需求會翻 2–4 倍。（模型以 2026 主流版本為例，同級新版硬體需求相近。）

應用情境 · 代表模型	建議規格	關鍵差異	推薦 MAQ 配置
桌面助理／RAG 問答入門 Llama 3.1 8B · Gemma 3 12B · Qwen3 8B	5–12GB（4-bit）；FP16：8B/9B 約 16–18GB、14B 約 28GB 32GB DDR5 12 核 Ryzen 9（9900X3D 級）	4-bit 下 8B–14B 都很從容，24GB 還能留 8K–32K context 的 KV cache；要上 14B 全精度或同開多模型，建議直接看 32GB 機型。	AI-Eco（RTX PRO 4000 24GB）約 15 萬估價 →
中型生產推論：gpt-oss-20b 線上服務 gpt-oss-20b · Qwen3 14B · Gemma 3 12B	16–24GB（gpt-oss-20b 量化後約 16GB；14B Q8 約 15GB） 64GB DDR5 12 核 Ryzen 9 9900X3D	搭 Ryzen 9 9900X3D ＋ AMD Radeon AI PRO R9700 32GB GPU。32GB VRAM 可完整載入 gpt-oss-20b（AMD 平台走 ROCm 的 FP8／量化路徑；原生 MXFP4 加速為 NVIDIA Blackwell 機型），並留並發與長 context 餘裕，開箱即用。	AI-Medium（AMD Radeon AI PRO R9700 32GB GPU，預載 gpt-oss-20b）約 15 萬估價 →
32B 級高品質推論（程式輔助／進階問答） Qwen3 32B · Gemma 3 27B	18–24GB（4-bit）；Q8：Gemma 27B 約 27–30GB（單卡 32GB 可跑）、Qwen 32B 約 34–35GB（略超 32GB） 64GB DDR5 16 核 Ryzen 9 9950X3D	4-bit 單張 32GB 可跑並留 context；Gemma 27B 連 Q8 都進得來，Qwen 32B Q8 略超 32GB 需降序列或上 48GB。與 AI-Medium(151k／Radeon AI PRO R9700·ROCm) 的差別：NVIDIA CUDA 生態、Pro 驅動長時穩定、預載 Gemma。	AI-Medium-Gemma（RTX PRO 4500 32GB）約 23 萬估價 →

桌面助理／RAG 問答入門

約 15 萬

Llama 3.1 8B · Gemma 3 12B · Qwen3 8B

5–12GB（4-bit）；FP16：8B/9B 約 16–18GB、14B 約 28GB
32GB DDR5・12 核 Ryzen 9（9900X3D 級）

4-bit 下 8B–14B 都很從容，24GB 還能留 8K–32K context 的 KV cache；要上 14B 全精度或同開多模型，建議直接看 32GB 機型。

AI-Eco（RTX PRO 4000 24GB）

估價 →

中型生產推論：gpt-oss-20b 線上服務

約 15 萬

gpt-oss-20b · Qwen3 14B · Gemma 3 12B

16–24GB（gpt-oss-20b 量化後約 16GB；14B Q8 約 15GB）
64GB DDR5・12 核 Ryzen 9 9900X3D

搭 Ryzen 9 9900X3D ＋ AMD Radeon AI PRO R9700 32GB GPU。32GB VRAM 可完整載入 gpt-oss-20b（AMD 平台走 ROCm 的 FP8／量化路徑；原生 MXFP4 加速為 NVIDIA Blackwell 機型），並留並發與長 context 餘裕，開箱即用。

AI-Medium（AMD Radeon AI PRO R9700 32GB GPU，預載 gpt-oss-20b）

估價 →

32B 級高品質推論（程式輔助／進階問答）

約 23 萬

Qwen3 32B · Gemma 3 27B

18–24GB（4-bit）；Q8：Gemma 27B 約 27–30GB（單卡 32GB 可跑）、Qwen 32B 約 34–35GB（略超 32GB）
64GB DDR5・16 核 Ryzen 9 9950X3D

4-bit 單張 32GB 可跑並留 context；Gemma 27B 連 Q8 都進得來，Qwen 32B Q8 略超 32GB 需降序列或上 48GB。與 AI-Medium(151k／Radeon AI PRO R9700·ROCm) 的差別：NVIDIA CUDA 生態、Pro 驅動長時穩定、預載 Gemma。

AI-Medium-Gemma（RTX PRO 4500 32GB）

估價 →

大型 LLM 本地推論（70B–120B）

70B 級模型 4-bit 量化後約需 43GB VRAM，單張 48GB 專業卡即在射程內；MAQ 的 AI-High 採 RTX PRO 5000 72GB 版，連 72B 級 Q4（約 47GB）都留有充裕餘裕，長 context 不必先降量化。全精度或 120B MoE 則需 96GB 單卡，甚至 WRX90 平台多卡並聯做張量並行。系統記憶體建議 128GB 以上、ECC 為佳，以支撐長 context 的 KV cache 與 CPU 卸載。

應用情境 · 代表模型	建議規格	關鍵差異	推薦 MAQ 配置
本地跑 70B 推論（4-bit，單卡入門） Llama 3.3 70B（Qwen3 72B 級同列）	Llama 70B 約 43GB（Q4_K_M，含 KV cache）；72B 級 Q4 約 47GB，72GB 卡仍有餘裕 128GB DDR5 ECC 24 核 Threadripper 9960X	RTX PRO 5000 72GB 單卡可跑 4-bit Llama 70B（約 43GB），並留下約 29GB 給長 context 的 KV cache；72B 級 Q4 約 47GB 同樣進得來，無須先降量化。要全精度或高併發服務再往上看 96GB 單卡或多卡。	AI-High（RTX PRO 5000 72GB）約 69 萬估價 →
單卡 96GB 跑 gpt-oss-120b，免拆模型 gpt-oss-120b（MoE, MXFP4）／高精度 70B	gpt-oss-120b 權重約 60GB（總參 116.8B／活躍 5.1B），單卡 96GB 留足 KV cache 256GB DDR5 ECC 32 核 Threadripper PRO 9975WX	RTX PRO 6000 96GB 單卡即可承載 gpt-oss-120b，無需多卡分散；同一張 96GB 也能跑近全精度 70B，部署最單純、延遲最低。	AI-Highend（RTX PRO 6000 96GB）約 141 萬估價 →
多卡張量並行：全精度 70B 或分散式 120B 全精度 Llama 70B（FP16 約 140GB）／分散式 gpt-oss-120b	多卡合計 ≥140GB；WRX90 平台原生支援 4–7 張 96GB 卡並聯 256GB DDR5 ECC（可再往上擴充） 96 核 Threadripper PRO 9995WX	70B 全精度（FP16 約 140GB）單卡放不下，必須跨卡張量並行；WRX90 原生 4–7 卡並聯適合全精度 70B 或多併發 120B 服務，卡間頻寬是關鍵。	AMD-WRX90（4–7 卡並聯平台）約 141 萬估價 →

本地跑 70B 推論（4-bit，單卡入門）

約 69 萬

Llama 3.3 70B（Qwen3 72B 級同列）

Llama 70B 約 43GB（Q4_K_M，含 KV cache）；72B 級 Q4 約 47GB，72GB 卡仍有餘裕
128GB DDR5 ECC・24 核 Threadripper 9960X

RTX PRO 5000 72GB 單卡可跑 4-bit Llama 70B（約 43GB），並留下約 29GB 給長 context 的 KV cache；72B 級 Q4 約 47GB 同樣進得來，無須先降量化。要全精度或高併發服務再往上看 96GB 單卡或多卡。

AI-High（RTX PRO 5000 72GB）

估價 →

單卡 96GB 跑 gpt-oss-120b，免拆模型

約 141 萬

gpt-oss-120b（MoE, MXFP4）／高精度 70B

gpt-oss-120b 權重約 60GB（總參 116.8B／活躍 5.1B），單卡 96GB 留足 KV cache
256GB DDR5 ECC・32 核 Threadripper PRO 9975WX

RTX PRO 6000 96GB 單卡即可承載 gpt-oss-120b，無需多卡分散；同一張 96GB 也能跑近全精度 70B，部署最單純、延遲最低。

AI-Highend（RTX PRO 6000 96GB）

估價 →

多卡張量並行：全精度 70B 或分散式 120B

約 141 萬

全精度 Llama 70B（FP16 約 140GB）／分散式 gpt-oss-120b

多卡合計 ≥140GB；WRX90 平台原生支援 4–7 張 96GB 卡並聯
256GB DDR5 ECC（可再往上擴充）・96 核 Threadripper PRO 9995WX

70B 全精度（FP16 約 140GB）單卡放不下，必須跨卡張量並行；WRX90 原生 4–7 卡並聯適合全精度 70B 或多併發 120B 服務，卡間頻寬是關鍵。

AMD-WRX90（4–7 卡並聯平台）

估價 →

LLM 微調 / Fine-tuning（LoRA / QLoRA）

微調吃的是 VRAM 與系統記憶體，不是純算力。QLoRA 把底模壓成 4-bit、只訓練小尺寸 LoRA，能把 8B–70B 的門檻拉低到單卡可跑；但訓練是長時間連續運算，記憶體 soft error 會靜默損壞整輪結果，所以 70B 級建議搭 ECC 記憶體與大系統 RAM（給 optimizer／CPU offload 留空間）。以下數字為 QLoRA 4-bit、batch 1、序列 2048、開 gradient checkpointing 的保守估計。

應用情境 · 代表模型	建議規格	關鍵差異	推薦 MAQ 配置
入門微調：8B 模型客製化（客服語氣／領域問答） Llama 3.1 8B · Qwen3 8B · Gemma 3 12B	約 14–16GB（QLoRA 4-bit）；24GB 卡可開較長 context 32GB DDR5 起步 12 核 Ryzen 9	8B QLoRA 是單卡 24GB 最舒適的甜蜜點；資料集大或要 CPU offload，建議系統記憶體加到 64GB。	AI-Eco（RTX PRO 4000 24GB）約 15 萬估價 →
中型微調：13B–32B（多輪指令微調／風格對齊） Qwen3 14B · Gemma 3 27B · Qwen3 32B（緊）	14B 約 20–22GB；27B 約 24–28GB；32B 約 28–32GB（QLoRA 4-bit＋checkpointing） 64GB DDR5 16 核 Ryzen 9 9950X3D	27B QLoRA 開 optimizer 後逼近 32GB，32GB 卡才有實用 batch／context；32B 在 32GB 上僅短序列可行，長序列建議 48GB（AI-High）。	AI-Medium-Gemma（RTX PRO 4500 32GB）約 23 萬估價 →
本地微調 70B 旗艦（QLoRA 單卡） Llama 3.3 70B · Qwen3 72B 級	約 46–48GB（QLoRA 4-bit，序列約 7K）；標準 LoRA（非量化）約 160GB 128GB DDR5 ECC 24 核 Threadripper 9960X	70B QLoRA 約需 46–48GB，72GB 卡不僅塞得下，還能拉長訓練序列或加大 batch，不必貼著顯存上限跑；ECC＋128GB RAM 是為了長時間訓練不被 soft error 毀掉整輪。要全精度 LoRA（約 160GB）請看多卡平台。	AI-High（RTX PRO 5000 72GB）約 69 萬估價 →
全精度 LoRA／多卡分散式微調 70B（研究級） Llama 3.3 70B · Qwen3 72B（bf16 LoRA）	標準 LoRA 約 160GB → 需多卡（如 2×96GB）；單 96GB 可跑高精度 QLoRA＋長序列 256GB DDR5 ECC 32–96 核 Threadripper PRO	WRX90 原生 4–7 卡並聯，適合 70B 非量化 LoRA 或同時跑多組微調實驗；只需單 96GB 大卡做高精度 QLoRA 可改 AI-Highend（約 141 萬）。	AMD-WRX90（4–7 卡並聯平台）約 141 萬估價 →

入門微調：8B 模型客製化（客服語氣／領域問答）

約 15 萬

Llama 3.1 8B · Qwen3 8B · Gemma 3 12B

約 14–16GB（QLoRA 4-bit）；24GB 卡可開較長 context
32GB DDR5 起步・12 核 Ryzen 9

8B QLoRA 是單卡 24GB 最舒適的甜蜜點；資料集大或要 CPU offload，建議系統記憶體加到 64GB。

AI-Eco（RTX PRO 4000 24GB）

估價 →

中型微調：13B–32B（多輪指令微調／風格對齊）

約 23 萬

Qwen3 14B · Gemma 3 27B · Qwen3 32B（緊）

14B 約 20–22GB；27B 約 24–28GB；32B 約 28–32GB（QLoRA 4-bit＋checkpointing）
64GB DDR5・16 核 Ryzen 9 9950X3D

27B QLoRA 開 optimizer 後逼近 32GB，32GB 卡才有實用 batch／context；32B 在 32GB 上僅短序列可行，長序列建議 48GB（AI-High）。

AI-Medium-Gemma（RTX PRO 4500 32GB）

估價 →

本地微調 70B 旗艦（QLoRA 單卡）

約 69 萬

Llama 3.3 70B · Qwen3 72B 級

約 46–48GB（QLoRA 4-bit，序列約 7K）；標準 LoRA（非量化）約 160GB
128GB DDR5 ECC・24 核 Threadripper 9960X

70B QLoRA 約需 46–48GB，72GB 卡不僅塞得下，還能拉長訓練序列或加大 batch，不必貼著顯存上限跑；ECC＋128GB RAM 是為了長時間訓練不被 soft error 毀掉整輪。要全精度 LoRA（約 160GB）請看多卡平台。

AI-High（RTX PRO 5000 72GB）

估價 →

全精度 LoRA／多卡分散式微調 70B（研究級）

約 141 萬

Llama 3.3 70B · Qwen3 72B（bf16 LoRA）

標準 LoRA 約 160GB → 需多卡（如 2×96GB）；單 96GB 可跑高精度 QLoRA＋長序列
256GB DDR5 ECC・32–96 核 Threadripper PRO

WRX90 原生 4–7 卡並聯，適合 70B 非量化 LoRA 或同時跑多組微調實驗；只需單 96GB 大卡做高精度 QLoRA 可改 AI-Highend（約 141 萬）。

AMD-WRX90（4–7 卡並聯平台）

估價 →

影像生成（Stable Diffusion / Flux / ComfyUI）

影像生成吃 VRAM 的關鍵不是模型大小，而是「同時駐留」——擴散模型本體、VAE、文字編碼器（Flux／SD3.5 都掛了 T5-XXL）在生成那一刻全要進顯卡。SDXL 量化後 8–12GB 就能跑，但 Flux.1 dev（12B）要全精度得備 24GB 以上；要邊訓 LoRA 邊推論，48GB 才有餘裕。截至 2026 年，ComfyUI 仍是本地工作流主流。以下 VRAM 數字皆為保守區間並標明量化前提。

應用情境 · 代表模型	建議規格	關鍵差異	推薦 MAQ 配置
SDXL 入門到進階（ComfyUI 工作流／風格 LoRA 推論） SDXL 1.0 · Illustrious XL（fp16）	8–12GB（fp16，1024²）；疊兩組 ControlNet＋IP-Adapter 再加 5–8GB 32GB DDR5 12 核 Ryzen 9	24GB 對純 SDXL 推論綽綽有餘，連多 ControlNet 堆疊都吃得下；想再跑 Flux fp8 也勉強進得來。預算最緊時的合理起點。	AI-Eco（RTX PRO 4000 24GB）約 15 萬估價 →
ComfyUI 主力站：Flux.1＋SDXL 混用、批次出圖 Flux.1 dev/schnell（12B）· SD3.5 Large（8B）· SDXL	Flux.1 fp8 約 17GB、Q4 GGUF 約 12GB；SD3.5 Large fp8 約 11–14GB 64GB DDR5 16 核 Ryzen 9 9950X3D	RTX PRO 4500 32GB 可順跑 Flux.1 fp8 與 SD3.5 Large，是 Flux 混用出圖的 32GB 級選擇；要 Flux.1 完整 fp16（約 24GB↑）或邊訓 LoRA 邊推論仍建議升 48GB 的 AI-High。NVIDIA CUDA 生態、Pro 驅動長時穩定。	AI-Medium-Gemma（RTX PRO 4500 32GB）約 23 萬估價 →
邊訓 LoRA 邊推論／Flux 全精度（商用產線） Flux.1 dev（fp16＋LoRA 訓練）· SD3.5 Large · SDXL	Flux LoRA 訓練建議 48GB；同時訓練＋推論需 48GB 才有餘裕（保守值） 128GB DDR5 ECC 24 核 Threadripper 9960X	「訓練＋推論並行」的安全線約在 48GB：Flux LoRA 高品質訓練要 48GB，再留一份推論顯存才不會 OOM——本機為 72GB，兩者並行仍有餘裕。ECC 記憶體適合長時不中斷的商用產線。	AI-High（RTX PRO 5000 72GB）約 69 萬估價 →

SDXL 入門到進階（ComfyUI 工作流／風格 LoRA 推論）

約 15 萬

SDXL 1.0 · Illustrious XL（fp16）

8–12GB（fp16，1024²）；疊兩組 ControlNet＋IP-Adapter 再加 5–8GB
32GB DDR5・12 核 Ryzen 9

24GB 對純 SDXL 推論綽綽有餘，連多 ControlNet 堆疊都吃得下；想再跑 Flux fp8 也勉強進得來。預算最緊時的合理起點。

AI-Eco（RTX PRO 4000 24GB）

估價 →

ComfyUI 主力站：Flux.1＋SDXL 混用、批次出圖

約 23 萬

Flux.1 dev/schnell（12B）· SD3.5 Large（8B）· SDXL

Flux.1 fp8 約 17GB、Q4 GGUF 約 12GB；SD3.5 Large fp8 約 11–14GB
64GB DDR5・16 核 Ryzen 9 9950X3D

RTX PRO 4500 32GB 可順跑 Flux.1 fp8 與 SD3.5 Large，是 Flux 混用出圖的 32GB 級選擇；要 Flux.1 完整 fp16（約 24GB↑）或邊訓 LoRA 邊推論仍建議升 48GB 的 AI-High。NVIDIA CUDA 生態、Pro 驅動長時穩定。

AI-Medium-Gemma（RTX PRO 4500 32GB）

估價 →

邊訓 LoRA 邊推論／Flux 全精度（商用產線）

約 69 萬

Flux.1 dev（fp16＋LoRA 訓練）· SD3.5 Large · SDXL

Flux LoRA 訓練建議 48GB；同時訓練＋推論需 48GB 才有餘裕（保守值）
128GB DDR5 ECC・24 核 Threadripper 9960X

「訓練＋推論並行」的安全線約在 48GB：Flux LoRA 高品質訓練要 48GB，再留一份推論顯存才不會 OOM——本機為 72GB，兩者並行仍有餘裕。ECC 記憶體適合長時不中斷的商用產線。

AI-High（RTX PRO 5000 72GB）

估價 →

AI Agent／代理式工作流（n8n / LangGraph / CrewAI）

這類工作負載的瓶頸在 CPU 核心數、記憶體與網路 I/O，不在高階獨顯。編排引擎大多是「呼叫 LLM API → 等回應 → 解析 JSON → 跑下一個節點」，每個工具呼叫佔住一條 CPU 執行緒，多代理並行時是核心數與 32GB 記憶體在撐場面。只有當你要把推論搬回本地（隱私、離線、省 API 費）時，VRAM 才開始重要；而且代理工作流多半只需 8B～20B 級輕量本地模型，不必上 70B。

應用情境 · 代表模型	建議規格	關鍵差異	推薦 MAQ 配置
純編排：多代理流程，LLM 全走雲端 API 雲端 API 為主（本地僅做嵌入／分類）	0GB 獨顯需求（內建顯示即可）；本地嵌入約 1–2GB 32GB DDR5 6–10 核（核心數比時脈重要）	編排是 I/O 與執行緒密集，不是運算密集；6–10 核＋32GB 足以跑數十條並行代理。預載 n8n／LangGraph／CrewAI／Ollama／Open WebUI，開箱即用——這時花錢買高階獨顯是浪費。	AI-Agent-Medium／Eco 約 3.4 萬估價 →
半本地：部分節點改用輕量本地 LLM（8B 級） Qwen3 8B · Llama 3.1 8B（Q4_K_M）	約 5–8GB（4-bit，16K context 內） 32GB DDR5 6–10 核	8B 級量化後落在 5–8GB，內建顯示或入門 iGPU 即可帶，速度約 30–40 tok/s，足夠代理流程裡的分類、抽取、工具路由。要更快或更高並行才需加裝獨顯。	AI-Agent-Medium／Eco 約 3.4 萬估價 →
本地推論核心：主力 LLM 搬本地（20B 級，離線／免 API 費） gpt-oss-20b（MXFP4）· Qwen3 14B	約 16GB（gpt-oss-20b 為 MoE＋MXFP4，權重約 12–13GB、執行約 16GB）；長 context 建議 24–32GB 64GB DDR5 12 核	當 API 帳單變痛、或合規要求資料不出機才升到這級。AI-Medium（Radeon AI PRO R9700 32GB）或 AI-Eco（RTX PRO 4000 24GB）都留有 context 餘裕，預載 gpt-oss-20b／Llama 可直接接進編排器。	AI-Medium／AI-Eco 約 15 萬估價 →
重型本地代理：70B 級複雜推理鏈／長文件代理 Llama 3.3 70B · Qwen3 72B（Q4_K_M）	約 42–45GB（4-bit）；48GB 為單卡安全下限，本機 72GB 更寬裕 128GB DDR5 ECC 24 核 Threadripper	代理工作流多數用不到 70B，這級是給要本地全自主、高品質推理鏈的情境。要全精度或更長 context 再往上看雙卡／96GB 機型。	AI-High（RTX PRO 5000 72GB）約 69 萬估價 →

純編排：多代理流程，LLM 全走雲端 API

約 3.4 萬

雲端 API 為主（本地僅做嵌入／分類）

0GB 獨顯需求（內建顯示即可）；本地嵌入約 1–2GB
32GB DDR5・6–10 核（核心數比時脈重要）

編排是 I/O 與執行緒密集，不是運算密集；6–10 核＋32GB 足以跑數十條並行代理。預載 n8n／LangGraph／CrewAI／Ollama／Open WebUI，開箱即用——這時花錢買高階獨顯是浪費。

AI-Agent-Medium／Eco

估價 →

半本地：部分節點改用輕量本地 LLM（8B 級）

約 3.4 萬

Qwen3 8B · Llama 3.1 8B（Q4_K_M）

約 5–8GB（4-bit，16K context 內）
32GB DDR5・6–10 核

8B 級量化後落在 5–8GB，內建顯示或入門 iGPU 即可帶，速度約 30–40 tok/s，足夠代理流程裡的分類、抽取、工具路由。要更快或更高並行才需加裝獨顯。

AI-Agent-Medium／Eco

估價 →

本地推論核心：主力 LLM 搬本地（20B 級，離線／免 API 費）

約 15 萬

gpt-oss-20b（MXFP4）· Qwen3 14B

約 16GB（gpt-oss-20b 為 MoE＋MXFP4，權重約 12–13GB、執行約 16GB）；長 context 建議 24–32GB
64GB DDR5・12 核

當 API 帳單變痛、或合規要求資料不出機才升到這級。AI-Medium（Radeon AI PRO R9700 32GB）或 AI-Eco（RTX PRO 4000 24GB）都留有 context 餘裕，預載 gpt-oss-20b／Llama 可直接接進編排器。

AI-Medium／AI-Eco

估價 →

重型本地代理：70B 級複雜推理鏈／長文件代理

約 69 萬

Llama 3.3 70B · Qwen3 72B（Q4_K_M）

約 42–45GB（4-bit）；48GB 為單卡安全下限，本機 72GB 更寬裕
128GB DDR5 ECC・24 核 Threadripper

代理工作流多數用不到 70B，這級是給要本地全自主、高品質推理鏈的情境。要全精度或更長 context 再往上看雙卡／96GB 機型。

AI-High（RTX PRO 5000 72GB）

估價 →

桌上型迷你 AI 開發機（GB10 統一記憶體）

這一級跟顯卡型工作站是不同的取捨：不是「一張大顯卡＋系統記憶體」，而是採 NVIDIA GB10 Grace Blackwell 超級晶片、CPU 與 GPU 共用同一塊 128GB 統一記憶體。優點是單機就能載入 100B 級大模型做本地推論與開發，機身約同迷你主機、免機房免專用電源；代價是記憶體頻寬（LPDDR5X 約 273GB/s）遠低於資料中心 HBM，token 產出速度落在每秒數十個，定位是「本機開發、驗證與常駐代理」，而非對外高並行推論服務。適合個人或小型團隊把 AI 開發搬回桌邊、資料不出公司。

應用情境 · 代表模型	建議規格	關鍵差異	推薦 MAQ 配置
桌邊本地開發：單機跑 100B 級大模型推論 Nemotron 3 Super 120B（MoE）· Llama 3.3 70B · Qwen3 80B（量化）	共用 128GB 統一記憶體（CPU+GPU 共享）；120B 級 4-bit 量化約佔 60GB 128GB 統一記憶體 20 核 ARM（Cortex-X925＋A725）	與 NVIDIA DGX Spark 同一顆 GB10 超級晶片與 128GB 統一記憶體，差別在 1TB SSD 與品牌，價格較低。適合以較低門檻取得 GB10 平台做本地 LLM 開發與推論；生成速度受記憶體頻寬限制、非高並行服務取向。	Asus Ascent GX10（GB10／1TB）約 18 萬估價 →
常駐代理／需要更大本機儲存的開發機同上，另適合長時間常駐的自主代理	共用 128GB 統一記憶體 128GB 統一記憶體 20 核 ARM（Cortex-X925＋A725）	NVIDIA 原廠 DGX Spark，4TB NVMe SSD 提供更大本機儲存空間，適合需要在本機保存大量模型與資料集的開發者。統一記憶體架構與 GX10 相同；選它主要是為了更大的儲存與 NVIDIA 原廠身分。	NVIDIA DGX Spark（GB10／4TB）約 22 萬估價 →

桌邊本地開發：單機跑 100B 級大模型推論

約 18 萬

Nemotron 3 Super 120B（MoE）· Llama 3.3 70B · Qwen3 80B（量化）

共用 128GB 統一記憶體（CPU+GPU 共享）；120B 級 4-bit 量化約佔 60GB
128GB 統一記憶體・20 核 ARM（Cortex-X925＋A725）

與 NVIDIA DGX Spark 同一顆 GB10 超級晶片與 128GB 統一記憶體，差別在 1TB SSD 與品牌，價格較低。適合以較低門檻取得 GB10 平台做本地 LLM 開發與推論；生成速度受記憶體頻寬限制、非高並行服務取向。

Asus Ascent GX10（GB10／1TB）

估價 →

常駐代理／需要更大本機儲存的開發機

約 22 萬

同上，另適合長時間常駐的自主代理

共用 128GB 統一記憶體
128GB 統一記憶體・20 核 ARM（Cortex-X925＋A725）

NVIDIA 原廠 DGX Spark，4TB NVMe SSD 提供更大本機儲存空間，適合需要在本機保存大量模型與資料集的開發者。統一記憶體架構與 GX10 相同；選它主要是為了更大的儲存與 NVIDIA 原廠身分。

NVIDIA DGX Spark（GB10／4TB）

估價 →

為什麼不自己 DIY

企業導入 AI 的難處，MAQ 出廠前幫你完成

選對規格只是第一步。真正讓 IT 團隊頭痛的，是裸機到貨後的環境地獄與調校陷阱——MAQ 把這些前置工作在出廠前做完。

自己買一線大廠裸機

空機送來沒環境，IT 光裝 Ubuntu、CUDA 驅動、Docker 權限就折騰兩週起跳。
PCIe 通道分配錯誤，多卡 GPU 效能直接腰斬，問題還很難查。
規格憑感覺買，超配浪費預算、不足又卡關，沒人幫你算。

MAQ 開箱即用 · 一站式調校

出廠預裝 Ollama（Qwen／Gemma）、ComfyUI、企業知識庫，接上電源與網路5 分鐘內發 API。
出廠前工程師壓力測試＋PCIe 拓樸調校，多卡 PCIe 5.0 通道正確分配、效能榨滿。
依預算與模型大小專人開最佳化 GPU 菜單——就是你上面看到的這張對照表。

一站式軟硬整合服務

幫你裝好環境、插電即用、在地技術支援

從一通電話到開機發 API，MAQ 全包。你不必碰驅動、不必查 PCIe、不必自己壓測——專注在你的 AI 應用就好。

規格諮詢

說預算與要跑的模型，專人開最佳化 GPU 菜單，不超配、不卡關。

客製組裝

工業級用料、企業級電源與散熱，多卡 PCIe 5.0 拓樸最佳化。

壓測＋環境預裝

燒機壓力測試，預裝 Ollama／ComfyUI／CUDA／Docker／企業知識庫。

工程師親送上線

全台（含外島）親送、現場驗機，接電接網 5 分鐘內發 API。

在地技術支援

三年保固、簽約戶備機、Proxmox VE／硬體除錯專家級遠端＋到府。

免費規格諮詢 →

企業地端生成式 AI · 軟硬一體

MAQ Alishan 企業 AI 知識主機

把文件、SOP、資料庫裡的知識變成「用對話就能查」的私有 AI。RAG 知識庫 × 知識圖譜 × 權限稽核全部落地自家機房，機密資料不外送。依規模分兩級對號入座：

標準版 Alishan

中小型企業 · 部門知識庫

單機 32–48GB 級 GPU，跑 7B–32B 本地模型
內部 RAG 知識庫建置（HR／IT／業務問答）
權限控管、操作稽核，資料留在區網

了解標準版 →

旗艦

旗艦版 Alishan

大型研究室 · 數據中心

RTX PRO 6000 96GB 或多卡 Blackwell 串聯
單卡完整載入 gpt-oss-120b，或跑 Llama 3.3 70B 微調
多併發、知識圖譜、企業級稽核，實測 161 tok/s

了解旗艦版 →

企業級服務承諾

買 MAQ，不會變成 AI 孤兒

從採購前的規格諮詢，到上線後的技術支援與保固，台灣在地團隊從2002年至今全程罩你。

硬體規格客調諮詢

針對你的預算與要跑的模型大小，由專人提供最佳化的 GPU／記憶體／CPU 菜單，不超配、不卡關。

地端資安保證

所有運算與數據 100% 留存地端，模型、知識庫、對話紀錄都不出區網，無個資或商業機密外洩風險。

台灣在地保固與技術支援

Proxmox VE 虛擬化環境、硬體除錯專家級諮詢、三年硬體保固、簽約戶備機服務，工程師全台親送（含外島）現場驗機。

FAQ

AI 採購常見問題

2026 本地跑 Llama 3.3 70B 硬體配置怎麼選？需要多少 VRAM？

4-bit（Q4_K_M）量化後約需 43GB VRAM，單張 48GB 專業卡即可跑，系統記憶體建議 128GB ECC。同級的 Qwen3 72B Q4 約 47GB，在 48GB 卡上會逼近上限、長 context 需降量化（IQ4_XS）；MAQ 對應機型 AI-High 採 RTX PRO 5000 72GB 版，兩者皆可從容載入。要全精度或高併發再往上看 96GB 單卡或多卡。MAQ 對應機型為 AI-High（約 69 萬）。

部署 gpt-oss-120b 需要買到多卡伺服器嗎？單卡 96GB 能跑嗎？

單卡就能跑、不必多卡。gpt-oss-120b 是 MoE 架構＋原生 MXFP4 量化，權重約 60GB，單張 NVIDIA RTX PRO 6000 Blackwell 96GB 即可完整載入並留足 KV cache，部署最單純、延遲最低。只有要全精度或多併發高吞吐服務才需要 WRX90 多卡平台。MAQ 對應機型為 AI-Highend（約 141 萬）。

Flux.1 dev 影像生成工作站，VRAM 與記憶體要配多少才不會 OOM？

Flux.1 dev（12B）生成時擴散模型本體、VAE 與 T5-XXL 文字編碼器要同時駐留顯卡：fp8 約 17GB、完整 fp16 約 24GB；SDXL fp16 約 8–12GB。32GB 卡（如 RTX PRO 4500）可順跑 Flux.1 fp8 與 SD3.5，要邊訓 LoRA 邊推論建議 48GB 才有餘裕。系統記憶體建議 64GB 起。MAQ 影像生成對應機型為 AI-Medium-Gemma（RTX PRO 4500 32GB，約 23 萬）。

架設 n8n 或 LangGraph 的 AI Agent 代理工作流，需要很高階的顯示卡嗎？

多數情況不需要。n8n／LangGraph／CrewAI 以呼叫雲端或輕量本地 LLM API 為主，瓶頸在 CPU 核心數與 32GB 記憶體，不在高階獨顯。只有把推論完全搬本地（隱私／離線／省 API 費）才需要 GPU，而且通常 8B–20B 級的輕量模型即可。MAQ AI Agent 代理 PC 預載 n8n／LangGraph／CrewAI／Ollama，約 3.4 萬。

多 GPU（多卡）並聯怎麼配？跑全精度 70B 或分散式 120B 要幾張卡？

全精度 Llama 70B（FP16 約 140GB）單卡放不下，需多卡張量並行。AMD WRX90 平台原生支援 4–7 張 GPU 並聯，適合全精度 70B 或多併發 120B 分散式服務，卡間頻寬是關鍵。MAQ 對應機型為 AMD-WRX90（4–7 張 RTX PRO 6000 96GB 並聯，約 141 萬）。

本地微調（fine-tune）Llama 70B 需要多少 VRAM 和記憶體？

QLoRA 4-bit 微調 70B 約需 46–48GB VRAM，單張 48GB 卡為入場規格；MAQ 對應機型 AI-High 採 RTX PRO 5000 72GB 版，可拉長序列或加大 batch。建議 ECC 記憶體＋128GB 以上系統 RAM，避免長時間訓練被記憶體 soft error 毀掉整輪。標準（非量化）LoRA 約需 160GB，需多卡或 96GB 大卡。MAQ 對應機型為 AI-High（約 69 萬）。

想在辦公桌上單機跑 100B 級大模型，該選 DGX Spark 這類迷你機還是顯卡工作站？

看用途。NVIDIA DGX Spark 與 ASUS Ascent GX10 採 NVIDIA GB10 超級晶片與 128GB 統一記憶體，單機即可載入 100B 級大模型做本地推論與開發，機身約同迷你主機、免機房，適合本機開發驗證與常駐代理；但記憶體頻寬（約 273GB/s）低於資料中心級，token 產出為每秒數十個，不適合對外高並行服務。若要為多人提供高吞吐推論、或做影像生成與大規模微調，顯卡型工作站（如 AI-High／AI-Highend）較合適。MAQ 對應機型：ASUS Ascent GX10（約 18 萬）、NVIDIA DGX Spark（約 22 萬）。

還是不確定該怎麼選配？

把你想用的模型、用途與預算告訴 MAQ，工程師幫你算到剛好——不超配、不卡關。

前往線上估價 LINE @MaqBoot 諮詢

看企業地端方案 Alishan → · 延伸閱讀：MAQ 部落格採購評比與選購指南 →

想跑哪個 AI 模型，該怎麼配置？

怎麼讀這張表

入門～中型 LLM 本地推論（7B–32B）

大型 LLM 本地推論（70B–120B）

LLM 微調 / Fine-tuning（LoRA / QLoRA）

影像生成（Stable Diffusion / Flux / ComfyUI）

AI Agent／代理式工作流（n8n / LangGraph / CrewAI）

桌上型迷你 AI 開發機（GB10 統一記憶體）

企業導入 AI 的難處，MAQ 出廠前幫你完成

自己買一線大廠裸機

MAQ 開箱即用 · 一站式調校

幫你裝好環境、插電即用、在地技術支援

規格諮詢

客製組裝

壓測 ＋ 環境預裝

工程師親送上線

在地技術支援

MAQ Alishan 企業 AI 知識主機

標準版 Alishan

旗艦版 Alishan

買 MAQ，不會變成 AI 孤兒

硬體規格客調諮詢

地端資安保證

台灣在地保固與技術支援

AI 採購常見問題

2026 本地跑 Llama 3.3 70B 硬體配置怎麼選？需要多少 VRAM？

部署 gpt-oss-120b 需要買到多卡伺服器嗎？單卡 96GB 能跑嗎？

Flux.1 dev 影像生成工作站，VRAM 與記憶體要配多少才不會 OOM？

架設 n8n 或 LangGraph 的 AI Agent 代理工作流，需要很高階的顯示卡嗎？

多 GPU（多卡）並聯怎麼配？跑全精度 70B 或分散式 120B 要幾張卡？

本地微調（fine-tune）Llama 70B 需要多少 VRAM 和記憶體？

想在辦公桌上單機跑 100B 級大模型，該選 DGX Spark 這類迷你機還是顯卡工作站？

還是不確定該怎麼選配？

想跑哪個 AI 模型，
該怎麼配置？

壓測＋環境預裝