怎麼讀這張表
先找到你的工作型態(推論/微調/影像生成/AI Agent),再看模型大小對應的 VRAM 與系統記憶體,右欄就是 MAQ 為該情境配好的機型,點「估價」即可線上組裝。VRAM 會隨量化(4-bit/fp8/fp16)與 context 長度變動,表中數字為保守估計。
入門~中型 LLM 本地推論(7B–32B)
這一級是「一張卡跑得動」的甜蜜點:4-bit 量化下 7B–14B 約 5–12GB VRAM、32B 約 18–24GB,單張 24–32GB 專業卡即可流暢推論。重點不在卡多大,而在 VRAM 是否壓得住「量化後權重+KV cache(長 context 會吃掉好幾 GB)」;要上全精度(FP16)或拉長 context,需求會翻 2–4 倍。(模型以 2026 主流版本為例,同級新版硬體需求相近。)
| 應用情境 · 代表模型 | 建議 VRAM | 系統記憶體 | CPU | 推薦 MAQ 機型 |
|---|---|---|---|---|
桌面助理/RAG 問答入門 Llama 3.1 8B · Gemma 3 12B · Qwen3 8B 4-bit 下 8B–14B 都很從容,24GB 還能留 8K–32K context 的 KV cache;要上 14B 全精度或同開多模型,建議直接看 32GB 機型。 | 5–12GB(4-bit);FP16:8B/9B 約 16–18GB、14B 約 28GB | 32GB DDR5 | 12 核 Ryzen 9(9900X3D 級) | AI-Eco(RTX PRO 4000 24GB) NT$ 185,000 起 估價 → |
中型生產推論:gpt-oss-20b 線上服務 gpt-oss-20b · Qwen3 14B · Gemma 3 12B 搭 Ryzen 9 9900X3D + AMD Radeon AI PRO R9700 32GB GPU。32GB VRAM 可完整載入 gpt-oss-20b(AMD 平台走 ROCm 的 FP8/量化路徑;原生 MXFP4 加速為 NVIDIA Blackwell 機型),並留並發與長 context 餘裕,開箱即用。 | 16–24GB(gpt-oss-20b 量化後約 16GB;14B Q8 約 15GB) | 64GB DDR5 | 12 核 Ryzen 9 9900X3D | AI-Medium(AMD Radeon AI PRO R9700 32GB GPU,預載 gpt-oss-20b) NT$ 155,000 起 估價 → |
32B 級高品質推論(程式輔助/進階問答) Qwen3 32B · Gemma 3 27B 4-bit 單張 32GB 可跑並留 context;Gemma 27B 連 Q8 都進得來,Qwen 32B Q8 略超 32GB 需降序列或上 48GB。與 AI-Medium(155k/Radeon AI PRO R9700·ROCm) 的差別:NVIDIA CUDA 生態、Pro 驅動長時穩定、預載 Gemma。 | 18–24GB(4-bit);Q8:Gemma 27B 約 27–30GB(單卡 32GB 可跑)、Qwen 32B 約 34–35GB(略超 32GB) | 64GB DDR5 | 16 核 Ryzen 9 9950X3D | AI-Medium-Gemma(RTX PRO 4500 32GB) NT$ 243,000 起 估價 → |
32B 量化+長 context/高吞吐 Qwen3 32B · gpt-oss-20b · Gemma 3 27B RTX 5090 Blackwell 原生支援 MXFP4,跑 gpt-oss-20b/32B 量化吞吐佳;128GB 系統記憶體適合同時掛 RAG/工具鏈。消費級卡、非 ECC,純推論工作站取向。 | 20–24GB(4-bit);32GB 卡可吃較長 context 與較大 batch | 128GB DDR5 | 24 核 Core Ultra 9 | AI-TOP-Z890-RTX5090(RTX 5090 32GB) NT$ 269,000 起 估價 → |
大型 LLM 本地推論(70B–120B)
70B 級模型 4-bit 量化後約需 43GB VRAM,落在單張 48GB 專業卡的射程內;72B 級會逼近 48GB,全精度或 120B MoE 則需 96GB 單卡,甚至 WRX90 平台多卡並聯做張量並行。系統記憶體建議 128GB 以上、ECC 為佳,以支撐長 context 的 KV cache 與 CPU 卸載。
| 應用情境 · 代表模型 | 建議 VRAM | 系統記憶體 | CPU | 推薦 MAQ 機型 |
|---|---|---|---|---|
本地跑 70B 推論(4-bit,單卡入門) Llama 3.3 70B(Qwen3 72B 級同列) 48GB 單卡可跑 4-bit Llama 70B;72B 級 Q4 已逼近 48GB,長 context 需降量化(IQ4_XS)或上 96GB。要全精度/多併發建議直上 96GB 或多卡。 | Llama 70B 約 43GB(Q4_K_M,含 KV cache);72B 級 Q4 約 47GB,逼近 48GB | 128GB DDR5 ECC | 24 核 Threadripper 9960X | AI-High(RTX PRO 5000 48GB) NT$ 567,000 起 估價 → |
單卡 96GB 跑 gpt-oss-120b,免拆模型 gpt-oss-120b(MoE, MXFP4)/高精度 70B RTX PRO 6000 96GB 單卡即可承載 gpt-oss-120b,無需多卡分散;同一張 96GB 也能跑近全精度 70B,部署最單純、延遲最低。 | gpt-oss-120b 權重約 60GB(總參 116.8B/活躍 5.1B),單卡 96GB 留足 KV cache | 256GB DDR5 ECC | 32 核 Threadripper PRO 9975WX | AI-Highend(RTX PRO 6000 96GB) NT$ 1,145,000 起 估價 → |
多卡張量並行:全精度 70B 或分散式 120B 全精度 Llama 70B(FP16 約 140GB)/分散式 gpt-oss-120b 70B 全精度(FP16 約 140GB)單卡放不下,必須跨卡張量並行;WRX90 原生 4–7 卡並聯適合全精度 70B 或多併發 120B 服務,卡間頻寬是關鍵。 | 多卡合計 ≥140GB;WRX90 平台原生支援 4–7 張 96GB 卡並聯 | 256GB DDR5 ECC(可再往上擴充) | 96 核 Threadripper PRO 9995WX | AMD-WRX90(4–7 卡並聯平台) NT$ 1,410,000 起 估價 → |
LLM 微調 / Fine-tuning(LoRA / QLoRA)
微調吃的是 VRAM 與系統記憶體,不是純算力。QLoRA 把底模壓成 4-bit、只訓練小尺寸 LoRA,能把 8B–70B 的門檻拉低到單卡可跑;但訓練是長時間連續運算,記憶體 soft error 會靜默損壞整輪結果,所以 70B 級建議搭 ECC 記憶體與大系統 RAM(給 optimizer/CPU offload 留空間)。以下數字為 QLoRA 4-bit、batch 1、序列 2048、開 gradient checkpointing 的保守估計。
| 應用情境 · 代表模型 | 建議 VRAM | 系統記憶體 | CPU | 推薦 MAQ 機型 |
|---|---|---|---|---|
入門微調:8B 模型客製化(客服語氣/領域問答) Llama 3.1 8B · Qwen3 8B · Gemma 3 12B 8B QLoRA 是單卡 24GB 最舒適的甜蜜點;資料集大或要 CPU offload,建議系統記憶體加到 64GB。 | 約 14–16GB(QLoRA 4-bit);24GB 卡可開較長 context | 32GB DDR5 起步 | 12 核 Ryzen 9 | AI-Eco(RTX PRO 4000 24GB) NT$ 185,000 起 估價 → |
中型微調:13B–32B(多輪指令微調/風格對齊) Qwen3 14B · Gemma 3 27B · Qwen3 32B(緊) 27B QLoRA 開 optimizer 後逼近 32GB,32GB 卡才有實用 batch/context;32B 在 32GB 上僅短序列可行,長序列建議 48GB(AI-High)。 | 14B 約 20–22GB;27B 約 24–28GB;32B 約 28–32GB(QLoRA 4-bit+checkpointing) | 64GB DDR5 | 16 核 Ryzen 9 9950X3D | AI-Medium-Gemma(RTX PRO 4500 32GB) NT$ 243,000 起 估價 → |
本地微調 70B 旗艦(QLoRA 單卡) Llama 3.3 70B · Qwen3 72B 級 70B QLoRA 剛好塞進 48GB,是單卡跑 70B 微調的入場機;ECC+128GB RAM 是為了長時間訓練不被 soft error 毀掉整輪。要全精度 LoRA 或更長 context 請看多卡平台。 | 約 46–48GB(QLoRA 4-bit,序列約 7K);標準 LoRA(非量化)約 160GB | 128GB DDR5 ECC | 24 核 Threadripper 9960X | AI-High(RTX PRO 5000 48GB) NT$ 567,000 起 估價 → |
全精度 LoRA/多卡分散式微調 70B(研究級) Llama 3.3 70B · Qwen3 72B(bf16 LoRA) WRX90 原生 4–7 卡並聯,適合 70B 非量化 LoRA 或同時跑多組微調實驗;只需單 96GB 大卡做高精度 QLoRA 可改 AI-Highend(NT$1,145,000)。 | 標準 LoRA 約 160GB → 需多卡(如 2×96GB);單 96GB 可跑高精度 QLoRA+長序列 | 256GB DDR5 ECC | 32–96 核 Threadripper PRO | AMD-WRX90(4–7 卡並聯平台) NT$ 1,410,000 起 估價 → |
影像生成(Stable Diffusion / Flux / ComfyUI)
影像生成吃 VRAM 的關鍵不是模型大小,而是「同時駐留」——擴散模型本體、VAE、文字編碼器(Flux/SD3.5 都掛了 T5-XXL)在生成那一刻全要進顯卡。SDXL 量化後 8–12GB 就能跑,但 Flux.1 dev(12B)要全精度得備 24GB 以上;要邊訓 LoRA 邊推論,48GB 才有餘裕。截至 2026 年,ComfyUI 仍是本地工作流主流。以下 VRAM 數字皆為保守區間並標明量化前提。
| 應用情境 · 代表模型 | 建議 VRAM | 系統記憶體 | CPU | 推薦 MAQ 機型 |
|---|---|---|---|---|
SDXL 入門到進階(ComfyUI 工作流/風格 LoRA 推論) SDXL 1.0 · Illustrious XL(fp16) 24GB 對純 SDXL 推論綽綽有餘,連多 ControlNet 堆疊都吃得下;想再跑 Flux fp8 也勉強進得來。預算最緊時的合理起點。 | 8–12GB(fp16,1024²);疊兩組 ControlNet+IP-Adapter 再加 5–8GB | 32GB DDR5 | 12 核 Ryzen 9 | AI-Eco(RTX PRO 4000 24GB) NT$ 185,000 起 估價 → |
ComfyUI 主力站:Flux.1+SDXL 混用、批次出圖 Flux.1 dev/schnell(12B)· SD3.5 Large(8B)· SDXL MAQ 為影像生成量身配的機型,開箱即有 ComfyUI/SDXL/Flux。32GB 可順跑 Flux.1 fp8 與 SD3.5;要 Flux.1 完整 fp16(約 24GB↑)或長批次仍建議升 48GB 卡。 | Flux.1 fp8 約 17GB、Q4 GGUF 約 12GB;SD3.5 Large fp8 約 11–14GB | 64GB DDR5 | 16 核 Ryzen 9 9950X3D | Stable-Diffusion-Highend(RTX PRO 4500 32GB,預載 ComfyUI) NT$ 277,000 起 估價 → |
追求出圖速度(高張數批次/即時預覽) Flux.1 dev/schnell(fp8)· SDXL · SD3.5 Large Blackwell 5090 在 fp8/量化下單張生成最快,適合重視吞吐的創作者;32GB 同 PRO 4500,差別在生成速度與消費級驅動,非企業級長時穩定保固。 | Flux.1 fp8 約 17GB(32GB 卡充裕);schnell 步數少、單張更快 | 128GB DDR5 | 24 核 Core Ultra 9 | AI-TOP-Z890-RTX5090(RTX 5090 32GB) NT$ 269,000 起 估價 → |
邊訓 LoRA 邊推論/Flux 全精度(商用產線) Flux.1 dev(fp16+LoRA 訓練)· SD3.5 Large · SDXL 48GB 是「訓練+推論並行」的安全線:Flux LoRA 高品質訓練要 48GB,再留一份推論顯存才不會 OOM。ECC 記憶體適合長時不中斷的商用產線。 | Flux LoRA 訓練建議 48GB;同時訓練+推論需 48GB 才有餘裕(保守值) | 128GB DDR5 ECC | 24 核 Threadripper 9960X | AI-High(RTX PRO 5000 48GB) NT$ 567,000 起 估價 → |
AI Agent/代理式工作流(n8n / LangGraph / CrewAI)
這類工作負載的瓶頸在 CPU 核心數、記憶體與網路 I/O,不在高階獨顯。編排引擎大多是「呼叫 LLM API → 等回應 → 解析 JSON → 跑下一個節點」,每個工具呼叫佔住一條 CPU 執行緒,多代理並行時是核心數與 32GB 記憶體在撐場面。只有當你要把推論搬回本地(隱私、離線、省 API 費)時,VRAM 才開始重要;而且代理工作流多半只需 8B~20B 級輕量本地模型,不必上 70B。
| 應用情境 · 代表模型 | 建議 VRAM | 系統記憶體 | CPU | 推薦 MAQ 機型 |
|---|---|---|---|---|
純編排:多代理流程,LLM 全走雲端 API 雲端 API 為主(本地僅做嵌入/分類) 編排是 I/O 與執行緒密集,不是運算密集;6–10 核+32GB 足以跑數十條並行代理。預載 n8n/LangGraph/CrewAI/Ollama/Open WebUI,開箱即用——這時花錢買高階獨顯是浪費。 | 0GB 獨顯需求(內建顯示即可);本地嵌入約 1–2GB | 32GB DDR5 | 6–10 核(核心數比時脈重要) | AI-Agent-Medium/Eco NT$ 53,000 起 估價 → |
半本地:部分節點改用輕量本地 LLM(8B 級) Qwen3 8B · Llama 3.1 8B(Q4_K_M) 8B 級量化後落在 5–8GB,內建顯示或入門 iGPU 即可帶,速度約 30–40 tok/s,足夠代理流程裡的分類、抽取、工具路由。要更快或更高並行才需加裝獨顯。 | 約 5–8GB(4-bit,16K context 內) | 32GB DDR5 | 6–10 核 | AI-Agent-Medium/Eco NT$ 53,000 起 估價 → |
本地推論核心:主力 LLM 搬本地(20B 級,離線/免 API 費) gpt-oss-20b(MXFP4)· Qwen3 14B 當 API 帳單變痛、或合規要求資料不出機才升到這級。AI-Medium(Radeon AI PRO R9700 32GB)或 AI-Eco(RTX PRO 4000 24GB)都留有 context 餘裕,預載 gpt-oss-20b/Llama 可直接接進編排器。 | 約 16GB(gpt-oss-20b 為 MoE+MXFP4,權重約 12–13GB、執行約 16GB);長 context 建議 24–32GB | 64GB DDR5 | 12 核 | AI-Medium/AI-Eco NT$ 155,000 起 估價 → |
重型本地代理:70B 級複雜推理鏈/長文件代理 Llama 3.3 70B · Qwen3 72B(Q4_K_M) 代理工作流多數用不到 70B,這級是給要本地全自主、高品質推理鏈的情境。要全精度或更長 context 再往上看雙卡/96GB 機型。 | 約 42–45GB(4-bit);48GB 為單卡安全下限 | 128GB DDR5 ECC | 24 核 Threadripper | AI-High(RTX PRO 5000 48GB) NT$ 567,000 起 估價 → |
AI 採購常見問題
2026 本地跑 Llama 3.3 70B 硬體配置怎麼選?需要多少 VRAM?
4-bit(Q4_K_M)量化後約需 43GB VRAM,單張 48GB 專業卡(如 RTX PRO 5000)即可跑,系統記憶體建議 128GB ECC。同級的 Qwen3 72B Q4 約 47GB 已逼近 48GB,長 context 需降量化(IQ4_XS)或改用 96GB 卡。要全精度或多併發再往上看 96GB 單卡或多卡。MAQ 對應機型為 AI-High(NT$567,000 起)。
部署 gpt-oss-120b 需要買到多卡伺服器嗎?單卡 96GB 能跑嗎?
單卡就能跑、不必多卡。gpt-oss-120b 是 MoE 架構+原生 MXFP4 量化,權重約 60GB,單張 NVIDIA RTX PRO 6000 Blackwell 96GB 即可完整載入並留足 KV cache,部署最單純、延遲最低。只有要全精度或多併發高吞吐服務才需要 WRX90 多卡平台。MAQ 對應機型為 AI-Highend(NT$1,145,000 起)。
Flux.1 dev 影像生成工作站,VRAM 與記憶體要配多少才不會 OOM?
Flux.1 dev(12B)生成時擴散模型本體、VAE 與 T5-XXL 文字編碼器要同時駐留顯卡:fp8 約 17GB、完整 fp16 約 24GB;SDXL fp16 約 8–12GB。32GB 卡(如 RTX PRO 4500)可順跑 Flux.1 fp8 與 SD3.5,要邊訓 LoRA 邊推論建議 48GB 才有餘裕。系統記憶體建議 64GB 起。MAQ 影像生成主力為 Stable-Diffusion-Highend(RTX PRO 4500 32GB,預載 ComfyUI,NT$277,000 起)。
架設 n8n 或 LangGraph 的 AI Agent 代理工作流,需要很高階的顯示卡嗎?
多數情況不需要。n8n/LangGraph/CrewAI 以呼叫雲端或輕量本地 LLM API 為主,瓶頸在 CPU 核心數與 32GB 記憶體,不在高階獨顯。只有把推論完全搬本地(隱私/離線/省 API 費)才需要 GPU,而且通常 8B–20B 級的輕量模型即可。MAQ AI Agent 代理 PC 預載 n8n/LangGraph/CrewAI/Ollama,NT$53,000 起。
多 GPU(多卡)並聯怎麼配?跑全精度 70B 或分散式 120B 要幾張卡?
全精度 Llama 70B(FP16 約 140GB)單卡放不下,需多卡張量並行。AMD WRX90 平台原生支援 4–7 張 GPU 並聯,適合全精度 70B 或多併發 120B 分散式服務,卡間頻寬是關鍵。MAQ 對應機型為 AMD-WRX90(4–7 張 RTX PRO 6000 96GB 並聯,NT$1,410,000 起)。
本地微調(fine-tune)Llama 70B 需要多少 VRAM 和記憶體?
QLoRA 4-bit 微調 70B 約需 46–48GB VRAM,單張 48GB 卡為入場規格;建議 ECC 記憶體+128GB 以上系統 RAM,避免長時間訓練被記憶體 soft error 毀掉整輪。標準(非量化)LoRA 約需 160GB,需多卡或 96GB 大卡。MAQ 對應機型為 AI-High(NT$567,000 起)。