AI 應用硬體對照表 · MAQ 選機指南

想跑哪個 AI 模型,
該配哪一台?

Llama 3.3 70Bgpt-oss-120b、Qwen3、Gemma 3,到 Stable Diffusion / FluxAI Agent 工作流——這張表把「模型 → VRAM → 系統記憶體 → CPU → 推薦配置」一次列清楚,每個情境都對應 MAQ 實際機型與線上估價,VRAM 數字都標明量化前提,不誇大。

48GB
單卡跑 4-bit 70B
96GB
單卡載 gpt-oss-120b
4–7
WRX90 多卡並聯
53K
AI Agent 代理 PC
線上估價 → LINE 諮詢配置

怎麼讀這張表

先找到你的工作型態(推論/微調/影像生成/AI Agent),再看模型大小對應的 VRAM系統記憶體,右欄就是 MAQ 為該情境配好的機型,點「估價」即可線上組裝。VRAM 會隨量化(4-bit/fp8/fp16)與 context 長度變動,表中數字為保守估計。

入門~中型 LLM 本地推論(7B–32B)

這一級是「一張卡跑得動」的甜蜜點:4-bit 量化下 7B–14B 約 5–12GB VRAM、32B 約 18–24GB,單張 24–32GB 專業卡即可流暢推論。重點不在卡多大,而在 VRAM 是否壓得住「量化後權重+KV cache(長 context 會吃掉好幾 GB)」;要上全精度(FP16)或拉長 context,需求會翻 2–4 倍。(模型以 2026 主流版本為例,同級新版硬體需求相近。)

應用情境 · 代表模型建議 VRAM系統記憶體CPU推薦 MAQ 機型
桌面助理/RAG 問答入門
Llama 3.1 8B · Gemma 3 12B · Qwen3 8B
4-bit 下 8B–14B 都很從容,24GB 還能留 8K–32K context 的 KV cache;要上 14B 全精度或同開多模型,建議直接看 32GB 機型。
5–12GB(4-bit);FP16:8B/9B 約 16–18GB、14B 約 28GB32GB DDR512 核 Ryzen 9(9900X3D 級)
AI-Eco(RTX PRO 4000 24GB)
NT$ 185,000 起
估價 →
中型生產推論:gpt-oss-20b 線上服務
gpt-oss-20b · Qwen3 14B · Gemma 3 12B
搭 Ryzen 9 9900X3D + AMD Radeon AI PRO R9700 32GB GPU。32GB VRAM 可完整載入 gpt-oss-20b(AMD 平台走 ROCm 的 FP8/量化路徑;原生 MXFP4 加速為 NVIDIA Blackwell 機型),並留並發與長 context 餘裕,開箱即用。
16–24GB(gpt-oss-20b 量化後約 16GB;14B Q8 約 15GB)64GB DDR512 核 Ryzen 9 9900X3D
AI-Medium(AMD Radeon AI PRO R9700 32GB GPU,預載 gpt-oss-20b)
NT$ 155,000 起
估價 →
32B 級高品質推論(程式輔助/進階問答)
Qwen3 32B · Gemma 3 27B
4-bit 單張 32GB 可跑並留 context;Gemma 27B 連 Q8 都進得來,Qwen 32B Q8 略超 32GB 需降序列或上 48GB。與 AI-Medium(155k/Radeon AI PRO R9700·ROCm) 的差別:NVIDIA CUDA 生態、Pro 驅動長時穩定、預載 Gemma。
18–24GB(4-bit);Q8:Gemma 27B 約 27–30GB(單卡 32GB 可跑)、Qwen 32B 約 34–35GB(略超 32GB)64GB DDR516 核 Ryzen 9 9950X3D
AI-Medium-Gemma(RTX PRO 4500 32GB)
NT$ 243,000 起
估價 →
32B 量化+長 context/高吞吐
Qwen3 32B · gpt-oss-20b · Gemma 3 27B
RTX 5090 Blackwell 原生支援 MXFP4,跑 gpt-oss-20b/32B 量化吞吐佳;128GB 系統記憶體適合同時掛 RAG/工具鏈。消費級卡、非 ECC,純推論工作站取向。
20–24GB(4-bit);32GB 卡可吃較長 context 與較大 batch128GB DDR524 核 Core Ultra 9
AI-TOP-Z890-RTX5090(RTX 5090 32GB)
NT$ 269,000 起
估價 →

大型 LLM 本地推論(70B–120B)

70B 級模型 4-bit 量化後約需 43GB VRAM,落在單張 48GB 專業卡的射程內;72B 級會逼近 48GB,全精度或 120B MoE 則需 96GB 單卡,甚至 WRX90 平台多卡並聯做張量並行。系統記憶體建議 128GB 以上、ECC 為佳,以支撐長 context 的 KV cache 與 CPU 卸載。

應用情境 · 代表模型建議 VRAM系統記憶體CPU推薦 MAQ 機型
本地跑 70B 推論(4-bit,單卡入門)
Llama 3.3 70B(Qwen3 72B 級同列)
48GB 單卡可跑 4-bit Llama 70B;72B 級 Q4 已逼近 48GB,長 context 需降量化(IQ4_XS)或上 96GB。要全精度/多併發建議直上 96GB 或多卡。
Llama 70B 約 43GB(Q4_K_M,含 KV cache);72B 級 Q4 約 47GB,逼近 48GB128GB DDR5 ECC24 核 Threadripper 9960X
AI-High(RTX PRO 5000 48GB)
NT$ 567,000 起
估價 →
單卡 96GB 跑 gpt-oss-120b,免拆模型
gpt-oss-120b(MoE, MXFP4)/高精度 70B
RTX PRO 6000 96GB 單卡即可承載 gpt-oss-120b,無需多卡分散;同一張 96GB 也能跑近全精度 70B,部署最單純、延遲最低。
gpt-oss-120b 權重約 60GB(總參 116.8B/活躍 5.1B),單卡 96GB 留足 KV cache256GB DDR5 ECC32 核 Threadripper PRO 9975WX
AI-Highend(RTX PRO 6000 96GB)
NT$ 1,145,000 起
估價 →
多卡張量並行:全精度 70B 或分散式 120B
全精度 Llama 70B(FP16 約 140GB)/分散式 gpt-oss-120b
70B 全精度(FP16 約 140GB)單卡放不下,必須跨卡張量並行;WRX90 原生 4–7 卡並聯適合全精度 70B 或多併發 120B 服務,卡間頻寬是關鍵。
多卡合計 ≥140GB;WRX90 平台原生支援 4–7 張 96GB 卡並聯256GB DDR5 ECC(可再往上擴充)96 核 Threadripper PRO 9995WX
AMD-WRX90(4–7 卡並聯平台)
NT$ 1,410,000 起
估價 →

LLM 微調 / Fine-tuning(LoRA / QLoRA)

微調吃的是 VRAM 與系統記憶體,不是純算力。QLoRA 把底模壓成 4-bit、只訓練小尺寸 LoRA,能把 8B–70B 的門檻拉低到單卡可跑;但訓練是長時間連續運算,記憶體 soft error 會靜默損壞整輪結果,所以 70B 級建議搭 ECC 記憶體與大系統 RAM(給 optimizer/CPU offload 留空間)。以下數字為 QLoRA 4-bit、batch 1、序列 2048、開 gradient checkpointing 的保守估計。

應用情境 · 代表模型建議 VRAM系統記憶體CPU推薦 MAQ 機型
入門微調:8B 模型客製化(客服語氣/領域問答)
Llama 3.1 8B · Qwen3 8B · Gemma 3 12B
8B QLoRA 是單卡 24GB 最舒適的甜蜜點;資料集大或要 CPU offload,建議系統記憶體加到 64GB。
約 14–16GB(QLoRA 4-bit);24GB 卡可開較長 context32GB DDR5 起步12 核 Ryzen 9
AI-Eco(RTX PRO 4000 24GB)
NT$ 185,000 起
估價 →
中型微調:13B–32B(多輪指令微調/風格對齊)
Qwen3 14B · Gemma 3 27B · Qwen3 32B(緊)
27B QLoRA 開 optimizer 後逼近 32GB,32GB 卡才有實用 batch/context;32B 在 32GB 上僅短序列可行,長序列建議 48GB(AI-High)。
14B 約 20–22GB;27B 約 24–28GB;32B 約 28–32GB(QLoRA 4-bit+checkpointing)64GB DDR516 核 Ryzen 9 9950X3D
AI-Medium-Gemma(RTX PRO 4500 32GB)
NT$ 243,000 起
估價 →
本地微調 70B 旗艦(QLoRA 單卡)
Llama 3.3 70B · Qwen3 72B 級
70B QLoRA 剛好塞進 48GB,是單卡跑 70B 微調的入場機;ECC+128GB RAM 是為了長時間訓練不被 soft error 毀掉整輪。要全精度 LoRA 或更長 context 請看多卡平台。
約 46–48GB(QLoRA 4-bit,序列約 7K);標準 LoRA(非量化)約 160GB128GB DDR5 ECC24 核 Threadripper 9960X
AI-High(RTX PRO 5000 48GB)
NT$ 567,000 起
估價 →
全精度 LoRA/多卡分散式微調 70B(研究級)
Llama 3.3 70B · Qwen3 72B(bf16 LoRA)
WRX90 原生 4–7 卡並聯,適合 70B 非量化 LoRA 或同時跑多組微調實驗;只需單 96GB 大卡做高精度 QLoRA 可改 AI-Highend(NT$1,145,000)。
標準 LoRA 約 160GB → 需多卡(如 2×96GB);單 96GB 可跑高精度 QLoRA+長序列256GB DDR5 ECC32–96 核 Threadripper PRO
AMD-WRX90(4–7 卡並聯平台)
NT$ 1,410,000 起
估價 →

影像生成(Stable Diffusion / Flux / ComfyUI)

影像生成吃 VRAM 的關鍵不是模型大小,而是「同時駐留」——擴散模型本體、VAE、文字編碼器(Flux/SD3.5 都掛了 T5-XXL)在生成那一刻全要進顯卡。SDXL 量化後 8–12GB 就能跑,但 Flux.1 dev(12B)要全精度得備 24GB 以上;要邊訓 LoRA 邊推論,48GB 才有餘裕。截至 2026 年,ComfyUI 仍是本地工作流主流。以下 VRAM 數字皆為保守區間並標明量化前提。

應用情境 · 代表模型建議 VRAM系統記憶體CPU推薦 MAQ 機型
SDXL 入門到進階(ComfyUI 工作流/風格 LoRA 推論)
SDXL 1.0 · Illustrious XL(fp16)
24GB 對純 SDXL 推論綽綽有餘,連多 ControlNet 堆疊都吃得下;想再跑 Flux fp8 也勉強進得來。預算最緊時的合理起點。
8–12GB(fp16,1024²);疊兩組 ControlNet+IP-Adapter 再加 5–8GB32GB DDR512 核 Ryzen 9
AI-Eco(RTX PRO 4000 24GB)
NT$ 185,000 起
估價 →
ComfyUI 主力站:Flux.1+SDXL 混用、批次出圖
Flux.1 dev/schnell(12B)· SD3.5 Large(8B)· SDXL
MAQ 為影像生成量身配的機型,開箱即有 ComfyUI/SDXL/Flux。32GB 可順跑 Flux.1 fp8 與 SD3.5;要 Flux.1 完整 fp16(約 24GB↑)或長批次仍建議升 48GB 卡。
Flux.1 fp8 約 17GB、Q4 GGUF 約 12GB;SD3.5 Large fp8 約 11–14GB64GB DDR516 核 Ryzen 9 9950X3D
Stable-Diffusion-Highend(RTX PRO 4500 32GB,預載 ComfyUI)
NT$ 277,000 起
估價 →
追求出圖速度(高張數批次/即時預覽)
Flux.1 dev/schnell(fp8)· SDXL · SD3.5 Large
Blackwell 5090 在 fp8/量化下單張生成最快,適合重視吞吐的創作者;32GB 同 PRO 4500,差別在生成速度與消費級驅動,非企業級長時穩定保固。
Flux.1 fp8 約 17GB(32GB 卡充裕);schnell 步數少、單張更快128GB DDR524 核 Core Ultra 9
AI-TOP-Z890-RTX5090(RTX 5090 32GB)
NT$ 269,000 起
估價 →
邊訓 LoRA 邊推論/Flux 全精度(商用產線)
Flux.1 dev(fp16+LoRA 訓練)· SD3.5 Large · SDXL
48GB 是「訓練+推論並行」的安全線:Flux LoRA 高品質訓練要 48GB,再留一份推論顯存才不會 OOM。ECC 記憶體適合長時不中斷的商用產線。
Flux LoRA 訓練建議 48GB;同時訓練+推論需 48GB 才有餘裕(保守值)128GB DDR5 ECC24 核 Threadripper 9960X
AI-High(RTX PRO 5000 48GB)
NT$ 567,000 起
估價 →

AI Agent/代理式工作流(n8n / LangGraph / CrewAI)

這類工作負載的瓶頸在 CPU 核心數、記憶體與網路 I/O,不在高階獨顯。編排引擎大多是「呼叫 LLM API → 等回應 → 解析 JSON → 跑下一個節點」,每個工具呼叫佔住一條 CPU 執行緒,多代理並行時是核心數與 32GB 記憶體在撐場面。只有當你要把推論搬回本地(隱私、離線、省 API 費)時,VRAM 才開始重要;而且代理工作流多半只需 8B~20B 級輕量本地模型,不必上 70B。

應用情境 · 代表模型建議 VRAM系統記憶體CPU推薦 MAQ 機型
純編排:多代理流程,LLM 全走雲端 API
雲端 API 為主(本地僅做嵌入/分類)
編排是 I/O 與執行緒密集,不是運算密集;6–10 核+32GB 足以跑數十條並行代理。預載 n8n/LangGraph/CrewAI/Ollama/Open WebUI,開箱即用——這時花錢買高階獨顯是浪費。
0GB 獨顯需求(內建顯示即可);本地嵌入約 1–2GB32GB DDR56–10 核(核心數比時脈重要)
AI-Agent-Medium/Eco
NT$ 53,000 起
估價 →
半本地:部分節點改用輕量本地 LLM(8B 級)
Qwen3 8B · Llama 3.1 8B(Q4_K_M)
8B 級量化後落在 5–8GB,內建顯示或入門 iGPU 即可帶,速度約 30–40 tok/s,足夠代理流程裡的分類、抽取、工具路由。要更快或更高並行才需加裝獨顯。
約 5–8GB(4-bit,16K context 內)32GB DDR56–10 核
AI-Agent-Medium/Eco
NT$ 53,000 起
估價 →
本地推論核心:主力 LLM 搬本地(20B 級,離線/免 API 費)
gpt-oss-20b(MXFP4)· Qwen3 14B
當 API 帳單變痛、或合規要求資料不出機才升到這級。AI-Medium(Radeon AI PRO R9700 32GB)或 AI-Eco(RTX PRO 4000 24GB)都留有 context 餘裕,預載 gpt-oss-20b/Llama 可直接接進編排器。
約 16GB(gpt-oss-20b 為 MoE+MXFP4,權重約 12–13GB、執行約 16GB);長 context 建議 24–32GB64GB DDR512 核
AI-Medium/AI-Eco
NT$ 155,000 起
估價 →
重型本地代理:70B 級複雜推理鏈/長文件代理
Llama 3.3 70B · Qwen3 72B(Q4_K_M)
代理工作流多數用不到 70B,這級是給要本地全自主、高品質推理鏈的情境。要全精度或更長 context 再往上看雙卡/96GB 機型。
約 42–45GB(4-bit);48GB 為單卡安全下限128GB DDR5 ECC24 核 Threadripper
AI-High(RTX PRO 5000 48GB)
NT$ 567,000 起
估價 →
為什麼不自己買裸機

企業 AI 導入的三大痛點,MAQ 出廠前幫你跳過

選對規格只是第一步。真正讓 IT 團隊崩潰的,是裸機到貨後的環境地獄與調校陷阱——MAQ 把這些前置工作在出廠前做完。

自己買一線大廠裸機
  • 空機送來沒環境,IT 光裝 Ubuntu、CUDA 驅動、Docker 權限就折騰兩週起跳
  • PCIe 通道分配錯誤,多卡 GPU 效能直接腰斬,問題還很難查。
  • 規格憑感覺買,超配浪費預算、不足又卡關,沒人幫你算。
MAQ 開箱即用 · 一站式調校
  • 出廠預裝 Ollama(Qwen/Gemma)、ComfyUI、企業知識庫,接上電源與網路5 分鐘內發 API
  • 出廠前工程師壓力測試+PCIe 拓樸調校,多卡 PCIe 5.0 通道正確分配、效能榨滿。
  • 預算與模型大小專人開最佳化 GPU 菜單——就是你上面看到的這張對照表。
一站式軟硬整合服務

幫你裝好環境、插電即用、在地技術支援

從一通電話到開機發 API,MAQ 全包。你不必碰驅動、不必查 PCIe、不必自己壓測——專注在你的 AI 應用就好。

1

規格諮詢

說預算與要跑的模型,專人開最佳化 GPU 菜單,不超配、不卡關。

2

客製組裝

工業級用料、企業級電源與散熱,多卡 PCIe 5.0 拓樸最佳化。

3

壓測 + 環境預裝

燒機壓力測試,預裝 Ollama/ComfyUI/CUDA/Docker/企業知識庫。

4

工程師親送上線

全台(含外島)親送、現場驗機,接電接網 5 分鐘內發 API。

5

在地技術支援

三年保固、簽約戶備機、Proxmox VE/硬體除錯專家級遠端+到府。

企業地端生成式 AI · 軟硬一體

MAQ Atlas 企業 AI 知識主機

把文件、SOP、資料庫裡的知識變成「用對話就能查」的私有 AI。RAG 知識庫 × 知識圖譜 × 權限稽核全部落地自家機房,機密資料不外送。依規模分兩級對號入座:

標準版 Atlas

中小型企業 · 部門知識庫
  • 單機 32–48GB 級 GPU,跑 7B–32B 本地模型
  • 內部 RAG 知識庫建置(HR/IT/業務問答)
  • 權限控管、操作稽核,資料留在區網
了解標準版 →
旗艦

旗艦版 Atlas

大型研究室 · 數據中心
  • RTX PRO 6000 96GB 或多卡 Blackwell 串聯
  • 單卡完整載入 gpt-oss-120b,或跑 Llama 3.3 70B 微調
  • 多併發、知識圖譜、企業級稽核,實測 161 tok/s
了解旗艦版 →
企業級服務承諾

買 MAQ,不會變成 AI 孤兒

從採購前的規格諮詢,到上線後的技術支援與保固,台灣在地團隊全程罩你。

硬體規格客調諮詢

針對你的預算與要跑的模型大小,由專人提供最佳化的 GPU/記憶體/CPU 菜單,不超配、不卡關。

地端資安保證

所有運算與數據 100% 留存地端,模型、知識庫、對話紀錄都不出區網,無個資或商業機密外洩風險。

台灣在地保固與技術支援

Proxmox VE 虛擬化環境、硬體除錯專家級諮詢、三年硬體保固、簽約戶備機服務,工程師全台親送(含外島)現場驗機。

FAQ

AI 採購常見問題

2026 本地跑 Llama 3.3 70B 硬體配置怎麼選?需要多少 VRAM?

4-bit(Q4_K_M)量化後約需 43GB VRAM,單張 48GB 專業卡(如 RTX PRO 5000)即可跑,系統記憶體建議 128GB ECC。同級的 Qwen3 72B Q4 約 47GB 已逼近 48GB,長 context 需降量化(IQ4_XS)或改用 96GB 卡。要全精度或多併發再往上看 96GB 單卡或多卡。MAQ 對應機型為 AI-High(NT$567,000 起)。

部署 gpt-oss-120b 需要買到多卡伺服器嗎?單卡 96GB 能跑嗎?

單卡就能跑、不必多卡。gpt-oss-120b 是 MoE 架構+原生 MXFP4 量化,權重約 60GB,單張 NVIDIA RTX PRO 6000 Blackwell 96GB 即可完整載入並留足 KV cache,部署最單純、延遲最低。只有要全精度或多併發高吞吐服務才需要 WRX90 多卡平台。MAQ 對應機型為 AI-Highend(NT$1,145,000 起)。

Flux.1 dev 影像生成工作站,VRAM 與記憶體要配多少才不會 OOM?

Flux.1 dev(12B)生成時擴散模型本體、VAE 與 T5-XXL 文字編碼器要同時駐留顯卡:fp8 約 17GB、完整 fp16 約 24GB;SDXL fp16 約 8–12GB。32GB 卡(如 RTX PRO 4500)可順跑 Flux.1 fp8 與 SD3.5,要邊訓 LoRA 邊推論建議 48GB 才有餘裕。系統記憶體建議 64GB 起。MAQ 影像生成主力為 Stable-Diffusion-Highend(RTX PRO 4500 32GB,預載 ComfyUI,NT$277,000 起)。

架設 n8n 或 LangGraph 的 AI Agent 代理工作流,需要很高階的顯示卡嗎?

多數情況不需要。n8n/LangGraph/CrewAI 以呼叫雲端或輕量本地 LLM API 為主,瓶頸在 CPU 核心數與 32GB 記憶體,不在高階獨顯。只有把推論完全搬本地(隱私/離線/省 API 費)才需要 GPU,而且通常 8B–20B 級的輕量模型即可。MAQ AI Agent 代理 PC 預載 n8n/LangGraph/CrewAI/Ollama,NT$53,000 起。

多 GPU(多卡)並聯怎麼配?跑全精度 70B 或分散式 120B 要幾張卡?

全精度 Llama 70B(FP16 約 140GB)單卡放不下,需多卡張量並行。AMD WRX90 平台原生支援 4–7 張 GPU 並聯,適合全精度 70B 或多併發 120B 分散式服務,卡間頻寬是關鍵。MAQ 對應機型為 AMD-WRX90(4–7 張 RTX PRO 6000 96GB 並聯,NT$1,410,000 起)。

本地微調(fine-tune)Llama 70B 需要多少 VRAM 和記憶體?

QLoRA 4-bit 微調 70B 約需 46–48GB VRAM,單張 48GB 卡為入場規格;建議 ECC 記憶體+128GB 以上系統 RAM,避免長時間訓練被記憶體 soft error 毀掉整輪。標準(非量化)LoRA 約需 160GB,需多卡或 96GB 大卡。MAQ 對應機型為 AI-High(NT$567,000 起)。

還是不確定該配哪一台?

把你的模型、用途與預算告訴 MAQ,工程師幫你算到剛好——不超配、不卡關。