自己買零件組裝 AI 工作站真的比買整機便宜嗎？

帳面上零件價差確實存在，但 AI 工作站的隱藏成本在硬體之外：環境建置通常要 3～10 個工作天反覆裝 CUDA/Docker/驅動，多卡若插在消費級主機板上會因 PCIe 通道降為 x8/x4 而腰斬效能，電源散熱算錯會當機或熱降頻，零件各自保固出問題時找不到人負責。把這些工時與停機風險算進去，省下的價差常常變成負數。MAQ 整機出廠壓測預裝、親送驗機、三年保固，買的是開機即用的確定性。

單張顯卡跑得動 70B 級模型（Llama 3.3 70B、Qwen3 32B）嗎？要多少 VRAM？

70B 密集模型即使 4-bit（Q4_K_M）量化，仍需約 43GB VRAM，72B Q4 約 47GB 逼近上限，所以要單卡跑 70B 級，48GB 是實際門檻——24GB 的 RTX PRO 4000 或 32GB 的 RTX 5090 都塞不下完整 70B Q4。2026 年地端常見的 Qwen3 32B、Gemma 3 27B 同屬這個量級，套用相同邏輯；但 Qwen3 235B-A22B 這類 MoE 因 active 參數少，需求要另外估、不能直接套密集模型公式。MAQ AI-High（RTX PRO 5000 48GB、Threadripper 9960X、128GB ECC，NT$706,000）正是為單卡 70B 級推論與 QLoRA 微調設計。若要全精度 FP16 70B 純推論（約 140GB）或全量微調（約 160GB 起），則必須上 AMD-WRX90 多卡。

本地跑 gpt-oss-120b 需要什麼等級的 GPU？

gpt-oss-120b 是 117B（5.1B active）的 MoE 模型，用 MXFP4 量化後權重約壓到 60GB，加上 KV cache 與 activations，單卡 96GB 才有舒適餘裕（60GB 是擠得進去、不是跑得舒服）。要吃到 MXFP4 原生硬體加速，NVIDIA 端目前只有 Blackwell 世代支援；AMD 端則要資料中心級的 CDNA4（Instinct MI350／MI355X）才原生支援，消費級／工作站的 Radeon AI PRO 這代還沒有。MAQ AI-Highend（RTX PRO 6000 96GB Blackwell，預載 gpt-oss-120b，NT$1,247,000）即為此設計；企業若要做地端 RAG，MAQ Alishan 用同款卡實測達 161 tok/s、支援 8 人並行、資料 100% 留區網。

地端 AI 工作站和雲端 API 哪個划算？什麼時候該自建？

取決於用量。2026 年旗艦 API（如 GPT-5.5）約每百萬 input tokens US$5、output US$30。業界損益分析顯示，7B 模型約每天 50 萬 tokens、70B 模型約每天 200 萬 tokens 達到損益平衡，超過後地端純 token 成本可省 60～80%。更關鍵的是資料主權：雲端必須把資料送出去，地端則 100% 留在區網。對高用量或受監管的企業與研究室，地端幾乎是唯一解，MAQ Alishan 就是為這個資料不出門的場景設計。

AI 工作站多卡為什麼插了第二張卡效能卻沒翻倍？

關鍵在 PCIe 通道分配與工作負載類型。純推論時模型載入後計算都在 VRAM 內，x8 與 x16 差距不到 2%；但張量平行或多卡訓練時每個 token 都觸發跨卡 all-reduce，x8 對 x16 在重度負載下可差 20～40% 吞吐，插到 x4 更是嚴重瓶頸。消費級主機板插第二張卡時插槽常從 x16 降為 x8/x8 甚至 x8/x4。要穩定吃滿多卡需要工作站平台，MAQ AI-High 走 Threadripper，要 4～7 卡並聯則用 WRX90 原生足通道的 AMD-WRX90。

2026 AI 工作站採購避坑指南：裸機自裝 vs 整機交付，企業 IT 最常踩的 5 個雷

地端 AI 在 2026 年幾乎成了企業標配：資料不出區網、推論成本可控、長期不被雲端 API 帳單綁架。但真正要把一台 AI 工作站開機跑起來，採購這一步比想像中危險得多。最常見的劇本是——IT 主管比價後決定「自己買零件組一台省一半」，結果三個月後機器還在跟驅動程式搏鬥，或是兩張顯卡只發揮一張的效能。

這篇文章把企業 IT 在 AI 工作站採購上最常踩的五個雷攤開來講，並且誠實對比兩條路線：裸機自裝（自己採購零件、自己裝環境）與整機交付（出廠壓測預裝、親送驗機、在地保固）。數字都對齊 2026 年的實際行情與實測 VRAM 數據，你可以直接拿去做決策。

買 AI 工作站，買的從來不是一張顯卡，而是「能不能在週一早上開機就開始訓練」的確定性。

先講結論：省下的是零件價差，賠掉的是工程師的時間

裸機自裝的吸引力很單純——同樣一張 RTX PRO 6000 96GB，自己買看起來比整機便宜。但 AI 工作站的成本結構裡，硬體只是其中一塊。真正吃掉預算的，是環境建置工時、踩雷重來的時間、停機等料的機會成本，以及壞掉沒人修的風險。下面五個雷，每一個都足以讓「省下的價差」變成負數。

雷 1：環境地獄——CUDA／Docker／驅動版本互咬

這是最普遍、也最被低估的坑。要讓一台 GPU 機器真的能跑模型，你得讓顯卡驅動、CUDA Toolkit、cuDNN、Docker、NVIDIA Container Toolkit、PyTorch、vLLM 這一整條版本鏈彼此相容。任何一層版本對不上，輕則效能砍半，重則完全跑不起來。

2026 年這件事更棘手，因為 Blackwell 世代（RTX 5090、RTX PRO 6000）引入了原生 MXFP4／NVFP4 4-bit 加速，要吃到這個硬體加速，runtime 與驅動版本必須夠新；版本太舊就會 fallback 回軟體模擬，throughput 直接掉一截。換句話說，買了最新的卡卻裝錯環境，等於花大錢買了一張被綁住手腳的顯卡。

自裝實況：多數團隊第一次裝環境要耗 3～10 個工作天，期間反覆重灌、回滾版本；遇到 Blackwell 新卡的 SM120 相容性問題，社群論壇上的除錯串往往要追好幾天才有解。
整機交付：MAQ 出廠就預裝並壓測 Ollama／ComfyUI／CUDA／Docker／vLLM／MLX／n8n／LangGraph／CrewAI，版本鏈在出廠前就驗過。開箱 ollama run qwen3 或 ollama run llama3.3 就有 token 吐出來，不用先當三天的系統管理員。

雷 2：PCIe 通道分配——多卡插上去卻只跑一張的速度

這個雷最隱蔽，因為機器「會動」，只是慢。很多人以為「兩張卡插上去就有兩倍算力」，但 GPU 之間要透過 PCIe 通道交換資料，通道分到幾條、走的是哪一代 PCIe，直接決定多卡能不能發揮。

關鍵在於工作負載類型：純推論時，模型載入後計算都在 VRAM 內，PCIe 流量很小，x8 與 x16 差距不到 2%。但一旦做張量平行（tensor parallel）或多卡訓練，每個 token 都會觸發跨卡的 all-reduce，這時 x8 對比 x16 在重度模型平行負載下可以差到 20～40% 的吞吐。更慘的是把卡插到只剩 x4 的插槽——那是真正的瓶頸。

消費級主機板的陷阱在於：CPU 提供的 PCIe 通道有限，插第二張卡時兩個插槽往往會從 x16 自動降成 x8／x8，甚至 x8／x4。要穩定吃滿多卡，需要工作站／HEDT 平台（Threadripper、WRX90 這類）提供足夠的原生通道。

平台類型	多卡 PCIe 配置	適合場景
消費級主機板	常降為 x8/x8 或 x8/x4	單卡推論為主，雙卡勉強
Threadripper（MAQ AI-High）	充足通道，雙卡無瓶頸	單卡 70B、雙卡擴充
WRX90（MAQ AMD-WRX90）	原生支援 4～7 卡並聯	FP16 全精度、大規模訓練

MAQ 的多卡機型直接用對的平台收掉這個雷：AI-High（RTX PRO 5000 48GB／Threadripper 9960X 24 核／128GB ECC，NT$706,000）走 Threadripper；要 4～7 卡並聯的就上 AMD-WRX90（96 核 Threadripper PRO 9995WX／RTX PRO 6000 96GB／256GB ECC，NT$1,515,000），WRX90 原生通道讓每張卡都吃得滿。

雷 3：電源與散熱不足——壓測一上去就降頻或跳機

一張 RTX PRO 6000 Blackwell 的最大功耗就達 600W，RTX 5090 也在 575W 等級。雙卡系統加上高核心數 CPU，整機峰值功耗輕鬆破 1500W。自裝最容易省錯錢的地方就是電源供應器——挑了瓦數剛好夠的 PSU，平常開機沒事，一旦模型訓練讓兩張卡同時滿載，瞬間功耗尖峰就讓系統重啟。

散熱同理。GPU 跑推論可以連續滿載數小時，機殼風道設計不良、卡與卡之間間距太窄，溫度一高就熱降頻（thermal throttling）——你以為買到的效能，跑十分鐘後只剩八成。這類問題在「桌上隨便組」的機器上幾乎必然發生，但在實驗室或機房裡又最難事後補救。

自裝實況：PSU 與機殼散熱要自己算功耗冗餘、自己驗風道，算錯就是不穩定當機或長期降頻，而且問題往往在交機後才浮現。
整機交付：MAQ 每台出廠都做壓力測試，電源冗餘與散熱在出貨前就驗證過滿載穩定；工程師到府驗機，當場讓你看到滿載跑得住，不是把箱子丟給你自己賭。

雷 4：規格超配或不足——VRAM 抓錯，整筆預算錯位

AI 工作站採購最該花心思的，是把 VRAM 對準你真正要跑的模型。買太小，模型塞不進去白買；買太大，多花的幾十萬其實用不到。下面這張表是 MAQ 已驗證的保守數據（標準量化前提，VRAM 由小到大排），照著對就不會錯位：

工作負載	需要 VRAM（保守）	對應方案
SDXL 圖像生成 fp16	約 8～12GB	AI-Eco 24GB
Flux.1 dev fp8／fp16	約 12～17GB／24GB	AI-Medium-Gemma 32GB / SD-Highend
70B 4-bit（Q4_K_M）／Qwen3 32B	約 43GB → 單卡 48GB 可跑	AI-High 48GB
QLoRA 微調 70B	約 46～48GB	AI-High 48GB
72B Q4	約 47GB（逼近 48GB 上限）	AI-High 48GB
gpt-oss-120b MXFP4	約 60GB → 單卡 96GB	AI-Highend 96GB
全精度 70B FP16（純推論）	約 140GB → 需多卡	AMD-WRX90 多卡
全量微調（full fine-tune）70B	約 160GB 起 → 需多卡	AMD-WRX90 多卡

幾個 2026 年最容易抓錯的點：

「24GB 跑 70B」是行不通的。業界共識已經很清楚：70B 密集模型即使 Q4 也需要 48GB 以上 VRAM，單張 RTX 5090（32GB）或 RTX PRO 4000（24GB）塞不進完整的 70B Q4。要單卡跑 70B 級（無論是 Llama 3.3 70B、Qwen3 32B 還是 Gemma 3 27B 的更高精度版本），48GB 是門檻——這正是 AI-High 的定位。要留意的是，像 Qwen3 235B-A22B 這類 MoE 模型總參數雖大、但 active 參數少，VRAM 需求不能直接套 70B 密集模型的公式，採購前最好先確認你跑的是密集還是 MoE。
gpt-oss-120b 的 60GB 是「擠得進去」不是「跑得舒服」。MXFP4 把 117B（5.1B active）的 MoE 壓到約 60GB，加上 KV cache 與 activations，單卡 96GB 才有餘裕。這也是 AI-Highend（RTX PRO 6000 96GB，預載 gpt-oss-120b，NT$1,247,000）的設計前提。
MXFP4 原生加速要選對世代與等級。NVIDIA 端目前只有 Blackwell 世代（RTX 5090／RTX PRO 6000）支援；AMD 端則要到資料中心級的 CDNA4（Instinct MI350／MI355X）才原生支援 MXFP4，消費級／工作站的 Radeon AI PRO（如 R9700）這一代還吃不到。換句話說，MAQ 桌機方案要靠 MXFP4 省 VRAM，GPU 就選 Blackwell，否則只能軟體模擬、吃不到硬體加速。
微調的記憶體要看「哪一種微調」。同樣 70B，QLoRA（4-bit base＋少量 adapter）約 46～48GB 還能單卡；16-bit 標準 LoRA 因 base 權重不量化、加上 optimizer 狀態，依設定約落在 70～160GB 區間；而全量微調（full fine-tune）要更新整組權重與 optimizer 狀態，70B 動輒 160GB 起跳，必須上多卡的 WRX90。採購前先確認你是「只推論」「QLoRA 輕量微調」還是「全量微調」，這條線決定預算等級。

規格抓對，預算才不會錯位。只跑 SDXL／小模型推論，AI-Eco（RTX PRO 4000 24GB，NT$152,000）就夠；要單卡 70B 推論或 QLoRA 微調，AI-High（48GB，NT$706,000）是甜蜜點；要本地跑 120B 等級或部署企業 RAG，才需要 96GB 的 AI-Highend。

雷 5：無在地保固——機器壞了，變成沒人管的孤兒

這是裸機自裝最致命、卻最常被忽略的雷。零件各買各的，保固就各自為政：顯卡找代理商、主機板找通路、電源找另一家。真正出問題時，沒有人能對「整台機器」負責，故障排除像在踢皮球。對企業來說，一台訓練機停擺一週，損失的遠不只維修費。

更現實的是水貨與平輸。2026 年因為 96GB GDDR7 全球缺料，RTX PRO 6000 行情一路飆升，海外貨源報價落差極大——便宜的水貨往往沒有台灣在地保固，壞了只能寄回國外、一去數週，等於把生產力押在運送途中。

MAQ 在這一塊提供的是完整的在地承諾：

三年硬體保固，整台機器一個窗口負責，不必在零件廠商之間踢皮球。
工程師全台（含外島）親送驗機——當面開機、當場驗收，不是丟貨運自己賭。
簽約戶備機，主力機送修期間有替代機頂上，產線不停。
遠端＋到府技術支援，加上 Proxmox VE 虛擬化 與地端資安（資料 100% 留地端），不只賣硬體，是把整套維運接起來。

那雲端 API 不就好了？算一下損益平衡點

很多人會問：與其買機器，為何不直接用雲端 API？答案取決於用量。2026 年旗艦級 API（如 GPT-5.5）約 每百萬 input tokens US$5、output US$30；中階模型也要 input US$2.5／output US$15 的等級。用量小的時候，雲端確實划算。

但業界 2026 年的損益分析給出明確門檻：7B 模型約在每天 50 萬 tokens、70B 模型約在每天 200 萬 tokens 達到損益平衡——超過這條線，地端的純 token 成本可以省下 60～80%。對於每天大量呼叫、又在意資料不出區網的企業與研究室，地端幾乎是唯一解：雲端 API 不只貴，還得把資料送出去。

這正是 MAQ Alishan（企業地端 RAG 知識主機）的場景——RAG＋知識圖譜＋AI 助理＋權限稽核，跑單張 RTX PRO 6000 96GB 載 gpt-oss-120B，實測 161 tok/s、支援 8 人並行、資料 100% 留在區網內。對受監管的產業、政府研究單位，這個「資料不出門」的特性比省錢更關鍵。

裸機自裝 vs 整機交付：一張表看懂

面向	裸機自裝	MAQ 整機交付
環境（CUDA/Docker/驅動）	自己裝，3～10 工作天起跳	出廠預裝＋壓測，開箱即用
多卡 PCIe 通道	消費板易降速腰斬	工作站／WRX90 平台原生足通道
電源與散熱	自己算冗餘，算錯就當機降頻	出廠滿載壓測＋到府驗機
規格匹配	VRAM 抓錯，預算錯位	依模型尺寸對應機型，不超不缺
保固與維運	零件各自保固，故障踢皮球	三年保固＋備機＋全台親送支援
資料主權	需自建資安	地端資安，資料 100% 留地端

給 CTO 與研究室的最終決策清單

把採購收斂成三個問題，就能對到正確的機型：

你要跑什麼模型、多大？SDXL／小模型推論看 AI-Eco；單卡 70B 級（Llama 3.3 70B、Qwen3 32B、Gemma 3 27B 等）或 QLoRA 看 AI-High（48GB）；本地 120B 或企業 RAG 看 AI-Highend（96GB）。圖像生成專用走 Stable-Diffusion-Highend。
要不要多卡？FP16 全精度推論、全量微調、4～7 卡並聯，直接看 AMD-WRX90，別在消費級平台上硬撐。
你的團隊有幾個工時可以耗在裝環境與救機器？如果答案是「零，我們要專心做研究」，那整機交付省下的時間成本，早就把零件價差賺回來了。

AI 工作站採購的本質，是用確定性換時間。零件可以自己買，但「週一早上開機就能訓練」「壞了有人三年內負責」「滿載跑得住不降頻」——這些確定性，才是企業真正付錢買的東西。想先搞清楚自己該選哪一台，可以從 AI 硬體選購指南開始對照，再到 AI 工作站總覽挑對 VRAM。