地端 AI 在 2026 年幾乎成了企業標配:資料不出區網、推論成本可控、長期不被雲端 API 帳單綁架。但真正要把一台 AI 工作站開機跑起來,採購這一步比想像中危險得多。最常見的劇本是——IT 主管比價後決定「自己買零件組一台省一半」,結果三個月後機器還在跟驅動程式搏鬥,或是兩張顯卡只發揮一張的效能。
這篇文章把企業 IT 在 AI 工作站採購上最常踩的五個雷攤開來講,並且誠實對比兩條路線:裸機自裝(自己採購零件、自己裝環境)與整機交付(出廠壓測預裝、親送驗機、在地保固)。數字都對齊 2026 年的實際行情與實測 VRAM 數據,你可以直接拿去做決策。
買 AI 工作站,買的從來不是一張顯卡,而是「能不能在週一早上開機就開始訓練」的確定性。
先講結論:省下的是零件價差,賠掉的是工程師的時間
裸機自裝的吸引力很單純——同樣一張 RTX PRO 6000 96GB,自己買看起來比整機便宜。但 AI 工作站的成本結構裡,硬體只是其中一塊。真正吃掉預算的,是環境建置工時、踩雷重來的時間、停機等料的機會成本,以及壞掉沒人修的風險。下面五個雷,每一個都足以讓「省下的價差」變成負數。
雷 1:環境地獄——CUDA/Docker/驅動版本互咬
這是最普遍、也最被低估的坑。要讓一台 GPU 機器真的能跑模型,你得讓顯卡驅動、CUDA Toolkit、cuDNN、Docker、NVIDIA Container Toolkit、PyTorch、vLLM 這一整條版本鏈彼此相容。任何一層版本對不上,輕則效能砍半,重則完全跑不起來。
2026 年這件事更棘手,因為 Blackwell 世代(RTX 5090、RTX PRO 6000)引入了原生 MXFP4/NVFP4 4-bit 加速,要吃到這個硬體加速,runtime 與驅動版本必須夠新;版本太舊就會 fallback 回軟體模擬,throughput 直接掉一截。換句話說,買了最新的卡卻裝錯環境,等於花大錢買了一張被綁住手腳的顯卡。
- 自裝實況:多數團隊第一次裝環境要耗 3~10 個工作天,期間反覆重灌、回滾版本;遇到 Blackwell 新卡的 SM120 相容性問題,社群論壇上的除錯串往往要追好幾天才有解。
- 整機交付:MAQ 出廠就預裝並壓測 Ollama/ComfyUI/CUDA/Docker/vLLM/MLX/n8n/LangGraph/CrewAI,版本鏈在出廠前就驗過。開箱
ollama run qwen3或ollama run llama3.3就有 token 吐出來,不用先當三天的系統管理員。
雷 2:PCIe 通道分配——多卡插上去卻只跑一張的速度
這個雷最隱蔽,因為機器「會動」,只是慢。很多人以為「兩張卡插上去就有兩倍算力」,但 GPU 之間要透過 PCIe 通道交換資料,通道分到幾條、走的是哪一代 PCIe,直接決定多卡能不能發揮。
關鍵在於工作負載類型:純推論時,模型載入後計算都在 VRAM 內,PCIe 流量很小,x8 與 x16 差距不到 2%。但一旦做張量平行(tensor parallel)或多卡訓練,每個 token 都會觸發跨卡的 all-reduce,這時 x8 對比 x16 在重度模型平行負載下可以差到 20~40% 的吞吐。更慘的是把卡插到只剩 x4 的插槽——那是真正的瓶頸。
消費級主機板的陷阱在於:CPU 提供的 PCIe 通道有限,插第二張卡時兩個插槽往往會從 x16 自動降成 x8/x8,甚至 x8/x4。要穩定吃滿多卡,需要工作站/HEDT 平台(Threadripper、WRX90 這類)提供足夠的原生通道。
| 平台類型 | 多卡 PCIe 配置 | 適合場景 |
|---|---|---|
| 消費級主機板 | 常降為 x8/x8 或 x8/x4 | 單卡推論為主,雙卡勉強 |
| Threadripper(MAQ AI-High) | 充足通道,雙卡無瓶頸 | 單卡 70B、雙卡擴充 |
| WRX90(MAQ AMD-WRX90) | 原生支援 4~7 卡並聯 | FP16 全精度、大規模訓練 |
MAQ 的多卡機型直接用對的平台收掉這個雷:AI-High(RTX PRO 5000 48GB/Threadripper 9960X 24 核/128GB ECC,NT$567,000)走 Threadripper;要 4~7 卡並聯的就上 AMD-WRX90(96 核 Threadripper PRO 9995WX/RTX PRO 6000 96GB/256GB ECC,NT$1,410,000),WRX90 原生通道讓每張卡都吃得滿。
雷 3:電源與散熱不足——壓測一上去就降頻或跳機
一張 RTX PRO 6000 Blackwell 的最大功耗就達 600W,RTX 5090 也在 575W 等級。雙卡系統加上高核心數 CPU,整機峰值功耗輕鬆破 1500W。自裝最容易省錯錢的地方就是電源供應器——挑了瓦數剛好夠的 PSU,平常開機沒事,一旦模型訓練讓兩張卡同時滿載,瞬間功耗尖峰就讓系統重啟。
散熱同理。GPU 跑推論可以連續滿載數小時,機殼風道設計不良、卡與卡之間間距太窄,溫度一高就熱降頻(thermal throttling)——你以為買到的效能,跑十分鐘後只剩八成。這類問題在「桌上隨便組」的機器上幾乎必然發生,但在實驗室或機房裡又最難事後補救。
- 自裝實況:PSU 與機殼散熱要自己算功耗冗餘、自己驗風道,算錯就是不穩定當機或長期降頻,而且問題往往在交機後才浮現。
- 整機交付:MAQ 每台出廠都做壓力測試,電源冗餘與散熱在出貨前就驗證過滿載穩定;工程師到府驗機,當場讓你看到滿載跑得住,不是把箱子丟給你自己賭。
雷 4:規格超配或不足——VRAM 抓錯,整筆預算錯位
AI 工作站採購最該花心思的,是把 VRAM 對準你真正要跑的模型。買太小,模型塞不進去白買;買太大,多花的幾十萬其實用不到。下面這張表是 MAQ 已驗證的保守數據(標準量化前提,VRAM 由小到大排),照著對就不會錯位:
| 工作負載 | 需要 VRAM(保守) | 對應方案 |
|---|---|---|
| SDXL 圖像生成 fp16 | 約 8~12GB | AI-Eco 24GB |
| Flux.1 dev fp8/fp16 | 約 12~17GB/24GB | AI-Medium-Gemma 32GB / SD-Highend |
| 70B 4-bit(Q4_K_M)/Qwen3 32B | 約 43GB → 單卡 48GB 可跑 | AI-High 48GB |
| QLoRA 微調 70B | 約 46~48GB | AI-High 48GB |
| 72B Q4 | 約 47GB(逼近 48GB 上限) | AI-High 48GB |
| gpt-oss-120b MXFP4 | 約 60GB → 單卡 96GB | AI-Highend 96GB |
| 全精度 70B FP16(純推論) | 約 140GB → 需多卡 | AMD-WRX90 多卡 |
| 全量微調(full fine-tune)70B | 約 160GB 起 → 需多卡 | AMD-WRX90 多卡 |
幾個 2026 年最容易抓錯的點:
- 「24GB 跑 70B」是行不通的。業界共識已經很清楚:70B 密集模型即使 Q4 也需要 48GB 以上 VRAM,單張 RTX 5090(32GB)或 RTX PRO 4000(24GB)塞不進完整的 70B Q4。要單卡跑 70B 級(無論是 Llama 3.3 70B、Qwen3 32B 還是 Gemma 3 27B 的更高精度版本),48GB 是門檻——這正是 AI-High 的定位。要留意的是,像 Qwen3 235B-A22B 這類 MoE 模型總參數雖大、但 active 參數少,VRAM 需求不能直接套 70B 密集模型的公式,採購前最好先確認你跑的是密集還是 MoE。
- gpt-oss-120b 的 60GB 是「擠得進去」不是「跑得舒服」。MXFP4 把 117B(5.1B active)的 MoE 壓到約 60GB,加上 KV cache 與 activations,單卡 96GB 才有餘裕。這也是 AI-Highend(RTX PRO 6000 96GB,預載 gpt-oss-120b,NT$1,145,000)的設計前提。
- MXFP4 原生加速要選對世代與等級。NVIDIA 端目前只有 Blackwell 世代(RTX 5090/RTX PRO 6000)支援;AMD 端則要到資料中心級的 CDNA4(Instinct MI350/MI355X)才原生支援 MXFP4,消費級/工作站的 Radeon AI PRO(如 R9700)這一代還吃不到。換句話說,MAQ 桌機方案要靠 MXFP4 省 VRAM,GPU 就選 Blackwell,否則只能軟體模擬、吃不到硬體加速。
- 微調的記憶體要看「哪一種微調」。同樣 70B,QLoRA(4-bit base+少量 adapter)約 46~48GB 還能單卡;16-bit 標準 LoRA 因 base 權重不量化、加上 optimizer 狀態,依設定約落在 70~160GB 區間;而全量微調(full fine-tune)要更新整組權重與 optimizer 狀態,70B 動輒 160GB 起跳,必須上多卡的 WRX90。採購前先確認你是「只推論」「QLoRA 輕量微調」還是「全量微調」,這條線決定預算等級。
規格抓對,預算才不會錯位。只跑 SDXL/小模型推論,AI-Eco(RTX PRO 4000 24GB,NT$185,000)就夠;要單卡 70B 推論或 QLoRA 微調,AI-High(48GB,NT$567,000)是甜蜜點;要本地跑 120B 等級或部署企業 RAG,才需要 96GB 的 AI-Highend。
雷 5:無在地保固——機器壞了,變成沒人管的孤兒
這是裸機自裝最致命、卻最常被忽略的雷。零件各買各的,保固就各自為政:顯卡找代理商、主機板找通路、電源找另一家。真正出問題時,沒有人能對「整台機器」負責,故障排除像在踢皮球。對企業來說,一台訓練機停擺一週,損失的遠不只維修費。
更現實的是水貨與平輸。2026 年因為 96GB GDDR7 全球缺料,RTX PRO 6000 行情一路飆升,海外貨源報價落差極大——便宜的水貨往往沒有台灣在地保固,壞了只能寄回國外、一去數週,等於把生產力押在運送途中。
MAQ 在這一塊提供的是完整的在地承諾:
- 三年硬體保固,整台機器一個窗口負責,不必在零件廠商之間踢皮球。
- 工程師全台(含外島)親送驗機——當面開機、當場驗收,不是丟貨運自己賭。
- 簽約戶備機,主力機送修期間有替代機頂上,產線不停。
- 遠端+到府技術支援,加上 Proxmox VE 虛擬化 與地端資安(資料 100% 留地端),不只賣硬體,是把整套維運接起來。
那雲端 API 不就好了?算一下損益平衡點
很多人會問:與其買機器,為何不直接用雲端 API?答案取決於用量。2026 年旗艦級 API(如 GPT-5.5)約 每百萬 input tokens US$5、output US$30;中階模型也要 input US$2.5/output US$15 的等級。用量小的時候,雲端確實划算。
但業界 2026 年的損益分析給出明確門檻:7B 模型約在每天 50 萬 tokens、70B 模型約在每天 200 萬 tokens 達到損益平衡——超過這條線,地端的純 token 成本可以省下 60~80%。對於每天大量呼叫、又在意資料不出區網的企業與研究室,地端幾乎是唯一解:雲端 API 不只貴,還得把資料送出去。
這正是 MAQ Atlas(企業地端 RAG 知識主機)的場景——RAG+知識圖譜+AI 助理+權限稽核,跑單張 RTX PRO 6000 96GB 載 gpt-oss-120B,實測 161 tok/s、支援 8 人並行、資料 100% 留在區網內。對受監管的產業、政府研究單位,這個「資料不出門」的特性比省錢更關鍵。
裸機自裝 vs 整機交付:一張表看懂
| 面向 | 裸機自裝 | MAQ 整機交付 |
|---|---|---|
| 環境(CUDA/Docker/驅動) | 自己裝,3~10 工作天起跳 | 出廠預裝+壓測,開箱即用 |
| 多卡 PCIe 通道 | 消費板易降速腰斬 | 工作站/WRX90 平台原生足通道 |
| 電源與散熱 | 自己算冗餘,算錯就當機降頻 | 出廠滿載壓測+到府驗機 |
| 規格匹配 | VRAM 抓錯,預算錯位 | 依模型尺寸對應機型,不超不缺 |
| 保固與維運 | 零件各自保固,故障踢皮球 | 三年保固+備機+全台親送支援 |
| 資料主權 | 需自建資安 | 地端資安,資料 100% 留地端 |
給 CTO 與研究室的最終決策清單
把採購收斂成三個問題,就能對到正確的機型:
- 你要跑什麼模型、多大?SDXL/小模型推論看 AI-Eco;單卡 70B 級(Llama 3.3 70B、Qwen3 32B、Gemma 3 27B 等)或 QLoRA 看 AI-High(48GB);本地 120B 或企業 RAG 看 AI-Highend(96GB)。圖像生成專用走 Stable-Diffusion-Highend。
- 要不要多卡?FP16 全精度推論、全量微調、4~7 卡並聯,直接看 AMD-WRX90,別在消費級平台上硬撐。
- 你的團隊有幾個工時可以耗在裝環境與救機器?如果答案是「零,我們要專心做研究」,那整機交付省下的時間成本,早就把零件價差賺回來了。
AI 工作站採購的本質,是用確定性換時間。零件可以自己買,但「週一早上開機就能訓練」「壞了有人三年內負責」「滿載跑得住不降頻」——這些確定性,才是企業真正付錢買的東西。想先搞清楚自己該選哪一台,可以從 AI 硬體選購指南 開始對照,再到 AI 工作站總覽 挑對 VRAM。