當你的模型大到單卡裝不下,或訓練吞吐卡在一張 GPU 的算力上限時,就進入了多卡並聯的世界。但多卡不是把幾張顯卡插進機殼那麼簡單——PCIe 通道怎麼分、電源怎麼供、熱怎麼排、卡間頻寬夠不夠,任何一環沒做對,輕則效能腰斬,重則訓練到一半當機。這篇文章把 2026 年建一台四卡/八卡 AI 訓練節點該想清楚的事,一次講透,並用實測過的數字告訴你哪些設計是必須、哪些是行銷話術。
為什麼非多卡不可?先算清楚你的 VRAM 帳
多卡的第一個理由通常不是「速度」,而是「裝不下」。同一個 70B 模型,在不同精度下的記憶體佔用差距是數量級的:
| 工作負載 | 精度/方法 | VRAM 需求(保守標量化) | 單卡可行性 |
|---|---|---|---|
| 70B 推論 | Q4_K_M 4-bit 量化 | ≈43GB | 單卡 48GB 可跑 |
| 72B 推論 | Q4 量化 | ≈47GB | 逼近 48GB 上限 |
| gpt-oss-120b 推論 | MXFP4 | ≈60GB | 單卡 96GB 可跑 |
| 70B 推論 | FP16 全精度 | ≈140GB | 必須多卡合計 |
| QLoRA 微調 70B | 4-bit 基底+LoRA | ≈46–48GB | 單卡 48GB 勉強 |
| 標準 LoRA 微調 70B | FP16 基底 | ≈160GB | 必須多卡 |
關鍵分水嶺很清楚:只要你要的是「全精度(FP16)」,無論推論還是訓練,單張卡——即使是當前 VRAM 最大的 RTX PRO 6000 Blackwell 96GB——都不夠裝。一個 70B 模型光權重在 FP16 下就吃掉約 140GB,而生產環境一旦加上 KV cache、activation 與框架 overhead,實際可能逼近 200GB。這就是多卡節點存在的根本理由。
量化能讓你「用一張卡跑大模型」,但量化是有代價的。當研究與生產要求數值保真度、要做全精度微調、或要訓練自己的模型時,你需要的不是省 VRAM 的技巧,而是真正把多張卡的記憶體與算力合而為一。
PCIe 通道分配:避免「腰斬」的第一課
多卡建置最常見、也最隱形的坑,就是 PCIe 通道不足導致每張卡只跑在 ×8 甚至 ×4。一張 RTX PRO 6000 Blackwell 是 PCIe 5.0 ×16 介面的卡,如果主機板只給它 ×8,在跨卡通訊密集的訓練場景下,頻寬直接腰斬。
消費級平台的天花板
問題出在 CPU 與晶片組能提供的 PCIe 通道總數。一般消費級平台(如 AM5)CPU 直連通道通常只有 24–28 條,插兩張卡就要靠晶片組拆分或共享,第二張卡很容易掉到 ×4。這就是為什麼真正的多卡訓練節點要用工作站/HEDT 平台。
WRX90 平台:128 條 PCIe 5.0 通道
AMD 的 WRX90 工作站平台搭配 Threadripper PRO 9000 系列,提供高達 128 條 PCIe 5.0 通道。這個數字的意義很直接:
- 4 張全寬 GPU × PCIe 5.0 ×16 = 64 條,每張都吃滿頻寬不腰斬,還剩下大量通道給 NVMe、網卡。
- WRX90 晶片組搭配 9995WX(96 核)官方即支援四張雙寬 GPU 全速 ×16 運作,這正是選擇 Threadripper PRO 而非消費級平台跑多卡的核心理由。
- 透過拆分為 ×8,平台可進一步擴展到更多卡的並聯佈局,視機殼與供電而定。
MAQ 的 AMD-WRX90(96 核 Threadripper PRO 9995WX、256GB ECC、NT$1,410,000 起)正是建立在這個平台上,原生支援 4–7 卡並聯。對要做張量並行或全精度訓練的團隊,這是「不必妥協通道」的起點。
電源規劃:每張 600W,先把總帳算對
多卡建置的第二道硬門檻是供電。RTX PRO 6000 Blackwell 的功耗依版本不同:
- Workstation 版:600W TDP(標準桌上型工作站採用)。
- Max-Q 版:最高約 300W(為高密度多卡而生,犧牲部分效能換低功耗低發熱)。
- Server 版:450–600W(依供電線材設定)。
四卡與八卡的電源算術
用 Workstation 版 600W 為例做最壞情況估算:
| 配置 | GPU 功耗合計 | CPU+平台 | 建議電源(含餘裕) |
|---|---|---|---|
| 4 卡(600W 版) | ≈2,400W | ≈400–500W | 3,000W+(建議冗餘或雙電源) |
| 4 卡(Max-Q 300W 版) | ≈1,200W | ≈400–500W | 2,000W 級 |
| 8 卡(Max-Q 300W 版) | ≈2,400W | ≈500W | 3,000W+/雙電源 |
幾個務必注意的工程現實:
- 單一台灣家用迴路(110V/15–20A)約 1,650–2,200W 上限,四張 600W 版的滿載節點可能需要 220V 專線或拆分迴路,這在規劃機房/辦公室時要先確認。
- 多卡訓練時 GPU 會出現同步功耗尖峰(transient spike),瞬時可達 TDP 的 1.2–1.5 倍,電源餘裕與冗餘設計不是奢侈品。
- 八卡這類密度通常走 Max-Q 版,因為 8×600W=4,800W 的供電與排熱在塔式機殼幾乎不可行,這也是為什麼真正的八卡多走機架式伺服器平台。
散熱與機殼:熱密度決定形態
四張全功率 GPU 把超過 2.4kW 的熱量塞進一個機殼,散熱設計就從「裝得下」變成「排得掉」。
塔式 vs 機架式
- 塔式工作站(4 卡):適合放在辦公室或研究室,噪音與環境溫度可控,是 WRX90 平台 4 卡節點的主流形態。重點在 GPU 間距(雙寬卡要留呼吸空間)、前後風道、與機殼內正壓設計。
- 機架式(8 卡):高密度部署的標準答案。4U/5U 機箱搭配高轉速暴力風扇或氣冷導風罩,需放進有空調與足夠氣流的機房,噪音不適合人員長駐空間。
風冷 vs 渦輪 vs 水冷
多卡並排時,開放式三風扇散熱(axial)的卡會把熱吹給隔壁卡,造成中間卡過熱降頻。因此密集多卡偏好渦輪鼓風(blower)式或 Server 版被動散熱+機箱強制風道,把熱直接往機箱後方排出。水冷能進一步壓低溫度與噪音,但增加維護複雜度與漏液風險,企業環境須權衡。
卡間頻寬為何關鍵:張量並行 vs 管線並行
這是多卡建置最容易被忽略、卻最決定實際效能的一段。把模型拆到多張卡上有兩種主要策略,對「卡間頻寬」的需求天差地別。
張量並行(Tensor Parallelism, TP)
TP 把單一層的權重張量橫向切開,分散到多張卡同時計算,再透過 AllReduce 把結果合併。它的特性是:
- 通訊極度密集:每一層、每一次前向/反向傳播都要跨卡同步,是所有並行策略中對互連頻寬最敏感的。
- 因此 TP「只跟卡間那條鏈路一樣快」——鏈路慢,整體就慢。
- 在資料中心 SXM 平台上,TP 可吃 NVLink;但在工作站/PCIe 平台上,TP 完全依賴節點內的 PCIe 5.0 ×16,這也是為什麼通道分配如此關鍵。一旦鏈路受限,AllReduce 成本就會高到吃掉多卡的收益。
管線並行(Pipeline Parallelism, PP)
PP 改用按深度切分:GPU 0 載前 1/4 層、GPU 1 載下 1/4 層,依序傳遞。它的通訊只發生在「層與層的交界」,頻寬需求遠低於 TP,因此對 PCIe-only(無 NVLink)的環境更友善。代價是會產生 pipeline bubble(氣泡),需要靠 micro-batch 切分來填滿。
| 面向 | 張量並行(TP) | 管線並行(PP) |
|---|---|---|
| 切分方式 | 單層橫向切張量 | 按層深度縱向切 |
| 卡間通訊頻率 | 每層、每次傳播(極高) | 僅層交界(低) |
| 對互連頻寬 | 極度敏感,偏好高頻寬互連(資料中心走 NVLink;本平台走 PCIe 5.0 ×16) | PCIe Gen5 即可勝任 |
| 主要代價 | 頻寬受限即瓶頸 | pipeline 氣泡 |
| 適用 | 單節點內高速互連 | 跨節點或 PCIe 環境 |
實務怎麼選?
實務上常見的做法是混合並行:節點「內」用 TP,節點「間」或頻寬較弱處用 PP。這裡有一個常被誤解的重點要先講清楚——本文涉及的所有工作站卡(RTX PRO 5000、RTX PRO 6000 Blackwell)都不支援 NVLink。NVIDIA 的 RTX PRO 6000 Blackwell 不論 Workstation、Max-Q 或 Server 版,官方都已取消 NVLink,多卡之間只能走 PCIe 5.0 ×16(約 128GB/s 雙向)。換句話說,在 WRX90 4 卡節點裡,TP 的卡間通訊完全靠 PCIe 5.0 ×16 撐起,這正是為什麼 128 條通道、每張卡都吃滿 ×16 如此關鍵——通道一旦掉到 ×8,TP 的效能就直接打折。若你真的需要 NVLink 級的卡間互連(單橋數百 GB/s),那是 H100/H200/B200 這類 SXM 機架平台的範疇,不在工作站產品線之內,建置與成本是完全不同的量級。
對照表:MAQ 多卡路線怎麼選
不是每個團隊一開始就需要四卡。MAQ 的產品線提供從單卡到原生多卡的清晰升級路徑:
| 機型 | GPU/VRAM | 定位 | 價格(起) |
|---|---|---|---|
| AI-High | RTX PRO 5000 48GB | 單卡跑 70B(Q4),24 核 Threadripper | NT$567,000 |
| AI-Highend | RTX PRO 6000 96GB | 單卡載 gpt-oss-120b,32 核 9975WX | NT$1,145,000 |
| AMD-WRX90 | RTX PRO 6000 96GB(可擴) | 96 核 9995WX,原生 4–7 卡並聯 | NT$1,410,000 |
邏輯很清楚:
- 只要量化推論單一大模型 → AI-High/AI-Highend 單卡即可。
- 要全精度 70B(FP16≈140GB)、標準 LoRA(≈160GB)、或張量並行訓練 → 單卡不夠,需要 AMD-WRX90 的原生多卡平台把 VRAM 與算力合計。
- AMD-WRX90 的 96 核 9995WX 不只是核心多,更帶來那關鍵的 128 條 PCIe 5.0 通道,確保 4 張卡都吃滿 ×16 不腰斬——這是消費級平台給不了的。由於這些工作站卡沒有 NVLink,TP 的卡間互連完全靠這 128 條通道,通道夠不夠就是效能天花板。
自建還是租雲端?2026 的成本現實
很多人會問:既然多卡這麼複雜,為什麼不租雲端?2026 年的行情是這樣的:
- 雲端 H100 隨用隨付約 每卡每小時 US$2–4(小型雲常見 US$3 以下,AWS/GCP 隨需約 US$5–7)。
- 以實際 TCO 試算(前提:3 年折舊、使用率 >70%、自購卡 vs AWS/GCP 隨需),持續滿載的生產負載,雲端隨需成本通常是自有硬體有效成本的數倍,倍率高低視使用率與折舊年限而定——使用率越高、折舊年限越長,自建越划算;反之短期、間歇的負載租雲端反而更省。換言之,這不是「自建一定贏」,而是看你的負載型態。
- 更別說資料主權:模型權重、訓練資料、推論流量全留在自己機房,不出區網——這對受規範產業(醫療、金融、政府、研究機構)往往是硬性要求,不是成本問題。
結論不是「雲端不好」,而是當你的多卡節點要長時間滿載、且資料不能外流,自建的 TCO 與合規性通常勝出。
建置檢查清單:照這個順序確認
- VRAM 帳:你的目標是量化推論、全精度推論、QLoRA 還是全精度訓練?算出合計 VRAM 需求,決定卡數。
- PCIe 通道:確認平台能給每張卡 ×16(或可接受的 ×8)。WRX90 的 128 條是安全牌。
- 電源:用最壞情況(GPU TDP × 卡數 × 1.3 餘裕)估,確認迴路電壓與冗餘。
- 散熱與形態:4 卡塔式可進辦公室,8 卡機架式要進機房。
- 並行策略:節點內 TP 吃頻寬(工作站卡無 NVLink,靠 PCIe 5.0 ×16)、跨節點 PP 省頻寬;確認互連能撐住你的策略。
- 軟體棧:vLLM/CUDA/Docker 等是否預裝、是否有人幫你把多卡跑起來。
最後一點常被低估。多卡節點「裝好」只是開始,把 vLLM 的張量並行參數調對、讓四張卡協同到滿載,是另一段工程。MAQ 的機器出廠即預裝 Ollama/ComfyUI/CUDA/Docker/vLLM/MLX 等,工程師全台(含外島)親送驗機、提供三年硬體保固與遠端+到府技術支援,並支援 Proxmox VE 虛擬化——讓你拆箱就能跑 ollama run llama3.3 或直接起 vLLM 多卡服務,而不是花兩週跟驅動與 NCCL 搏鬥。若你想先看單卡地端 RAG 的實測表現,MAQ Atlas 以單張 RTX PRO 6000 96GB 載 gpt-oss-120B 跑出 161 tok/s、支援 8 人並行、資料全留地端,是評估多卡前的好參照點。