採購評比

多卡 AI 訓練節點建置指南(2026):四卡/八卡並聯的電源、散熱、PCIe 與張量並行

2026-06-13 | 約 11 分鐘 | MAQ 技術團隊

當你的模型大到單卡裝不下,或訓練吞吐卡在一張 GPU 的算力上限時,就進入了多卡並聯的世界。但多卡不是把幾張顯卡插進機殼那麼簡單——PCIe 通道怎麼分、電源怎麼供、熱怎麼排、卡間頻寬夠不夠,任何一環沒做對,輕則效能腰斬,重則訓練到一半當機。這篇文章把 2026 年建一台四卡/八卡 AI 訓練節點該想清楚的事,一次講透,並用實測過的數字告訴你哪些設計是必須、哪些是行銷話術。

為什麼非多卡不可?先算清楚你的 VRAM 帳

多卡的第一個理由通常不是「速度」,而是「裝不下」。同一個 70B 模型,在不同精度下的記憶體佔用差距是數量級的:

工作負載精度/方法VRAM 需求(保守標量化)單卡可行性
70B 推論Q4_K_M 4-bit 量化≈43GB單卡 48GB 可跑
72B 推論Q4 量化≈47GB逼近 48GB 上限
gpt-oss-120b 推論MXFP4≈60GB單卡 96GB 可跑
70B 推論FP16 全精度≈140GB必須多卡合計
QLoRA 微調 70B4-bit 基底+LoRA≈46–48GB單卡 48GB 勉強
標準 LoRA 微調 70BFP16 基底≈160GB必須多卡

關鍵分水嶺很清楚:只要你要的是「全精度(FP16)」,無論推論還是訓練,單張卡——即使是當前 VRAM 最大的 RTX PRO 6000 Blackwell 96GB——都不夠裝。一個 70B 模型光權重在 FP16 下就吃掉約 140GB,而生產環境一旦加上 KV cache、activation 與框架 overhead,實際可能逼近 200GB。這就是多卡節點存在的根本理由。

量化能讓你「用一張卡跑大模型」,但量化是有代價的。當研究與生產要求數值保真度、要做全精度微調、或要訓練自己的模型時,你需要的不是省 VRAM 的技巧,而是真正把多張卡的記憶體與算力合而為一。

PCIe 通道分配:避免「腰斬」的第一課

多卡建置最常見、也最隱形的坑,就是 PCIe 通道不足導致每張卡只跑在 ×8 甚至 ×4。一張 RTX PRO 6000 Blackwell 是 PCIe 5.0 ×16 介面的卡,如果主機板只給它 ×8,在跨卡通訊密集的訓練場景下,頻寬直接腰斬。

消費級平台的天花板

問題出在 CPU 與晶片組能提供的 PCIe 通道總數。一般消費級平台(如 AM5)CPU 直連通道通常只有 24–28 條,插兩張卡就要靠晶片組拆分或共享,第二張卡很容易掉到 ×4。這就是為什麼真正的多卡訓練節點要用工作站/HEDT 平台

WRX90 平台:128 條 PCIe 5.0 通道

AMD 的 WRX90 工作站平台搭配 Threadripper PRO 9000 系列,提供高達 128 條 PCIe 5.0 通道。這個數字的意義很直接:

  • 4 張全寬 GPU × PCIe 5.0 ×16 = 64 條,每張都吃滿頻寬不腰斬,還剩下大量通道給 NVMe、網卡。
  • WRX90 晶片組搭配 9995WX(96 核)官方即支援四張雙寬 GPU 全速 ×16 運作,這正是選擇 Threadripper PRO 而非消費級平台跑多卡的核心理由。
  • 透過拆分為 ×8,平台可進一步擴展到更多卡的並聯佈局,視機殼與供電而定。

MAQ 的 AMD-WRX90(96 核 Threadripper PRO 9995WX、256GB ECC、NT$1,410,000 起)正是建立在這個平台上,原生支援 4–7 卡並聯。對要做張量並行或全精度訓練的團隊,這是「不必妥協通道」的起點。

電源規劃:每張 600W,先把總帳算對

多卡建置的第二道硬門檻是供電。RTX PRO 6000 Blackwell 的功耗依版本不同:

  • Workstation 版:600W TDP(標準桌上型工作站採用)。
  • Max-Q 版:最高約 300W(為高密度多卡而生,犧牲部分效能換低功耗低發熱)。
  • Server 版:450–600W(依供電線材設定)。

四卡與八卡的電源算術

用 Workstation 版 600W 為例做最壞情況估算:

配置GPU 功耗合計CPU+平台建議電源(含餘裕)
4 卡(600W 版)≈2,400W≈400–500W3,000W+(建議冗餘或雙電源)
4 卡(Max-Q 300W 版)≈1,200W≈400–500W2,000W 級
8 卡(Max-Q 300W 版)≈2,400W≈500W3,000W+/雙電源

幾個務必注意的工程現實:

  • 單一台灣家用迴路(110V/15–20A)約 1,650–2,200W 上限,四張 600W 版的滿載節點可能需要 220V 專線或拆分迴路,這在規劃機房/辦公室時要先確認。
  • 多卡訓練時 GPU 會出現同步功耗尖峰(transient spike),瞬時可達 TDP 的 1.2–1.5 倍,電源餘裕與冗餘設計不是奢侈品。
  • 八卡這類密度通常走 Max-Q 版,因為 8×600W=4,800W 的供電與排熱在塔式機殼幾乎不可行,這也是為什麼真正的八卡多走機架式伺服器平台。

散熱與機殼:熱密度決定形態

四張全功率 GPU 把超過 2.4kW 的熱量塞進一個機殼,散熱設計就從「裝得下」變成「排得掉」。

塔式 vs 機架式

  • 塔式工作站(4 卡):適合放在辦公室或研究室,噪音與環境溫度可控,是 WRX90 平台 4 卡節點的主流形態。重點在 GPU 間距(雙寬卡要留呼吸空間)、前後風道、與機殼內正壓設計。
  • 機架式(8 卡):高密度部署的標準答案。4U/5U 機箱搭配高轉速暴力風扇或氣冷導風罩,需放進有空調與足夠氣流的機房,噪音不適合人員長駐空間。

風冷 vs 渦輪 vs 水冷

多卡並排時,開放式三風扇散熱(axial)的卡會把熱吹給隔壁卡,造成中間卡過熱降頻。因此密集多卡偏好渦輪鼓風(blower)式或 Server 版被動散熱+機箱強制風道,把熱直接往機箱後方排出。水冷能進一步壓低溫度與噪音,但增加維護複雜度與漏液風險,企業環境須權衡。

卡間頻寬為何關鍵:張量並行 vs 管線並行

這是多卡建置最容易被忽略、卻最決定實際效能的一段。把模型拆到多張卡上有兩種主要策略,對「卡間頻寬」的需求天差地別。

張量並行(Tensor Parallelism, TP)

TP 把單一層的權重張量橫向切開,分散到多張卡同時計算,再透過 AllReduce 把結果合併。它的特性是:

  • 通訊極度密集:每一層、每一次前向/反向傳播都要跨卡同步,是所有並行策略中對互連頻寬最敏感的。
  • 因此 TP「只跟卡間那條鏈路一樣快」——鏈路慢,整體就慢。
  • 在資料中心 SXM 平台上,TP 可吃 NVLink;但在工作站/PCIe 平台上,TP 完全依賴節點內的 PCIe 5.0 ×16,這也是為什麼通道分配如此關鍵。一旦鏈路受限,AllReduce 成本就會高到吃掉多卡的收益。

管線並行(Pipeline Parallelism, PP)

PP 改用按深度切分:GPU 0 載前 1/4 層、GPU 1 載下 1/4 層,依序傳遞。它的通訊只發生在「層與層的交界」,頻寬需求遠低於 TP,因此對 PCIe-only(無 NVLink)的環境更友善。代價是會產生 pipeline bubble(氣泡),需要靠 micro-batch 切分來填滿。

面向張量並行(TP)管線並行(PP)
切分方式單層橫向切張量按層深度縱向切
卡間通訊頻率每層、每次傳播(極高)僅層交界(低)
對互連頻寬極度敏感,偏好高頻寬互連(資料中心走 NVLink;本平台走 PCIe 5.0 ×16)PCIe Gen5 即可勝任
主要代價頻寬受限即瓶頸pipeline 氣泡
適用單節點內高速互連跨節點或 PCIe 環境

實務怎麼選?

實務上常見的做法是混合並行:節點「內」用 TP,節點「間」或頻寬較弱處用 PP。這裡有一個常被誤解的重點要先講清楚——本文涉及的所有工作站卡(RTX PRO 5000、RTX PRO 6000 Blackwell)都不支援 NVLink。NVIDIA 的 RTX PRO 6000 Blackwell 不論 Workstation、Max-Q 或 Server 版,官方都已取消 NVLink,多卡之間只能走 PCIe 5.0 ×16(約 128GB/s 雙向)。換句話說,在 WRX90 4 卡節點裡,TP 的卡間通訊完全靠 PCIe 5.0 ×16 撐起,這正是為什麼 128 條通道、每張卡都吃滿 ×16 如此關鍵——通道一旦掉到 ×8,TP 的效能就直接打折。若你真的需要 NVLink 級的卡間互連(單橋數百 GB/s),那是 H100/H200/B200 這類 SXM 機架平台的範疇,不在工作站產品線之內,建置與成本是完全不同的量級。

對照表:MAQ 多卡路線怎麼選

不是每個團隊一開始就需要四卡。MAQ 的產品線提供從單卡到原生多卡的清晰升級路徑:

機型GPU/VRAM定位價格(起)
AI-HighRTX PRO 5000 48GB單卡跑 70B(Q4),24 核 ThreadripperNT$567,000
AI-HighendRTX PRO 6000 96GB單卡載 gpt-oss-120b,32 核 9975WXNT$1,145,000
AMD-WRX90RTX PRO 6000 96GB(可擴)96 核 9995WX,原生 4–7 卡並聯NT$1,410,000

邏輯很清楚:

  • 只要量化推論單一大模型 → AI-High/AI-Highend 單卡即可。
  • 全精度 70B(FP16≈140GB)、標準 LoRA(≈160GB)、或張量並行訓練 → 單卡不夠,需要 AMD-WRX90 的原生多卡平台把 VRAM 與算力合計。
  • AMD-WRX90 的 96 核 9995WX 不只是核心多,更帶來那關鍵的 128 條 PCIe 5.0 通道,確保 4 張卡都吃滿 ×16 不腰斬——這是消費級平台給不了的。由於這些工作站卡沒有 NVLink,TP 的卡間互連完全靠這 128 條通道,通道夠不夠就是效能天花板。

自建還是租雲端?2026 的成本現實

很多人會問:既然多卡這麼複雜,為什麼不租雲端?2026 年的行情是這樣的:

  • 雲端 H100 隨用隨付約 每卡每小時 US$2–4(小型雲常見 US$3 以下,AWS/GCP 隨需約 US$5–7)。
  • 以實際 TCO 試算(前提:3 年折舊、使用率 >70%、自購卡 vs AWS/GCP 隨需),持續滿載的生產負載,雲端隨需成本通常是自有硬體有效成本的數倍,倍率高低視使用率與折舊年限而定——使用率越高、折舊年限越長,自建越划算;反之短期、間歇的負載租雲端反而更省。換言之,這不是「自建一定贏」,而是看你的負載型態。
  • 更別說資料主權:模型權重、訓練資料、推論流量全留在自己機房,不出區網——這對受規範產業(醫療、金融、政府、研究機構)往往是硬性要求,不是成本問題。

結論不是「雲端不好」,而是當你的多卡節點要長時間滿載、且資料不能外流,自建的 TCO 與合規性通常勝出

建置檢查清單:照這個順序確認

  • VRAM 帳:你的目標是量化推論、全精度推論、QLoRA 還是全精度訓練?算出合計 VRAM 需求,決定卡數。
  • PCIe 通道:確認平台能給每張卡 ×16(或可接受的 ×8)。WRX90 的 128 條是安全牌。
  • 電源:用最壞情況(GPU TDP × 卡數 × 1.3 餘裕)估,確認迴路電壓與冗餘。
  • 散熱與形態:4 卡塔式可進辦公室,8 卡機架式要進機房。
  • 並行策略:節點內 TP 吃頻寬(工作站卡無 NVLink,靠 PCIe 5.0 ×16)、跨節點 PP 省頻寬;確認互連能撐住你的策略。
  • 軟體棧:vLLM/CUDA/Docker 等是否預裝、是否有人幫你把多卡跑起來。

最後一點常被低估。多卡節點「裝好」只是開始,把 vLLM 的張量並行參數調對、讓四張卡協同到滿載,是另一段工程。MAQ 的機器出廠即預裝 Ollama/ComfyUI/CUDA/Docker/vLLM/MLX 等,工程師全台(含外島)親送驗機、提供三年硬體保固與遠端+到府技術支援,並支援 Proxmox VE 虛擬化——讓你拆箱就能跑 ollama run llama3.3 或直接起 vLLM 多卡服務,而不是花兩週跟驅動與 NCCL 搏鬥。若你想先看單卡地端 RAG 的實測表現,MAQ Atlas 以單張 RTX PRO 6000 96GB 載 gpt-oss-120B 跑出 161 tok/s、支援 8 人並行、資料全留地端,是評估多卡前的好參照點。

常見問題

跑全精度 70B 模型(FP16)為什麼一定要多張顯卡?

因為一個 70B 參數模型在 FP16 全精度下,光權重就約佔 140GB VRAM,加上 KV cache、activation 與框架 overhead,生產環境可能逼近 200GB。即使是目前 VRAM 最大的單張工作站卡 RTX PRO 6000 Blackwell(96GB)也裝不下,必須靠多卡把記憶體合計。若改用 Q4 量化,70B 約只需 43GB,單張 48GB 卡即可跑,但會犧牲數值保真度。要全精度,就得走多卡平台如 MAQ AMD-WRX90。

多卡 AI 訓練為什麼一定要 WRX90 這種平台,消費級主機板不行嗎?

關鍵在 PCIe 通道數。消費級平台 CPU 直連通道通常只有 24–28 條,插第二張卡就容易掉到 ×8 甚至 ×4,讓 PCIe 5.0 ×16 的卡頻寬腰斬,在張量並行這類通訊密集場景下嚴重拖慢效能。AMD WRX90 平台搭配 Threadripper PRO 9995WX 提供 128 條 PCIe 5.0 通道,可讓 4 張全寬 GPU 全部吃滿 ×16 不腰斬。又因為 RTX PRO 6000 Blackwell 這類工作站卡不支援 NVLink、卡間互連完全靠 PCIe,這 128 條通道就更不能省,這也是 MAQ AMD-WRX90 原生支援 4–7 卡並聯的基礎。

四卡 RTX PRO 6000 節點需要多大的電源?

RTX PRO 6000 Blackwell Workstation 版 TDP 為 600W,四張滿載約 2,400W,加上 CPU 與平台約 400–500W,建議配置 3,000W 以上電源並留冗餘餘裕(GPU 同步功耗尖峰可達 TDP 的 1.2–1.5 倍)。注意台灣單一家用 110V 迴路約 1,650–2,200W 上限,四卡滿載節點可能需要 220V 專線或拆分迴路。高密度八卡通常改用 Max-Q 版(約 300W/張)並走機架式平台。

張量並行和管線並行差在哪?該怎麼選?

張量並行(TP)把單一層的權重橫向切到多卡同時算,每層每次傳播都要跨卡同步,對卡間頻寬極度敏感。要注意 RTX PRO 6000 Blackwell 這類工作站卡並不支援 NVLink,所以在 WRX90 這種節點裡,TP 的卡間互連完全依賴 PCIe 5.0 ×16,這也是為什麼通道不能腰斬;NVLink 級互連屬於 H100/H200 SXM 機架平台,不在工作站產品線。管線並行(PP)按層深度縱向切,通訊只發生在層交界,頻寬需求低,對純 PCIe 環境更友善,但會有 pipeline 氣泡。實務常用混合並行:節點內用 TP、跨節點用 PP。對單一 WRX90 4 卡節點,PCIe 5.0 ×16 的高頻寬讓節點內 TP 可行。

自建多卡訓練節點和租雲端 GPU,哪個比較划算?

2026 年雲端 H100 隨用隨付約每卡每小時 US$2–4(小型雲常見 US$3 以下,AWS/GCP 隨需約 US$5–7)。以 3 年折舊、使用率 >70% 的前提試算,持續滿載的生產負載,雲端隨需成本通常是自有硬體有效成本的數倍,但實際倍率視使用率與折舊年限而定——使用率越高、折舊越久,自建越划算;短期間歇負載則租雲端較省。再加上資料主權考量——模型、訓練資料、推論流量全留地端不出區網,對醫療、金融、政府、研究機構往往是合規硬性要求。因此長時間滿載且資料敏感的場景,自建(如 MAQ AMD-WRX90)通常勝出。

要跑全精度 70B、做張量並行訓練?直接從原生多卡平台起步

MAQ AMD-WRX90 以 96 核 9995WX+WRX90 平台原生支援 4–7 卡並聯,128 條 PCIe 5.0 通道讓每張卡都吃滿 ×16,不腰斬。出廠預裝 vLLM/CUDA/Docker,工程師全台親送驗機、三年保固。