跑全精度 70B 模型（FP16）為什麼一定要多張顯卡？

因為一個 70B 參數模型在 FP16 全精度下，光權重就約佔 140GB VRAM，加上 KV cache、activation 與框架 overhead，生產環境可能逼近 200GB。即使是目前 VRAM 最大的單張工作站卡 RTX PRO 6000 Blackwell（96GB）也裝不下，必須靠多卡把記憶體合計。若改用 Q4 量化，70B 約只需 43GB，單張 48GB 卡即可跑，但會犧牲數值保真度。要全精度，就得走多卡平台如 MAQ AMD-WRX90。

多卡 AI 訓練為什麼一定要 WRX90 這種平台，消費級主機板不行嗎？

關鍵在 PCIe 通道數。消費級平台 CPU 直連通道通常只有 24–28 條，插第二張卡就容易掉到 ×8 甚至 ×4，讓 PCIe 5.0 ×16 的卡頻寬腰斬，在張量並行這類通訊密集場景下嚴重拖慢效能。AMD WRX90 平台搭配 Threadripper PRO 9995WX 提供 128 條 PCIe 5.0 通道，可讓 4 張全寬 GPU 全部吃滿 ×16 不腰斬。又因為 RTX PRO 6000 Blackwell 這類工作站卡不支援 NVLink、卡間互連完全靠 PCIe，這 128 條通道就更不能省，這也是 MAQ AMD-WRX90 原生支援 4–7 卡並聯的基礎。

四卡 RTX PRO 6000 節點需要多大的電源？

RTX PRO 6000 Blackwell Workstation 版 TDP 為 600W，四張滿載約 2,400W，加上 CPU 與平台約 400–500W，建議配置 3,000W 以上電源並留冗餘餘裕（GPU 同步功耗尖峰可達 TDP 的 1.2–1.5 倍）。注意台灣單一家用 110V 迴路約 1,650–2,200W 上限，四卡滿載節點可能需要 220V 專線或拆分迴路。高密度八卡通常改用 Max-Q 版（約 300W／張）並走機架式平台。

張量並行和管線並行差在哪？該怎麼選？

張量並行（TP）把單一層的權重橫向切到多卡同時算，每層每次傳播都要跨卡同步，對卡間頻寬極度敏感。要注意 RTX PRO 6000 Blackwell 這類工作站卡並不支援 NVLink，所以在 WRX90 這種節點裡，TP 的卡間互連完全依賴 PCIe 5.0 ×16，這也是為什麼通道不能腰斬；NVLink 級互連屬於 H100／H200 SXM 機架平台，不在工作站產品線。管線並行（PP）按層深度縱向切，通訊只發生在層交界，頻寬需求低，對純 PCIe 環境更友善，但會有 pipeline 氣泡。實務常用混合並行：節點內用 TP、跨節點用 PP。對單一 WRX90 4 卡節點，PCIe 5.0 ×16 的高頻寬讓節點內 TP 可行。

自建多卡訓練節點和租雲端 GPU，哪個比較划算？

2026 年雲端 H100 隨用隨付約每卡每小時 US$2–4（小型雲常見 US$3 以下，AWS／GCP 隨需約 US$5–7）。以 3 年折舊、使用率 >70% 的前提試算，持續滿載的生產負載，雲端隨需成本通常是自有硬體有效成本的數倍，但實際倍率視使用率與折舊年限而定——使用率越高、折舊越久，自建越划算；短期間歇負載則租雲端較省。再加上資料主權考量——模型、訓練資料、推論流量全留地端不出區網，對醫療、金融、政府、研究機構往往是合規硬性要求。因此長時間滿載且資料敏感的場景，自建（如 MAQ AMD-WRX90）通常勝出。

多卡 AI 訓練節點建置指南（2026）：四卡／八卡並聯的電源、散熱、PCIe 與張量並行

當你的模型大到單卡裝不下，或訓練吞吐卡在一張 GPU 的算力上限時，就進入了多卡並聯的世界。但多卡不是把幾張顯卡插進機殼那麼簡單——PCIe 通道怎麼分、電源怎麼供、熱怎麼排、卡間頻寬夠不夠，任何一環沒做對，輕則效能腰斬，重則訓練到一半當機。這篇文章把 2026 年建一台四卡／八卡 AI 訓練節點該想清楚的事，一次講透，並用實測過的數字告訴你哪些設計是必須、哪些是行銷話術。

為什麼非多卡不可？先算清楚你的 VRAM 帳

多卡的第一個理由通常不是「速度」，而是「裝不下」。同一個 70B 模型，在不同精度下的記憶體佔用差距是數量級的：

工作負載	精度／方法	VRAM 需求（保守標量化）	單卡可行性
70B 推論	Q4_K_M 4-bit 量化	≈43GB	單卡 48GB 可跑
72B 推論	Q4 量化	≈47GB	逼近 48GB 上限
gpt-oss-120b 推論	MXFP4	≈60GB	單卡 96GB 可跑
70B 推論	FP16 全精度	≈140GB	必須多卡合計
QLoRA 微調 70B	4-bit 基底＋LoRA	≈46–48GB	單卡 48GB 勉強
標準 LoRA 微調 70B	FP16 基底	≈160GB	必須多卡

關鍵分水嶺很清楚：只要你要的是「全精度（FP16）」，無論推論還是訓練，單張卡——即使是當前 VRAM 最大的 RTX PRO 6000 Blackwell 96GB——都不夠裝。一個 70B 模型光權重在 FP16 下就吃掉約 140GB，而生產環境一旦加上 KV cache、activation 與框架 overhead，實際可能逼近 200GB。這就是多卡節點存在的根本理由。

量化能讓你「用一張卡跑大模型」，但量化是有代價的。當研究與生產要求數值保真度、要做全精度微調、或要訓練自己的模型時，你需要的不是省 VRAM 的技巧，而是真正把多張卡的記憶體與算力合而為一。

PCIe 通道分配：避免「腰斬」的第一課

多卡建置最常見、也最隱形的坑，就是 PCIe 通道不足導致每張卡只跑在 ×8 甚至 ×4。一張 RTX PRO 6000 Blackwell 是 PCIe 5.0 ×16 介面的卡，如果主機板只給它 ×8，在跨卡通訊密集的訓練場景下，頻寬直接腰斬。

消費級平台的天花板

問題出在 CPU 與晶片組能提供的 PCIe 通道總數。一般消費級平台（如 AM5）CPU 直連通道通常只有 24–28 條，插兩張卡就要靠晶片組拆分或共享，第二張卡很容易掉到 ×4。這就是為什麼真正的多卡訓練節點要用工作站／HEDT 平台。

WRX90 平台：128 條 PCIe 5.0 通道

AMD 的 WRX90 工作站平台搭配 Threadripper PRO 9000 系列，提供高達 128 條 PCIe 5.0 通道。這個數字的意義很直接：

4 張全寬 GPU × PCIe 5.0 ×16 = 64 條，每張都吃滿頻寬不腰斬，還剩下大量通道給 NVMe、網卡。
WRX90 晶片組搭配 9995WX（96 核）官方即支援四張雙寬 GPU 全速 ×16 運作，這正是選擇 Threadripper PRO 而非消費級平台跑多卡的核心理由。
透過拆分為 ×8，平台可進一步擴展到更多卡的並聯佈局，視機殼與供電而定。

MAQ 的 AMD-WRX90（96 核 Threadripper PRO 9995WX、256GB ECC、NT$1,515,000 起）正是建立在這個平台上，原生支援 4–7 卡並聯。對要做張量並行或全精度訓練的團隊，這是「不必妥協通道」的起點。

電源規劃：每張 600W，先把總帳算對

多卡建置的第二道硬門檻是供電。RTX PRO 6000 Blackwell 的功耗依版本不同：

Workstation 版：600W TDP（標準桌上型工作站採用）。
Max-Q 版：最高約 300W（為高密度多卡而生，犧牲部分效能換低功耗低發熱）。
Server 版：450–600W（依供電線材設定）。

四卡與八卡的電源算術

用 Workstation 版 600W 為例做最壞情況估算：

配置	GPU 功耗合計	CPU＋平台	建議電源（含餘裕）
4 卡（600W 版）	≈2,400W	≈400–500W	3,000W＋（建議冗餘或雙電源）
4 卡（Max-Q 300W 版）	≈1,200W	≈400–500W	2,000W 級
8 卡（Max-Q 300W 版）	≈2,400W	≈500W	3,000W＋／雙電源

幾個務必注意的工程現實：

單一台灣家用迴路（110V／15–20A）約 1,650–2,200W 上限，四張 600W 版的滿載節點可能需要 220V 專線或拆分迴路，這在規劃機房／辦公室時要先確認。
多卡訓練時 GPU 會出現同步功耗尖峰（transient spike），瞬時可達 TDP 的 1.2–1.5 倍，電源餘裕與冗餘設計不是奢侈品。
八卡這類密度通常走 Max-Q 版，因為 8×600W＝4,800W 的供電與排熱在塔式機殼幾乎不可行，這也是為什麼真正的八卡多走機架式伺服器平台。

散熱與機殼：熱密度決定形態

四張全功率 GPU 把超過 2.4kW 的熱量塞進一個機殼，散熱設計就從「裝得下」變成「排得掉」。

塔式 vs 機架式

塔式工作站（4 卡）：適合放在辦公室或研究室，噪音與環境溫度可控，是 WRX90 平台 4 卡節點的主流形態。重點在 GPU 間距（雙寬卡要留呼吸空間）、前後風道、與機殼內正壓設計。
機架式（8 卡）：高密度部署的標準答案。4U／5U 機箱搭配高轉速暴力風扇或氣冷導風罩，需放進有空調與足夠氣流的機房，噪音不適合人員長駐空間。

風冷 vs 渦輪 vs 水冷

多卡並排時，開放式三風扇散熱（axial）的卡會把熱吹給隔壁卡，造成中間卡過熱降頻。因此密集多卡偏好渦輪鼓風（blower）式或 Server 版被動散熱＋機箱強制風道，把熱直接往機箱後方排出。水冷能進一步壓低溫度與噪音，但增加維護複雜度與漏液風險，企業環境須權衡。

卡間頻寬為何關鍵：張量並行 vs 管線並行

這是多卡建置最容易被忽略、卻最決定實際效能的一段。把模型拆到多張卡上有兩種主要策略，對「卡間頻寬」的需求天差地別。

張量並行（Tensor Parallelism, TP）

TP 把單一層的權重張量橫向切開，分散到多張卡同時計算，再透過 AllReduce 把結果合併。它的特性是：

通訊極度密集：每一層、每一次前向／反向傳播都要跨卡同步，是所有並行策略中對互連頻寬最敏感的。
因此 TP「只跟卡間那條鏈路一樣快」——鏈路慢，整體就慢。
在資料中心 SXM 平台上，TP 可吃 NVLink；但在工作站／PCIe 平台上，TP 完全依賴節點內的 PCIe 5.0 ×16，這也是為什麼通道分配如此關鍵。一旦鏈路受限，AllReduce 成本就會高到吃掉多卡的收益。

管線並行（Pipeline Parallelism, PP）

PP 改用按深度切分：GPU 0 載前 1/4 層、GPU 1 載下 1/4 層，依序傳遞。它的通訊只發生在「層與層的交界」，頻寬需求遠低於 TP，因此對 PCIe-only（無 NVLink）的環境更友善。代價是會產生 pipeline bubble（氣泡），需要靠 micro-batch 切分來填滿。

面向	張量並行（TP）	管線並行（PP）
切分方式	單層橫向切張量	按層深度縱向切
卡間通訊頻率	每層、每次傳播（極高）	僅層交界（低）
對互連頻寬	極度敏感，偏好高頻寬互連（資料中心走 NVLink；本平台走 PCIe 5.0 ×16）	PCIe Gen5 即可勝任
主要代價	頻寬受限即瓶頸	pipeline 氣泡
適用	單節點內高速互連	跨節點或 PCIe 環境

實務怎麼選？

實務上常見的做法是混合並行：節點「內」用 TP，節點「間」或頻寬較弱處用 PP。這裡有一個常被誤解的重點要先講清楚——本文涉及的所有工作站卡（RTX PRO 5000、RTX PRO 6000 Blackwell）都不支援 NVLink。NVIDIA 的 RTX PRO 6000 Blackwell 不論 Workstation、Max-Q 或 Server 版，官方都已取消 NVLink，多卡之間只能走 PCIe 5.0 ×16（約 128GB/s 雙向）。換句話說，在 WRX90 4 卡節點裡，TP 的卡間通訊完全靠 PCIe 5.0 ×16 撐起，這正是為什麼 128 條通道、每張卡都吃滿 ×16 如此關鍵——通道一旦掉到 ×8，TP 的效能就直接打折。若你真的需要 NVLink 級的卡間互連（單橋數百 GB/s），那是 H100／H200／B200 這類 SXM 機架平台的範疇，不在工作站產品線之內，建置與成本是完全不同的量級。

對照表：MAQ 多卡路線怎麼選

不是每個團隊一開始就需要四卡。MAQ 的產品線提供從單卡到原生多卡的清晰升級路徑：

機型	GPU／VRAM	定位	價格（起）
AI-High	RTX PRO 5000 48GB	單卡跑 70B（Q4），24 核 Threadripper	NT$706,000
AI-Highend	RTX PRO 6000 96GB	單卡載 gpt-oss-120b，32 核 9975WX	NT$1,247,000
AMD-WRX90	RTX PRO 6000 96GB（可擴）	96 核 9995WX，原生 4–7 卡並聯	NT$1,515,000

邏輯很清楚：

只要量化推論單一大模型 → AI-High／AI-Highend 單卡即可。
要全精度 70B（FP16≈140GB）、標準 LoRA（≈160GB）、或張量並行訓練 → 單卡不夠，需要 AMD-WRX90 的原生多卡平台把 VRAM 與算力合計。
AMD-WRX90 的 96 核 9995WX 不只是核心多，更帶來那關鍵的 128 條 PCIe 5.0 通道，確保 4 張卡都吃滿 ×16 不腰斬——這是消費級平台給不了的。由於這些工作站卡沒有 NVLink，TP 的卡間互連完全靠這 128 條通道，通道夠不夠就是效能天花板。

自建還是租雲端？2026 的成本現實

很多人會問：既然多卡這麼複雜，為什麼不租雲端？2026 年的行情是這樣的：

雲端 H100 隨用隨付約 每卡每小時 US$2–4（小型雲常見 US$3 以下，AWS／GCP 隨需約 US$5–7）。
以實際 TCO 試算（前提：3 年折舊、使用率 >70%、自購卡 vs AWS／GCP 隨需），持續滿載的生產負載，雲端隨需成本通常是自有硬體有效成本的數倍，倍率高低視使用率與折舊年限而定——使用率越高、折舊年限越長，自建越划算；反之短期、間歇的負載租雲端反而更省。換言之，這不是「自建一定贏」，而是看你的負載型態。
更別說資料主權：模型權重、訓練資料、推論流量全留在自己機房，不出區網——這對受規範產業（醫療、金融、政府、研究機構）往往是硬性要求，不是成本問題。

結論不是「雲端不好」，而是當你的多卡節點要長時間滿載、且資料不能外流，自建的 TCO 與合規性通常勝出。

建置檢查清單：照這個順序確認

VRAM 帳：你的目標是量化推論、全精度推論、QLoRA 還是全精度訓練？算出合計 VRAM 需求，決定卡數。
PCIe 通道：確認平台能給每張卡 ×16（或可接受的 ×8）。WRX90 的 128 條是安全牌。
電源：用最壞情況（GPU TDP × 卡數 × 1.3 餘裕）估，確認迴路電壓與冗餘。
散熱與形態：4 卡塔式可進辦公室，8 卡機架式要進機房。
並行策略：節點內 TP 吃頻寬（工作站卡無 NVLink，靠 PCIe 5.0 ×16）、跨節點 PP 省頻寬；確認互連能撐住你的策略。
軟體棧：vLLM／CUDA／Docker 等是否預裝、是否有人幫你把多卡跑起來。

最後一點常被低估。多卡節點「裝好」只是開始，把 vLLM 的張量並行參數調對、讓四張卡協同到滿載，是另一段工程。MAQ 的機器出廠即預裝 Ollama／ComfyUI／CUDA／Docker／vLLM／MLX 等，工程師全台（含外島）親送驗機、提供三年硬體保固與遠端＋到府技術支援，並支援 Proxmox VE 虛擬化——讓你拆箱就能跑 ollama run llama3.3 或直接起 vLLM 多卡服務，而不是花兩週跟驅動與 NCCL 搏鬥。若你想先看單卡地端 RAG 的實測表現，MAQ Alishan 以單張 RTX PRO 6000 96GB 載 gpt-oss-120B 跑出 161 tok/s、支援 8 人並行、資料全留地端，是評估多卡前的好參照點。