採購評比

本地微調選機實戰 2026:QLoRA 8B 到 70B 各要什麼機器?(VRAM/ECC/單卡 vs 多卡全解)

2026-06-14 | 約 10 分鐘 | MAQ 技術團隊

大多數「LLM 工作站怎麼選」的文章,講的其實是推論(inference)。但只要你打算用自己的資料把模型訓出領域知識,選機邏輯就整個翻盤——訓練比推論吃更多 VRAM、需要 ECC 記憶體、序列長度一拉長記憶體就爆、而且一顆 soft error 就可能毀掉整輪訓練。這篇我們專注談微調(fine-tuning):從 QLoRA 8B 入門到標準 LoRA 70B 多卡,各個尺寸到底要什麼機器,以及 MAQ 四階機型怎麼對應。

為什麼微調的選機邏輯跟推論完全不同

推論時,GPU 主要只要裝得下模型權重加一點 KV cache。微調時,VRAM 要同時容納四樣東西:模型權重、梯度(gradients)、優化器狀態(optimizer states,AdamW 每個參數要存兩份動量),以及前向傳播產生的中間激活值(activations)。這也是為什麼全參數微調一個 70B 模型,記憶體需求會從推論的約 140GB 暴衝到 600GB 以上。

參數高效微調(PEFT)就是為了壓下這個數字而生。其中 QLoRA(4-bit 量化 + LoRA adapter)是 2026 年消費級到工作站級微調的事實標準:把凍結的基座模型壓成 4-bit NF4 格式存放,只訓練額外掛上的小型 LoRA adapter(以 16-bit 計算),記憶體比標準 LoRA 再省 3 到 5 倍。代價是訓練速度約慢 1.5 到 2 倍,最終品質約達全參數微調的 80–90%(標準 LoRA 約 90–95%)。對絕大多數企業領域微調,這個取捨非常划算。

QLoRA、標準 LoRA、全參數微調:三檔需求差一個數量級

選微調機器最常見的誤解,是把這三種方法的 VRAM 需求混為一談。它們其實是三個截然不同的量級,先分清楚才不會買錯機器:

  • QLoRA(4-bit 基座 + 16-bit adapter)——基座壓成 4-bit 存放,VRAM 由量化後的權重主導。70B 約 46–48GB,單卡可行。這是 2026 年最主流的做法。
  • 標準 LoRA(16-bit 基座 + 16-bit adapter)——基座不量化、以 16-bit 凍結,VRAM 主要由 16-bit 基座本身主導(70B 基座約 140GB)。70B 約 140–160GB,必須多卡。品質略高於 QLoRA,但跟「全參數微調」完全是兩回事。
  • 全參數微調(full fine-tune)——所有權重都更新,外加全套梯度與優化器狀態。70B 約 600GB+,跟標準 LoRA 又差了一個數量級,必須多卡分片。

請特別注意:標準 LoRA 的 140–160GB 跟全參數微調的 600GB+,不是同一個需求級距。160GB 能做的是「16-bit 基座的標準 LoRA」,不等於能做「全精度全參數微調」。後面提到多卡建議時,我們會把這兩者分開講,別把它們綁成同一條線。

選微調機器的第一個問題不是「跑得動嗎」,而是「我要 QLoRA、標準 LoRA、還是全參數微調,序列要拉多長」——這幾個決定,直接拉開單卡與多卡之間數十萬的價差。

QLoRA 4-bit 各尺寸 VRAM 對照(保守標量化前提)

以下數字以 batch size 1、序列長度 512 內、啟用 gradient checkpointing 為前提。這是業界回報 QLoRA VRAM 占用的標準基準;序列拉長或 batch 加大,記憶體會明顯往上走(後段詳述)。

模型尺寸(2026 代表) QLoRA 4-bit VRAM 最低單卡建議 標準 LoRA(16-bit 基座)參考
8B(Llama 3.1 8B / Qwen3 8B) 約 14–16GB 24GB 卡輕鬆 約 20–24GB
27B(Gemma 3 27B) 約 24–28GB 32GB 卡 約 60–70GB(需多卡或 48GB+)
70B(Llama 3.3 70B / Qwen3) 約 46–48GB 48GB 卡(緊貼上限) 約 140–160GB(必須多卡)
120B(gpt-oss-120b) 約 65–80GB+ 96GB 卡或多卡 多卡(FSDP / DeepSpeed)

註:gpt-oss 原生為 MXFP4 格式,目前主流框架的 MXFP4/FP4 僅用於推論,反向傳播(訓練)尚不支援;因此 120B 微調實務上走 QLoRA(4-bit NF4)路線。

三個關鍵門檻值得記住:

  • 8B 是入門甜蜜點。QLoRA 約 14–16GB,一張 24GB 卡可以舒服地訓練、留足夠 headroom 給較長序列。這是大多數企業「先驗證資料管線、再決定要不要上 70B」的起點。
  • 70B QLoRA 約 46–48GB——這是「單卡能否一卡到底」的分水嶺。它幾乎貼滿一張 48GB 專業卡的上限,能跑,但序列長度與 batch 的彈性被壓得很死。
  • 標準 LoRA 70B 約 140–160GB,沒有單卡選項。16-bit 基座本身就約 140GB,加上 adapter、梯度與激活值,必然要靠多卡分片(FSDP / DeepSpeed ZeRO)。再往上的全參數微調 70B 約 600GB+,又是另一個更高的量級——想要更高品質、不靠 4-bit 量化壓縮的團隊,這兩條路都繞不開多卡。

為什麼訓練機一定要 ECC 記憶體

推論機沒有 ECC 也能用——算錯一個 token,下次重抽就好。但訓練是累積性的:一個由宇宙射線或記憶體電荷洩漏造成的 soft error(位元翻轉,bit flip),會悄悄污染梯度更新,順著反向傳播擴散到整批權重。研究已證實 LLM 訓練負載在 HPC 環境會遭遇位元翻轉,而你通常不會立刻發現——直到訓練數小時後 loss 莫名發散,整輪重來。

對動輒數小時、跑在大型資料集上的微調作業,ECC(Error-Correcting Code)記憶體是保險而非奢侈。這裡指的是兩個層次

  • GPU 端 ECC VRAM——專業卡(RTX PRO 系列、資料中心卡)標配,消費級遊戲卡通常沒有。
  • 系統端 ECC DDR5——靠 Threadripper PRO / WRX90 這類工作站平台才支援(8-channel ECC、最高 2TB)。一般消費級主機板與多數消費級 DDR5 不吃 ECC。

這就是為什麼 MAQ 訓練取向的機型(AI-High 以上)一律配 ECC 系統記憶體:跑 70B 微調,你最不想遇到的就是「跑了三小時、結果是記憶體偷偷翻了一個位元」。也因為如此,挑機型時要特別留意系統記憶體是否標明 ECC——某些入門/中階配置用的是消費級非 ECC DDR5,做短序列驗證沒問題,但若要拉長序列、長時間連續訓練,建議升級到 ECC 系統記憶體的機型。

別忽略系統記憶體:序列長度的隱形成本

很多人只盯著 VRAM,卻在系統 RAM 上踩雷。當你拉長序列長度(例如做長文件、長對話、程式碼微調),系統記憶體的需求會跟著序列長度線性放大。以 Llama 3.3 70B 為例(80 層、hidden size 8192),一個極端的 8.9 萬 token 序列,光是相關緩衝就需要約 109GB 系統 RAM。

這解釋了 MAQ 訓練機型為何把系統記憶體拉到 128GB ECC(AI-High)甚至 256GB ECC(AI-Highend / AMD-WRX90)——不是規格表好看,而是長序列微調的硬需求。64GB 非 ECC 系統記憶體跑 8B QLoRA 短序列沒問題,但你一旦想做長上下文領域微調,系統 RAM 會先於 VRAM 變成瓶頸,而且非 ECC 在長時間訓練下也少了一層 soft error 防護。

Gradient Checkpointing:用時間換記憶體

前面所有 VRAM 數字都假設啟用 gradient checkpointing。這個技巧不在前向傳播時存下所有中間激活值,而是在反向傳播時即時重算——記憶體可省下高達約 80%,代價是訓練約慢 20%。

實務上的意義:

  • 它是讓「70B QLoRA 塞進 48GB 卡」成立的關鍵前提。關掉它,48GB 直接爆。
  • 序列越長、激活值越多,它省下的越多——做長序列微調幾乎一定要開。
  • 它換來的是時間。若你想把那 20% 速度賺回來,方向是更大 VRAM(容納更大 batch)或多卡並行,而不是關掉 checkpointing。

單卡 vs 多卡:什麼時候非上多卡不可?

判斷邏輯其實很乾淨:

  • QLoRA 8B–70B → 單卡是甜蜜點。只要你的模型 + 序列裝得進單卡 VRAM,單卡永遠是首選——沒有跨卡通訊開銷、設定最單純、除錯最容易。70B QLoRA 約 46–48GB,一張 48GB 卡(如 RTX PRO 5000)可以一卡到底。
  • 標準 LoRA 70B(約 140–160GB) → 多卡。16-bit 基座主導的需求超過任何單張工作站卡,得靠 FSDP / DeepSpeed ZeRO 把參數、梯度、優化器狀態分片到多張卡。
  • 全參數微調 70B(約 600GB+)、或長序列大 batch → 多卡,且需求更高一級。這是比標準 LoRA 再高一個數量級的負載,平台的 PCIe 通道數與多卡並聯能力(如 WRX90 的 128 條 PCIe 5.0 lanes、原生 4–7 卡)才是真正的門檻。
  • 想加速、不只是裝得下 → 多卡資料並行(DDP)。就算單卡裝得下,加卡也能近線性縮短訓練時間。但這是「優化」而非「必要」,先確認單卡瓶頸在哪再決定。

一個常見誤區:把多卡當成省錢方案,拿多張小卡湊 VRAM。對 QLoRA 來說,一張大卡幾乎總是優於多張小卡——少了跨卡通訊損耗、設定簡單、單機就能跑。多卡的真正價值在「單卡再大也裝不下」(標準 LoRA 70B 的 160GB、全參數微調的 600GB+)或「要把訓練時間砍半」。

資料準備與框架:Unsloth vs Axolotl

硬體只是一半,框架選對能差出數倍效率。2026 年本地微調的主力工具鏈:

  • Unsloth——主打單卡/消費級硬體上的速度與記憶體效率。第三方框架評比中,單卡 70B QLoRA 通常比 Axolotl 快約 30–40%(實際差距會隨 GPU、LoRA rank、資料筆數變動,宜以自家硬體實測為準)。適合單卡、快速迭代、入門團隊。
  • Axolotl——以 YAML 設定檔驅動的流水線,多卡擴展性更好。當你要做標準 LoRA 70B 或全精度多卡訓練,Axolotl 搭配 FSDP / DeepSpeed 是成熟路線。
  • TRL / TorchTune——需要進階訓練目標(DPO、ORPO 等)時的選擇。

資料端的鐵律:微調的天花板是資料品質,不是 GPU。幾百筆高品質、格式一致、涵蓋邊界案例的樣本,勝過幾萬筆雜訊資料。先把資料管線在 8B 上跑通驗證,再決定要不要砸錢上 70B——這是最省錢的順序。

本地微調 vs 雲端 API:2026 的局勢變了

過去「要不要自己買機器」的對照組是雲端微調 API。但 2026 年 5 月 OpenAI 宣布逐步關閉自助式微調 API(既有客戶 2027 年 1 月後也無法建立新訓練作業),這讓「把模型客製化主導權握在自己手上」的需求更為迫切。

本地微調的結構性優勢,在 2026 變得更明顯:

  • 資料主權——訓練資料 100% 留在地端,不送雲、不外流,醫療/法務/製造的敏感資料尤其關鍵。
  • 不受供應商政策擺布——你的微調管線不會因為某家雲端「下架某功能」而中斷。
  • 長期成本——一次購置 + 三年保固,對高頻迭代、反覆重訓的團隊,總持有成本(TCO)往往低於按 token 計費的雲端方案。

MAQ 機型階梯:對應你的微調尺寸

把上面的技術門檻翻成採購決策,MAQ 的四階機型剛好對應四個微調情境(價格以線上商店頁當期報價為準,下單前可向業務確認):

情境 建議機型 關鍵規格 價格
入門驗證:8B QLoRA、跑通資料管線 AI-Eco RTX PRO 4000 24GB|9900X3D 12核|32GB NT$185,000
中階驗證:27B QLoRA、8B 短序列訓練/迭代 AI-Medium-Gemma RTX PRO 4500 32GB|9950X3D 16核|64GB(非 ECC) NT$243,000
主力:70B QLoRA 單卡一卡到底 AI-High RTX PRO 5000 48GB|Threadripper 9960X 24核|128GB ECC NT$567,000
進階:120B 微調、標準 LoRA 70B AI-Highend RTX PRO 6000 96GB|PRO 9975WX 32核|256GB ECC NT$1,145,000
多卡並聯:全參數 70B、FSDP 訓練 AMD-WRX90 96核 9995WX|RTX PRO 6000 96GB|256GB ECC|原生 4–7 卡 NT$1,410,000

選機的實務建議:

  • 還在 PoC 階段,先上 AI-EcoAI-Medium-Gemma 把 8B–27B 的資料管線跑通驗證。要注意 AI-Medium-Gemma 配的是 64GB 非 ECC DDR5、預載 Gemma 7B,定位在短序列的入門到中階驗證與迭代;27B QLoRA 約 24–28GB 雖塞得進 32GB 卡,但若要做長序列或長時間連續訓練,建議改上有 ECC 系統記憶體、更大 RAM 的 AI-High。
  • 確定要做 70B 領域微調AI-High 的 48GB ECC 卡 + 128GB ECC 系統記憶體,正好對齊 70B QLoRA 約 46–48GB 的需求,是單卡微調的甜蜜點,也是第一台真正以「訓練」為設計目標、系統端配 ECC 的機型。
  • 要做標準 LoRA 70B、全參數微調、或 120B,48GB 單卡裝不下,得上 AI-Highend(96GB 單卡)或直接 AMD-WRX90 多卡並聯。標準 LoRA 70B 約 140–160GB 已超過單卡上限,而全參數微調 70B 約 600GB+ 更非多卡分片不可——WRX90 平台的 128 條 PCIe 5.0 通道與原生 4–7 卡,正是多卡 FSDP 訓練的硬性前提。

所有 MAQ AI 工作站出廠即預載 Unsloth、Axolotl、vLLM、CUDA、Docker、PyTorch 環境,開機就能跑微調,不用自己跟驅動與套件版本搏鬥;訓練取向機型(AI-High 以上)一律配 ECC 系統記憶體;三年硬體保固、簽約戶備機、工程師全台(含外島)親送驗機。更完整的硬體選型邏輯,可參考我們的 AI 硬體選購指南

結論:先選對「訓練尺寸」,機器自然定位

本地微調選機,別被推論的數字誤導。記住這幾條線:8B QLoRA 一張 24GB 卡入門、70B QLoRA 約 46–48GB 是單卡分水嶺、標準 LoRA 70B 約 140–160GB 必上多卡、全參數微調 70B 約 600GB+ 又高一個數量級。再加上訓練特有的兩個隱性需求——ECC 記憶體防 soft error、系統 RAM 隨序列長度放大——你的機器規格就被決定了。剩下的,就是把資料準備好,讓硬體去發揮它該有的價值。

常見問題

QLoRA 微調一個 70B 模型最低要多少 VRAM?單卡跑得動嗎?

在 batch size 1、序列長度 512 內、啟用 gradient checkpointing 的前提下,QLoRA 4-bit 微調 70B(如 Llama 3.3 70B)約需 46–48GB VRAM,幾乎貼滿一張 48GB 專業卡的上限。所以單卡可以跑(如 RTX PRO 5000 48GB / MAQ AI-High),但序列長度與 batch 的彈性會被壓得很緊。若要做長序列或加大 batch,建議上 96GB 單卡(AI-Highend)。

本地微調 LLM 為什麼一定要 ECC 記憶體?推論機不是不用嗎?

因為訓練是累積性的:一個 soft error(位元翻轉,由宇宙射線或記憶體電荷洩漏造成)會污染梯度更新並擴散到整批權重,而且通常數小時後才會以 loss 發散的形式爆出來,整輪重來。推論算錯一個 token 重抽即可,所以可不用 ECC。訓練機則需要 GPU 端 ECC VRAM(專業卡標配)與系統端 ECC DDR5(需 Threadripper PRO / WRX90 平台)雙重保護。要注意部分入門/中階機型用的是消費級非 ECC DDR5(如 AI-Medium-Gemma 的 64GB),適合短序列驗證;MAQ AI-High 以上機型才一律配 ECC 系統記憶體。

標準 LoRA、QLoRA、全參數微調 70B 的硬體需求差多少?我該選哪個?

三者差一個數量級:QLoRA(4-bit 基座)約 46–48GB,可單卡完成,品質約達全參數微調的 80–90%;標準 LoRA(16-bit 基座+adapter)約 140–160GB,沒有單卡選項,必須靠多卡 FSDP / DeepSpeed 分片,品質略高(約 90–95%);全參數微調(full fine-tune)約 600GB+,又高一個量級,必上多卡。多數企業領域微調用 QLoRA 單卡(MAQ AI-High)就夠;追求標準 LoRA 更高品質或全參數,才需要 AI-Highend 96GB 單卡或 AMD-WRX90 多卡並聯。

微調時序列長度拉長會影響哪些硬體?只看 VRAM 夠嗎?

不夠。序列長度拉長會同時推升 VRAM(中間激活值變多)與系統 RAM。系統記憶體需求大致隨序列長度線性放大——以 70B 為例,極端的 8.9 萬 token 序列相關緩衝就需約 109GB 系統 RAM。這就是為什麼長序列微調機型要把系統記憶體拉到 128GB ECC(AI-High)甚至 256GB ECC(AI-Highend / AMD-WRX90)。64GB 非 ECC 的中階機型只適合短序列驗證。同時務必啟用 gradient checkpointing,可省約 80% 激活值記憶體,代價是訓練約慢 20%。

2026 年自己買機器在地微調,跟用雲端微調 API 比划算嗎?

2026 年 5 月 OpenAI 已宣布逐步關閉自助式微調 API,雲端微調的可用性與主導權正在收緊。本地微調的優勢在於:資料 100% 留地端(醫療/法務/製造敏感資料關鍵)、不受供應商政策擺布、以及對高頻重訓團隊更低的長期總持有成本(一次購置+三年保固)。MAQ AI 工作站出廠預載 Unsloth/Axolotl/vLLM 環境,從 AI-Eco(8B 入門)到 AMD-WRX90(多卡 70B 全參數)涵蓋完整階梯。

要在地端微調自己的模型?先選對機器

從 QLoRA 8B 入門到 70B 標準 LoRA 多卡並聯,MAQ AI 工作站全系列出廠預載 Unsloth/Axolotl/vLLM/CUDA 環境,ECC 記憶體+三年保固,工程師全台親送驗機。