QLoRA 微調一個 70B 模型最低要多少 VRAM？單卡跑得動嗎？

在 batch size 1、序列長度 512 內、啟用 gradient checkpointing 的前提下，QLoRA 4-bit 微調 70B（如 Llama 3.3 70B）約需 46–48GB VRAM，幾乎貼滿一張 48GB 專業卡的上限。所以單卡可以跑（如 RTX PRO 5000 48GB / MAQ AI-High），但序列長度與 batch 的彈性會被壓得很緊。若要做長序列或加大 batch，建議上 96GB 單卡（AI-Highend）。

本地微調 LLM 為什麼一定要 ECC 記憶體？推論機不是不用嗎？

因為訓練是累積性的：一個 soft error（位元翻轉，由宇宙射線或記憶體電荷洩漏造成）會污染梯度更新並擴散到整批權重，而且通常數小時後才會以 loss 發散的形式爆出來，整輪重來。推論算錯一個 token 重抽即可，所以可不用 ECC。訓練機則需要 GPU 端 ECC VRAM（專業卡標配）與系統端 ECC DDR5（需 Threadripper PRO / WRX90 平台）雙重保護。要注意部分入門／中階機型用的是消費級非 ECC DDR5（如 AI-Medium-Gemma 的 64GB），適合短序列驗證；MAQ AI-High 以上機型才一律配 ECC 系統記憶體。

標準 LoRA、QLoRA、全參數微調 70B 的硬體需求差多少？我該選哪個？

三者差一個數量級：QLoRA（4-bit 基座）約 46–48GB，可單卡完成，品質約達全參數微調的 80–90%；標準 LoRA（16-bit 基座+adapter）約 140–160GB，沒有單卡選項，必須靠多卡 FSDP / DeepSpeed 分片，品質略高（約 90–95%）；全參數微調（full fine-tune）約 600GB+，又高一個量級，必上多卡。多數企業領域微調用 QLoRA 單卡（MAQ AI-High）就夠；追求標準 LoRA 更高品質或全參數，才需要 AI-Highend 96GB 單卡或 AMD-WRX90 多卡並聯。

微調時序列長度拉長會影響哪些硬體？只看 VRAM 夠嗎？

不夠。序列長度拉長會同時推升 VRAM（中間激活值變多）與系統 RAM。系統記憶體需求大致隨序列長度線性放大——以 70B 為例，極端的 8.9 萬 token 序列相關緩衝就需約 109GB 系統 RAM。這就是為什麼長序列微調機型要把系統記憶體拉到 128GB ECC（AI-High）甚至 256GB ECC（AI-Highend / AMD-WRX90）。64GB 非 ECC 的中階機型只適合短序列驗證。同時務必啟用 gradient checkpointing，可省約 80% 激活值記憶體，代價是訓練約慢 20%。

2026 年自己買機器在地微調，跟用雲端微調 API 比划算嗎？

2026 年 5 月 OpenAI 已宣布逐步關閉自助式微調 API，雲端微調的可用性與主導權正在收緊。本地微調的優勢在於：資料 100% 留地端（醫療／法務／製造敏感資料關鍵）、不受供應商政策擺布、以及對高頻重訓團隊更低的長期總持有成本（一次購置＋三年保固）。MAQ AI 工作站出廠預載 Unsloth／Axolotl／vLLM 環境，從 AI-Eco（8B 入門）到 AMD-WRX90（多卡 70B 全參數）涵蓋完整階梯。

本地微調選機實戰 2026：QLoRA 8B 到 70B 各要什麼機器？（VRAM／ECC／單卡 vs 多卡全解）

大多數「LLM 工作站怎麼選」的文章，講的其實是推論（inference）。但只要你打算用自己的資料把模型訓出領域知識，選機邏輯就整個翻盤——訓練比推論吃更多 VRAM、需要 ECC 記憶體、序列長度一拉長記憶體就爆、而且一顆 soft error 就可能毀掉整輪訓練。這篇我們專注談微調（fine-tuning）：從 QLoRA 8B 入門到標準 LoRA 70B 多卡，各個尺寸到底要什麼機器，以及 MAQ 四階機型怎麼對應。

為什麼微調的選機邏輯跟推論完全不同

推論時，GPU 主要只要裝得下模型權重加一點 KV cache。微調時，VRAM 要同時容納四樣東西：模型權重、梯度（gradients）、優化器狀態（optimizer states，AdamW 每個參數要存兩份動量），以及前向傳播產生的中間激活值（activations）。這也是為什麼全參數微調一個 70B 模型，記憶體需求會從推論的約 140GB 暴衝到 600GB 以上。

參數高效微調（PEFT）就是為了壓下這個數字而生。其中 QLoRA（4-bit 量化 + LoRA adapter）是 2026 年消費級到工作站級微調的事實標準：把凍結的基座模型壓成 4-bit NF4 格式存放，只訓練額外掛上的小型 LoRA adapter（以 16-bit 計算），記憶體比標準 LoRA 再省 3 到 5 倍。代價是訓練速度約慢 1.5 到 2 倍，最終品質約達全參數微調的 80–90%（標準 LoRA 約 90–95%）。對絕大多數企業領域微調，這個取捨非常划算。

QLoRA、標準 LoRA、全參數微調：三檔需求差一個數量級

選微調機器最常見的誤解，是把這三種方法的 VRAM 需求混為一談。它們其實是三個截然不同的量級，先分清楚才不會買錯機器：

QLoRA（4-bit 基座 + 16-bit adapter）——基座壓成 4-bit 存放，VRAM 由量化後的權重主導。70B 約 46–48GB，單卡可行。這是 2026 年最主流的做法。
標準 LoRA（16-bit 基座 + 16-bit adapter）——基座不量化、以 16-bit 凍結，VRAM 主要由 16-bit 基座本身主導（70B 基座約 140GB）。70B 約 140–160GB，必須多卡。品質略高於 QLoRA，但跟「全參數微調」完全是兩回事。
全參數微調（full fine-tune）——所有權重都更新，外加全套梯度與優化器狀態。70B 約 600GB+，跟標準 LoRA 又差了一個數量級，必須多卡分片。

請特別注意：標準 LoRA 的 140–160GB 跟全參數微調的 600GB+，不是同一個需求級距。160GB 能做的是「16-bit 基座的標準 LoRA」，不等於能做「全精度全參數微調」。後面提到多卡建議時，我們會把這兩者分開講，別把它們綁成同一條線。

選微調機器的第一個問題不是「跑得動嗎」，而是「我要 QLoRA、標準 LoRA、還是全參數微調，序列要拉多長」——這幾個決定，直接拉開單卡與多卡之間數十萬的價差。

QLoRA 4-bit 各尺寸 VRAM 對照（保守標量化前提）

以下數字以 batch size 1、序列長度 512 內、啟用 gradient checkpointing 為前提。這是業界回報 QLoRA VRAM 占用的標準基準；序列拉長或 batch 加大，記憶體會明顯往上走（後段詳述）。

模型尺寸（2026 代表）	QLoRA 4-bit VRAM	最低單卡建議	標準 LoRA（16-bit 基座）參考
8B（Llama 3.1 8B / Qwen3 8B）	約 14–16GB	24GB 卡輕鬆	約 20–24GB
27B（Gemma 3 27B）	約 24–28GB	32GB 卡	約 60–70GB（需多卡或 48GB+）
70B（Llama 3.3 70B / Qwen3）	約 46–48GB	48GB 卡（緊貼上限）	約 140–160GB（必須多卡）
120B（gpt-oss-120b）	約 65–80GB+	96GB 卡或多卡	多卡（FSDP / DeepSpeed）

註：gpt-oss 原生為 MXFP4 格式，目前主流框架的 MXFP4／FP4 僅用於推論，反向傳播（訓練）尚不支援；因此 120B 微調實務上走 QLoRA（4-bit NF4）路線。

三個關鍵門檻值得記住：

8B 是入門甜蜜點。QLoRA 約 14–16GB，一張 24GB 卡可以舒服地訓練、留足夠 headroom 給較長序列。這是大多數企業「先驗證資料管線、再決定要不要上 70B」的起點。
70B QLoRA 約 46–48GB——這是「單卡能否一卡到底」的分水嶺。它幾乎貼滿一張 48GB 專業卡的上限，能跑，但序列長度與 batch 的彈性被壓得很死。
標準 LoRA 70B 約 140–160GB，沒有單卡選項。16-bit 基座本身就約 140GB，加上 adapter、梯度與激活值，必然要靠多卡分片（FSDP / DeepSpeed ZeRO）。再往上的全參數微調 70B 約 600GB+，又是另一個更高的量級——想要更高品質、不靠 4-bit 量化壓縮的團隊，這兩條路都繞不開多卡。

為什麼訓練機一定要 ECC 記憶體

推論機沒有 ECC 也能用——算錯一個 token，下次重抽就好。但訓練是累積性的：一個由宇宙射線或記憶體電荷洩漏造成的 soft error（位元翻轉，bit flip），會悄悄污染梯度更新，順著反向傳播擴散到整批權重。研究已證實 LLM 訓練負載在 HPC 環境會遭遇位元翻轉，而你通常不會立刻發現——直到訓練數小時後 loss 莫名發散，整輪重來。

對動輒數小時、跑在大型資料集上的微調作業，ECC（Error-Correcting Code）記憶體是保險而非奢侈。這裡指的是兩個層次：

GPU 端 ECC VRAM——專業卡（RTX PRO 系列、資料中心卡）標配，消費級遊戲卡通常沒有。
系統端 ECC DDR5——靠 Threadripper PRO / WRX90 這類工作站平台才支援（8-channel ECC、最高 2TB）。一般消費級主機板與多數消費級 DDR5 不吃 ECC。

這就是為什麼 MAQ 訓練取向的機型（AI-High 以上）一律配 ECC 系統記憶體：跑 70B 微調，你最不想遇到的就是「跑了三小時、結果是記憶體偷偷翻了一個位元」。也因為如此，挑機型時要特別留意系統記憶體是否標明 ECC——某些入門／中階配置用的是消費級非 ECC DDR5，做短序列驗證沒問題，但若要拉長序列、長時間連續訓練，建議升級到 ECC 系統記憶體的機型。

別忽略系統記憶體：序列長度的隱形成本

很多人只盯著 VRAM，卻在系統 RAM 上踩雷。當你拉長序列長度（例如做長文件、長對話、程式碼微調），系統記憶體的需求會跟著序列長度線性放大。以 Llama 3.3 70B 為例（80 層、hidden size 8192），一個極端的 8.9 萬 token 序列，光是相關緩衝就需要約 109GB 系統 RAM。

這解釋了 MAQ 訓練機型為何把系統記憶體拉到 128GB ECC（AI-High）甚至 256GB ECC（AI-Highend / AMD-WRX90）——不是規格表好看，而是長序列微調的硬需求。64GB 非 ECC 系統記憶體跑 8B QLoRA 短序列沒問題，但你一旦想做長上下文領域微調，系統 RAM 會先於 VRAM 變成瓶頸，而且非 ECC 在長時間訓練下也少了一層 soft error 防護。

Gradient Checkpointing：用時間換記憶體

前面所有 VRAM 數字都假設啟用 gradient checkpointing。這個技巧不在前向傳播時存下所有中間激活值，而是在反向傳播時即時重算——記憶體可省下高達約 80%，代價是訓練約慢 20%。

實務上的意義：

它是讓「70B QLoRA 塞進 48GB 卡」成立的關鍵前提。關掉它，48GB 直接爆。
序列越長、激活值越多，它省下的越多——做長序列微調幾乎一定要開。
它換來的是時間。若你想把那 20% 速度賺回來，方向是更大 VRAM（容納更大 batch）或多卡並行，而不是關掉 checkpointing。

單卡 vs 多卡：什麼時候非上多卡不可？

判斷邏輯其實很乾淨：

QLoRA 8B–70B → 單卡是甜蜜點。只要你的模型 + 序列裝得進單卡 VRAM，單卡永遠是首選——沒有跨卡通訊開銷、設定最單純、除錯最容易。70B QLoRA 約 46–48GB，一張 48GB 卡（如 RTX PRO 5000）可以一卡到底。
標準 LoRA 70B（約 140–160GB） → 多卡。16-bit 基座主導的需求超過任何單張工作站卡，得靠 FSDP / DeepSpeed ZeRO 把參數、梯度、優化器狀態分片到多張卡。
全參數微調 70B（約 600GB+）、或長序列大 batch → 多卡，且需求更高一級。這是比標準 LoRA 再高一個數量級的負載，平台的 PCIe 通道數與多卡並聯能力（如 WRX90 的 128 條 PCIe 5.0 lanes、原生 4–7 卡）才是真正的門檻。
想加速、不只是裝得下 → 多卡資料並行（DDP）。就算單卡裝得下，加卡也能近線性縮短訓練時間。但這是「優化」而非「必要」，先確認單卡瓶頸在哪再決定。

一個常見誤區：把多卡當成省錢方案，拿多張小卡湊 VRAM。對 QLoRA 來說，一張大卡幾乎總是優於多張小卡——少了跨卡通訊損耗、設定簡單、單機就能跑。多卡的真正價值在「單卡再大也裝不下」（標準 LoRA 70B 的 160GB、全參數微調的 600GB+）或「要把訓練時間砍半」。

資料準備與框架：Unsloth vs Axolotl

硬體只是一半，框架選對能差出數倍效率。2026 年本地微調的主力工具鏈：

Unsloth——主打單卡／消費級硬體上的速度與記憶體效率。第三方框架評比中，單卡 70B QLoRA 通常比 Axolotl 快約 30–40%（實際差距會隨 GPU、LoRA rank、資料筆數變動，宜以自家硬體實測為準）。適合單卡、快速迭代、入門團隊。
Axolotl——以 YAML 設定檔驅動的流水線，多卡擴展性更好。當你要做標準 LoRA 70B 或全精度多卡訓練，Axolotl 搭配 FSDP / DeepSpeed 是成熟路線。
TRL / TorchTune——需要進階訓練目標（DPO、ORPO 等）時的選擇。

資料端的鐵律：微調的天花板是資料品質，不是 GPU。幾百筆高品質、格式一致、涵蓋邊界案例的樣本，勝過幾萬筆雜訊資料。先把資料管線在 8B 上跑通驗證，再決定要不要砸錢上 70B——這是最省錢的順序。

本地微調 vs 雲端 API：2026 的局勢變了

過去「要不要自己買機器」的對照組是雲端微調 API。但 2026 年 5 月 OpenAI 宣布逐步關閉自助式微調 API（既有客戶 2027 年 1 月後也無法建立新訓練作業），這讓「把模型客製化主導權握在自己手上」的需求更為迫切。

本地微調的結構性優勢，在 2026 變得更明顯：

資料主權——訓練資料 100% 留在地端，不送雲、不外流，醫療／法務／製造的敏感資料尤其關鍵。
不受供應商政策擺布——你的微調管線不會因為某家雲端「下架某功能」而中斷。
長期成本——一次購置 + 三年保固，對高頻迭代、反覆重訓的團隊，總持有成本（TCO）往往低於按 token 計費的雲端方案。

MAQ 機型階梯：對應你的微調尺寸

把上面的技術門檻翻成採購決策，MAQ 的四階機型剛好對應四個微調情境（價格以線上商店頁當期報價為準，下單前可向業務確認）：

情境	建議機型	關鍵規格	價格
入門驗證：8B QLoRA、跑通資料管線	AI-Eco	RTX PRO 4000 24GB｜9900X3D 12核｜32GB	NT$152,000
中階驗證：27B QLoRA、8B 短序列訓練／迭代	AI-Medium-Gemma	RTX PRO 4500 32GB｜9950X3D 16核｜64GB（非 ECC）	NT$239,000
主力：70B QLoRA 單卡一卡到底	AI-High	RTX PRO 5000 48GB｜Threadripper 9960X 24核｜128GB ECC	NT$706,000
進階：120B 微調、標準 LoRA 70B	AI-Highend	RTX PRO 6000 96GB｜PRO 9975WX 32核｜256GB ECC	NT$1,247,000
多卡並聯：全參數 70B、FSDP 訓練	AMD-WRX90	96核 9995WX｜RTX PRO 6000 96GB｜256GB ECC｜原生 4–7 卡	NT$1,515,000

選機的實務建議：

還在 PoC 階段，先上 AI-Eco 或 AI-Medium-Gemma 把 8B–27B 的資料管線跑通驗證。要注意 AI-Medium-Gemma 配的是 64GB 非 ECC DDR5、預載 Gemma 7B，定位在短序列的入門到中階驗證與迭代；27B QLoRA 約 24–28GB 雖塞得進 32GB 卡，但若要做長序列或長時間連續訓練，建議改上有 ECC 系統記憶體、更大 RAM 的 AI-High。
確定要做 70B 領域微調，AI-High 的 48GB ECC 卡 + 128GB ECC 系統記憶體，正好對齊 70B QLoRA 約 46–48GB 的需求，是單卡微調的甜蜜點，也是第一台真正以「訓練」為設計目標、系統端配 ECC 的機型。
要做標準 LoRA 70B、全參數微調、或 120B，48GB 單卡裝不下，得上 AI-Highend（96GB 單卡）或直接 AMD-WRX90 多卡並聯。標準 LoRA 70B 約 140–160GB 已超過單卡上限，而全參數微調 70B 約 600GB+ 更非多卡分片不可——WRX90 平台的 128 條 PCIe 5.0 通道與原生 4–7 卡，正是多卡 FSDP 訓練的硬性前提。

所有 MAQ AI 工作站出廠即預載 Unsloth、Axolotl、vLLM、CUDA、Docker、PyTorch 環境，開機就能跑微調，不用自己跟驅動與套件版本搏鬥；訓練取向機型（AI-High 以上）一律配 ECC 系統記憶體；三年硬體保固、簽約戶備機、工程師全台（含外島）親送驗機。更完整的硬體選型邏輯，可參考我們的 AI 硬體選購指南。

結論：先選對「訓練尺寸」，機器自然定位

本地微調選機，別被推論的數字誤導。記住這幾條線：8B QLoRA 一張 24GB 卡入門、70B QLoRA 約 46–48GB 是單卡分水嶺、標準 LoRA 70B 約 140–160GB 必上多卡、全參數微調 70B 約 600GB+ 又高一個數量級。再加上訓練特有的兩個隱性需求——ECC 記憶體防 soft error、系統 RAM 隨序列長度放大——你的機器規格就被決定了。剩下的，就是把資料準備好，讓硬體去發揮它該有的價值。