採購評比

Stable Diffusion/Flux 商用出圖機 2026 採購評比:VRAM、出圖速度與性價比怎麼選

2026-06-08 | 約 9 分鐘 | MAQ 技術團隊

「跑 Stable Diffusion/Flux 的出圖機到底要買多少 VRAM 才夠?」這是我們最常被企業設計部門、電商美術組與研究室問到的問題。答案不是「越大越好」,而是看你跑哪個模型、要不要邊訓 LoRA 邊推論、以及商用環境能不能用消費級顯卡。本文以 2026 年實測的 VRAM 數據,把 SDXL、Flux.1、SD3.5 三大主力模型與三個價位帶的機型對齊,幫你一次選對。

先搞懂:出圖模型的 VRAM 需求差很大

很多人把「Stable Diffusion」當成單一模型,實際上 2026 年商用出圖的主力是三條產品線,各自的顯存胃口天差地遠。選機之前,先把「你要跑什麼」釐清:

模型 典型精度 推論 VRAM(含工作流) 定位
SDXL 1.0 fp16 約 8–12GB(含 refiner 上看 16GB) 成熟、生態最廣、LoRA 最多
SD 3.5 Large fp16 / fp8 約 11–18GB(fp8 量化後 ~11GB) 提示詞理解強、排版文字佳
Flux.1 dev fp8 約 13–17GB 細節與真實感頂尖
Flux.1 dev fp16 約 24GB 全精度,品質天花板

關鍵結論:SDXL 在 8–12GB 卡上就跑得很順,但 Flux.1 dev 全精度 fp16 直接逼近 24GB。如果你的設計團隊要追 Flux 的真實感與細節(產品圖、人像、廣告視覺),24GB 是「不被綁手綁腳」的起跑線;想留全精度餘裕、同時掛 ControlNet 與多個 LoRA,32GB 才是舒適區。

出圖機的 VRAM 不是只裝模型權重,還要留給工作流:ControlNet 加 1–3GB、放大(upscale)節點、refiner 同載、批次出圖——這些疊起來,「剛好塞得下」往往等於「跑起來很卡」。

ComfyUI 工作流:VRAM 的隱形成本

2026 年商用出圖幾乎都走 ComfyUI 節點式工作流,因為它能把文生圖、ControlNet、IP-Adapter、區域重繪、多階段放大串成一條可複用的管線。但工作流越複雜,顯存的隱形開銷越高:

  • ControlNet:每掛一個模型約 +1–3GB,多重 ControlNet 疊用很常見。
  • Refiner 同載:SDXL 要最高品質就得把 base + refiner 一起放,記憶體上看 16GB。
  • 高解析放大:tiled upscale 雖能省顯存,但全圖一次放大才快,這吃 VRAM。
  • 批次(batch)出圖:商用最在意「一小時能出幾張」,加大 batch size 直接乘上顯存佔用。

所以同樣跑 Flux.1,個人玩家用 fp8 塞進 16GB 沒問題,但商用環境要「一條工作流跑到底、不爆顯存、不降速」,24GB 起跳、32GB 安心。這也是為什麼 MAQ 的出圖機從 24GB 級距才開始算「商用」。

邊訓 LoRA 邊推論:48GB 的分水嶺

真正把成本拉高的,不是出圖,而是「訓練 LoRA」這件事,尤其是邊訓邊出圖。很多公司想自己訓專屬風格/角色/產品的 LoRA,這條需求把硬體門檻往上推了一大截:

  • SDXL LoRA 訓練:1024×1024 解析度下,依 batch 與梯度檢查點設定,約需 13–24GB。12GB 是勉強下限(要降解析度、開優化),24GB 才是順手。
  • Flux LoRA 訓練:因模型本體更大,顯存壓力又更高,全精度訓練常需 24GB 以上。
  • 邊訓邊推論:如果你想「一邊跑訓練任務、一邊讓設計師繼續出圖」,等於同時佔用兩份顯存——這時 48GB 才有同卡並行的空間,不必為了訓練停掉產線。

這就是 24GB → 32GB → 48GB 的真實升級邏輯:

使用情境 建議 VRAM 說明
SDXL/Flux fp8 出圖、單一工作流 24GB 商用入門,ComfyUI 順跑
Flux fp16 全精度+多 ControlNet/LoRA 32GB 品質天花板+工作流餘裕
邊訓 LoRA 邊推論、訓推並行 48GB 產線不停、訓練與出圖同卡共存

消費級 RTX 5090 vs RTX PRO 工作站卡:差在哪?

選機時一定會碰到的抉擇:「RTX 5090 也是 32GB、又便宜,為什麼不直接買它跑出圖?」這是好問題,但商用採購要看的不只是 VRAM 數字:

  • ECC 記憶體:RTX 5090 沒有 ECC;RTX PRO 系列有。長時間訓練 LoRA 時,一個無聲的記憶體位元翻轉可能默默污染權重而不報錯,ECC 是生產環境的保險。
  • 驅動授權:消費級 GeForce 驅動的 EULA 明文限制資料中心商用部署;RTX PRO 走 Enterprise 驅動,認證週期長、適合 7×24 產線。對企業合規這是硬指標。
  • 穩定度取向:5090 衝的是短時間爆發的峰值算力與時脈;RTX PRO 為持續負載設計,長跑批次出圖與訓練更不掉速。
  • 顯存上限:5090 卡死在 32GB;RTX PRO 5000 上 48GB、PRO 6000 上 96GB,這是 5090 物理上做不到的訓推並行與大模型空間。

所以結論很務實:RTX 5090 是史上最強的消費級 AI 卡,個人創作者或預算敏感的小團隊出圖機,它的性價比無可挑剔;但若是要進產線、要跑訓練、要合規、要 ECC,就該選 RTX PRO 工作站卡。MAQ 兩條路線都備——想要 5090 的甜蜜點,有 AI-TOP-Z890-RTX5090(RTX 5090 32GB Blackwell|Core Ultra 9 24 核|128GB,NT$269,000);要走 Pro 路線,下一段直接對應機型。

MAQ 出圖機三檔對照:24GB → 32GB → 48GB

把上面的需求邏輯落到實機,MAQ 的對應方案如下。價格與配置以官網為準:

機型 GPU/VRAM CPU・記憶體 定位 價格
AI-Eco RTX PRO 4000 / 24GB Ryzen 9 9900X3D 12 核・32GB 商用出圖入門,SDXL/Flux fp8 順跑 NT$185,000
Stable-Diffusion-Highend RTX PRO 4500 / 32GB 9950X3D・64GB(預載 ComfyUI) Flux fp16 全精度+多工作流主力 NT$272,000
AI-High RTX PRO 5000 / 48GB Threadripper 9960X 24 核・128GB ECC 邊訓 LoRA 邊推論、訓推並行 NT$567,000

怎麼挑:對號入座

  • 剛起步、以出圖為主AI-Eco(24GB)。SDXL 全精度、Flux.1 fp8 都從容,ComfyUI 單一工作流不卡。
  • 美術/廣告主力產線Stable-Diffusion-Highend(32GB,出廠已裝 ComfyUI)。撐得起 Flux.1 dev fp16 全精度,多 ControlNet 與 LoRA 並掛仍有餘裕,這是品質與穩定的甜蜜點。
  • 要自己訓 LoRA、且不想停產線AI-High(48GB ECC)。訓練與出圖可在同卡並行,ECC 保護長跑訓練,128GB ECC 系統記憶體餵得飽資料前處理。

若你的需求同時包含「跑大型語言模型」與「出圖」,例如想在同一台機器上既跑 70B(4-bit Q4_K_M 約 43GB,單卡 48GB 可容)又出圖,AI-High 的 48GB 也是合理交集;更大規模的多卡並聯與 96GB 單卡需求,則可往 AI 工作站系列 的高階機型延伸。

自建 vs 雲端出圖 API:什麼時候該買機器?

2026 年雲端出圖 API 已經很便宜:Flux.1 dev 在主流平台約 每張 US$0.025、Flux Pro 約 US$0.05,開源模型透過聚合平台甚至低到 US$0.008–0.04/張。那為什麼還要買出圖機?算一筆帳就清楚:

  • 量大就回本:以每張 US$0.025 估,一台 32GB 出圖機若每天產 2,000 張商用圖,雲端月費約 US$1,500(約 NT$48,000/月)。買 Stable-Diffusion-Highend 約 5–6 個月即打平,之後幾乎零邊際成本。
  • 資料留地端:客戶素材、未上市產品圖、人像授權內容——這些不該外流到第三方 API。MAQ 出圖機資料 100% 留在地端/區網內,符合營業秘密與隱私要求。
  • 客製自由度:自訓 LoRA、換 checkpoint、調工作流、接內部系統,雲端 API 給不了這種底層掌控。
  • 無速率限制:自有機器沒有 API rate limit,趕件時 batch 開到底,產能由你掌握。

雲端 API 適合「量不大、需求多變、不想養機器」;一旦你的出圖變成穩定的生產流程,自建機器在成本、隱私與掌控度上全面勝出。

不只是硬體:出廠即用與在地服務

商用出圖機真正的痛點,往往不是顯卡,而是「環境裝到崩潰」。MAQ 的出圖機出廠就預裝 ComfyUI、CUDA、Docker、Ollama、vLLM、MLX、n8n、LangGraph、CrewAI 等完整環境,開機即出圖,不用自己跟驅動與相依套件搏鬥。配套還包括:

  • 工程師全台(含外島)親送驗機,到現場確認跑得起來才算交付。
  • 三年硬體保固,簽約戶提供備機,產線不中斷。
  • 遠端+到府技術支援、Proxmox VE 虛擬化,多人共用一台機器分流出圖任務。
  • 地端資安:所有素材與模型權重留在你的機房,不出區網。

結論:先定位需求,再對號選機

選出圖機的順序永遠是「需求 → VRAM → 機型」,而不是先看價格:

  • 只出圖、以 SDXL/Flux fp8 為主 → 24GBAI-Eco,NT$185,000)。
  • 追 Flux 全精度品質、多工作流並行 → 32GBStable-Diffusion-Highend,預載 ComfyUI)。
  • 要自訓 LoRA、訓推並行、要 ECC 與商用合規 → 48GBAI-High)。
  • 預算敏感、不進產線的個人創作 → 消費級 RTX 5090AI-TOP-Z890-RTX5090)也是好選擇。

想更全面比較 AI 硬體配置,可參考我們的 AI 硬體選購指南;出圖機完整型號與報價,都在 Stable Diffusion 出圖機系列。把需求講清楚,剩下的選機與環境,MAQ 幫你搞定。

常見問題

跑 Flux.1 出圖機需要多少 VRAM 才夠?

Flux.1 dev 用 fp8 量化約需 13–17GB VRAM,全精度 fp16 則逼近 24GB。商用環境若要掛 ControlNet、多 LoRA 並跑完整 ComfyUI 工作流,建議至少 24GB 起跳,32GB 才有餘裕。MAQ 對應機型為 24GB 的 AI-Eco 與 32GB 預載 ComfyUI 的 Stable-Diffusion-Highend。

SDXL 和 Flux 跑出圖,VRAM 需求差多少?

差很大。SDXL 1.0 fp16 推論約 8–12GB(同載 refiner 上看 16GB)就跑得順;Flux.1 dev fp16 全精度直接約 24GB。所以如果團隊要追 Flux 的真實感與細節,硬體門檻明顯比純跑 SDXL 高一檔。

想自己訓練 LoRA 要買幾 GB 的機器?

SDXL LoRA 訓練在 1024×1024 下約需 13–24GB,12GB 是勉強下限;Flux LoRA 訓練顯存壓力更高。若要「邊訓 LoRA 邊讓設計師繼續出圖」,等於同時佔兩份顯存,建議選 48GB 的機型(如 MAQ AI-High,RTX PRO 5000 48GB ECC)才能訓推並行不停產線。

商用出圖機可以用消費級 RTX 5090 嗎?

技術上可以,5090 也有 32GB 且性價比極高,適合個人創作或預算敏感的小團隊。但商用產線要注意:5090 沒有 ECC 記憶體、GeForce 驅動 EULA 限制資料中心商用部署、且顯存卡死 32GB。要訓練、合規、7×24 產線,建議選 RTX PRO 工作站卡。

自建出圖機和用雲端 API 出圖,哪個划算?

看量與隱私需求。雲端 Flux.1 dev 約每張 US$0.025,量小很方便。但若每天穩定產 2,000 張商用圖,雲端月費約 NT$48,000,買一台 32GB 出圖機約 5–6 個月就回本,之後近乎零邊際成本,且素材 100% 留地端、無速率限制、可自訓 LoRA。穩定生產流程選自建較划算。

想要一台開箱即出圖的商用出圖機?

MAQ Stable Diffusion 系列出廠預載 ComfyUI/CUDA/Docker,從 24GB 到 96GB 任你選,工程師全台親送驗機、三年硬體保固。