2026 年,幾乎每家企業都已經把生成式 AI 排進預算。真正的難題不再是「要不要做」,而是「要怎麼做最划算」:直接串接雲端 LLM API、用多少付多少?還是一次買斷地端伺服器、自己跑模型?這篇文章不談行銷話術,只把三年總持有成本(TCO, Total Cost of Ownership)攤開來算,給你一個能在董事會上站得住腳的數字,也給研究室教授一個能寫進計畫書的依據。
兩種採購模式的本質差異
雲端與地端不是「貴」與「便宜」的差別,而是成本結構的根本不同。理解這點,才不會在錯誤的規模上做錯誤的決定。
- 雲端 LLM API(OpEx 營運費用):零前期投資,依 token 用量計費。優點是即開即用、彈性擴縮;缺點是成本隨用量線性成長,且每一次呼叫都把你的資料送出公司網路。
- 地端自建(CapEx 資本支出):一次性硬體投資,之後只剩電費與維運。優點是邊際成本趨近於零、資料 100% 留在地端;缺點是前期投入高、需要懂硬體與模型部署。
雲端像租車,跳表計費、不開不付錢;地端像買車,先付一筆,之後每公里都便宜。用量越大、跑得越久,買車越划算——關鍵只在於你的「里程數」過了損益平衡點沒有。
雲端 API 的真實成本:Token 焦慮從何而來
先看 2026 年主流雲端 API 的檯面價格(每百萬 token,美元;本文 NTD 換算統一以匯率約 31.5 計、未計 batch/cache 折扣):
| 模型 | 輸入 / 1M tokens | 輸出 / 1M tokens | 定位 |
|---|---|---|---|
| GPT-4o | $2.50 | $10.00 | 通用主力(仍廣泛使用,新案多改走 GPT-4.1 家族) |
| GPT-4o mini | $0.15 | $0.60 | 輕量任務 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 長文/程式 |
| Claude Opus 4.8 | $5.00 | $25.00 | 高階推理 |
數字看起來很小,陷阱在於「輸出貴、用量會放大」。實務上一次 RAG 問答、一份報告生成或一段 agent 工作流,往往動輒上萬 token,而且輸出比輸入貴 4~5 倍。我們用一個中型企業的場景估算:
- 假設每日處理 1,500 萬 token(約等於數十位員工日常用 AI 助理、客服、文件摘要的合理量級),輸入輸出比抓 1:1。
- 以 GPT-4o 計:輸入 750 萬 × $2.50 + 輸出 750 萬 × $10 ≈ 每日約 US$93.75。
- 換算一年約 US$34,200,三年約 US$102,600(約新台幣 330 萬元)。
- 若改用 Claude Sonnet 4.6($3/$15),同樣用量三年約 US$147,800,約新台幣 465 萬元;用 Opus 4.8($5/$25)則約 US$246,000,約新台幣 775 萬元。
這還只是「穩定用量」。一旦導入 AI agent 自動化、多輪對話或大量批次處理,token 量很容易再翻倍——這就是「Token 焦慮」的來源:你無法精準預測下個月帳單,且越成功(用得越多)成本越失控。更別說資料外送的合規風險,對醫療、金融、製造、法律與政府研究單位而言,這往往是不可接受的硬限制。
地端自建的真實成本:硬體、電力、維運三筆
地端的 TCO 只有三塊,而且大部分是一次性的。我們以 MAQ 的兩款主力機型實算(價格為 MAQ 官方實售價)。
硬體:一次性,可攤三年
- MAQ AI-High(NT$567,000):RTX PRO 5000 48GB Blackwell+Threadripper 9960X 24 核+128GB ECC。48GB 顯存可單卡跑 70B 4-bit 量化(Q4_K_M 約 43GB),是中型企業跑 Llama 3.3 70B、Qwen3 的甜蜜點。
- MAQ AI-Highend(NT$1,145,000):RTX PRO 6000 96GB Blackwell+Threadripper PRO 9975WX 32 核+256GB ECC,預載 gpt-oss-120b(MXFP4 約 60GB,單卡 96GB 從容承載)。這是要跑最強開源權重模型的規格。
值得一提的是,GPU 本身的行情正在上漲。受 GDDR7 記憶體供應吃緊影響,RTX PRO 6000 Blackwell 96GB 單卡的 NVIDIA 官方目錄價,已從 2025 年初發布時的約 US$8,565 攀升到 2026 年的 US$13,250(市場零售實際成交仍約 US$8,000~9,200)。這代表地端硬體不會越等越便宜,反而早買早攤提,也凸顯 MAQ 整機含建置與三年保固的定價相對務實。
電力:唯一的長期變動成本
台灣 2026 年企業用電(台電產業高壓)平均約每度 4.2~4.3 元新台幣(含夏月差別、離峰時段更低;本文以 NT$4.27 估算)。以單卡 GPU 工作站滿載連續運轉估算:
- 中階機整機約 0.8~1kW、高階單卡(RTX PRO 6000)整機約 1.2~1.5kW;以 1kW × 24h × 365 天 ≈ 8,760 度/年,滿載電費約 NT$37,000/年。
- 實務上推論負載很少 100% 滿載整天,抓平均負載六成,年電費約 NT$22,000~37,000。
- 三年電費合計:約 NT$7 萬~11 萬。高階機與多卡機型(如 AMD-WRX90)按整機功耗與卡數等比放大。
維運:MAQ 整機方案把這塊降到最低
地端最被低估的隱形成本是「人」與「踩坑」。MAQ 的做法是把維運難度前置消化:出廠預裝 Ollama、vLLM、ComfyUI、CUDA、Docker、n8n、LangGraph、CrewAI,工程師全台(含外島)親送、到府驗機,提供三年硬體保固、簽約戶備機、Proxmox VE 虛擬化、遠端+到府技術支援。對沒有專職 MLOps 的團隊,這等於把潛在的數十萬人力成本與停機風險轉成可預期的服務。
三年 TCO 正面對決
把上面的數字攤成一張表(情境:中型企業,每日約 1,500 萬 token 穩定用量,地端以 AI-High 單機承載 70B 模型):
| 項目 | 雲端 API(GPT-4o) | 地端自建(MAQ AI-High) |
|---|---|---|
| 前期硬體 | NT$0 | NT$567,000 |
| 三年使用/token 費 | 約 NT$3,300,000 | NT$0(用量無上限) |
| 三年電費 | 含於費率 | 約 NT$70,000~110,000 |
| 三年維運/保固 | 含於費率 | 原廠三年保固+支援 |
| 資料是否外送 | 是 | 否(100% 留地端) |
| 三年 TCO 合計 | 約 NT$330 萬 | 約 NT$63~68 萬 |
結論很直接:在這個用量級距,地端三年總成本約為雲端的五分之一,而且省下來的是「無上限使用」與「資料不出區網」。如果你跑的是 Sonnet 或 Opus 等級的雲端模型,差距會再放大到 7~12 倍。
損益平衡點:每天跑多少 token 就該地端化?
這是本文最該被引用的一段。我們把問題反過來問:地端硬體要多久回本?
- 以 MAQ AI-High(NT$567,000,約 US$18,000)對標 GPT-4o:每日 1,500 萬 token 的雲端費用約 US$93.75/天,回本期約 192 天(約 6.4 個月)。
- 換算成損益平衡的「用量門檻」:當你的每日 token 量穩定超過約 800~1,000 萬,地端在三年週期內幾乎必勝;超過 1,500 萬,半年就回本。
- 若對標的是 Claude Sonnet/Opus,門檻會更低——每日 300~500 萬 token 量級,地端就值得認真評估。
一個務實的判斷法則:如果你的雲端 AI 月帳單已經穩定超過新台幣 8 萬元(約 US$2,500),地端化的三年帳幾乎一定划算——而且帳單只會往上走,不會往下。
反過來說,什麼時候該留在雲端?用量極小且不規律(每日數十萬 token 以下)、純粹 PoC 驗證階段、或需要頻繁切換頂尖閉源模型做能力評測時,雲端的彈性仍有價值。最佳實務常是混合架構:日常高頻、敏感資料走地端,少數需要頂尖閉源模型的尖峰任務才呼叫雲端。
地端化的隱藏紅利:資料主權與可預測性
TCO 之外,地端還有兩個無法用 token 計價的價值:
- 資料主權與合規:醫療病歷、財務報表、研發機密、客戶個資——這些資料一旦進了雲端 API,就脫離你的稽核範圍。地端讓資料 100% 留在區網內,是許多產業導入 AI 的前提條件而非加分項。
- 成本可預測:地端把變動成本(token)換成固定成本(折舊),財務部門可以精準編列,不再被流量尖峰嚇到。
對應到 MAQ 的選型路徑
知道該地端化之後,下一步是「配對規格」。MAQ 的機型線剛好覆蓋從入門到多卡的完整光譜(已驗證硬體前提,保守標量化):
- 輕量 / AI Agent 自動化:AI-Agent-Medium/Eco(NT$53,000),內顯+預載 n8n/LangGraph/CrewAI/Ollama,專為跑工作流而生。
- 中小模型 / gpt-oss-20b 機:AI-Medium(NT$155,000,AMD AI PRO R9700 32GB,預載 gpt-oss-20b),32GB 顯存適合中小型模型與 20b 級語言模型,是入門地端推論的高性價比選擇。
- 中型 70B 單卡甜蜜點:AI-High(NT$567,000,RTX PRO 5000 48GB,48GB 跑 70B Q4),48GB 顯存正好單卡承載 70B 4-bit 量化(約 43GB),是 70B 地端化的最佳單卡解。
- 跑最強開源權重 120B:AI-Highend(NT$1,145,000,RTX PRO 6000 96GB,預載 gpt-oss-120b)。Blackwell 對 MXFP4 提供原生 tensor core 加速(同級消費/工作站卡中表現最佳),單卡 96GB 承載 120B 從容有餘。
- 全精度 / 多卡並聯:AMD-WRX90(NT$1,410,000),WRX90 平台原生支援 4~7 卡並聯,跑 FP16 全精度 70B(約 140GB)或更大模型。
- 影像生成:Stable Diffusion 機型線,Flux.1 dev fp8 約 17GB、SDXL fp16 約 8~12GB,預載 ComfyUI 開箱即跑。
更完整的對照與選型邏輯,可參考 MAQ 的 AI 硬體選購指南,或直接逛 AI 伺服器專區與 AMD 多卡專區。
不只是硬體:MAQ Atlas 把地端 RAG 變成交鑰匙方案
如果你的核心需求是「企業內部知識問答」而非單純跑模型,MAQ Atlas 是更高層次的答案。它是一台地端 RAG 知識主機,整合 RAG+知識圖譜+AI 助理+權限稽核,搭載 RTX PRO 6000 96GB 單卡載 gpt-oss-120B,實測 161 tok/s、支援 8 人並行,資料完全不出區網。對需要把內部文件、SOP、技術手冊變成可問答知識庫,又必須滿足資安合規的企業,Atlas 把前面整篇 TCO 試算的「地端最佳解」直接做成了開箱即用的產品。
結論:用量決定一切,但門檻比你想的低
2026 年的採購決策其實不複雜:小規模試水溫用雲端,一旦用量穩定、資料敏感、要長期運作,就該地端化。損益平衡點落在每日約 800~1,000 萬 token(對標 GPT-4o)或更低(對標 Claude),而中型企業的回本期往往只要半年。剩下的,就是把規格配對到你的模型大小與並行人數——這正是 MAQ 整機方案與 Atlas 要替你解決的事。