採購評比

2026 企業地端 AI 採購全攻略:雲端 API vs 地端自建,三年 TCO 總成本實算

2026-06-12 | 約 11 分鐘 | MAQ 技術團隊

2026 年,幾乎每家企業都已經把生成式 AI 排進預算。真正的難題不再是「要不要做」,而是「要怎麼做最划算」:直接串接雲端 LLM API、用多少付多少?還是一次買斷地端伺服器、自己跑模型?這篇文章不談行銷話術,只把三年總持有成本(TCO, Total Cost of Ownership)攤開來算,給你一個能在董事會上站得住腳的數字,也給研究室教授一個能寫進計畫書的依據。

兩種採購模式的本質差異

雲端與地端不是「貴」與「便宜」的差別,而是成本結構的根本不同。理解這點,才不會在錯誤的規模上做錯誤的決定。

  • 雲端 LLM API(OpEx 營運費用):零前期投資,依 token 用量計費。優點是即開即用、彈性擴縮;缺點是成本隨用量線性成長,且每一次呼叫都把你的資料送出公司網路。
  • 地端自建(CapEx 資本支出):一次性硬體投資,之後只剩電費與維運。優點是邊際成本趨近於零、資料 100% 留在地端;缺點是前期投入高、需要懂硬體與模型部署。
雲端像租車,跳表計費、不開不付錢;地端像買車,先付一筆,之後每公里都便宜。用量越大、跑得越久,買車越划算——關鍵只在於你的「里程數」過了損益平衡點沒有。

雲端 API 的真實成本:Token 焦慮從何而來

先看 2026 年主流雲端 API 的檯面價格(每百萬 token,美元;本文 NTD 換算統一以匯率約 31.5 計、未計 batch/cache 折扣):

模型輸入 / 1M tokens輸出 / 1M tokens定位
GPT-4o$2.50$10.00通用主力(仍廣泛使用,新案多改走 GPT-4.1 家族)
GPT-4o mini$0.15$0.60輕量任務
Claude Sonnet 4.6$3.00$15.00長文/程式
Claude Opus 4.8$5.00$25.00高階推理

數字看起來很小,陷阱在於「輸出貴、用量會放大」。實務上一次 RAG 問答、一份報告生成或一段 agent 工作流,往往動輒上萬 token,而且輸出比輸入貴 4~5 倍。我們用一個中型企業的場景估算:

  • 假設每日處理 1,500 萬 token(約等於數十位員工日常用 AI 助理、客服、文件摘要的合理量級),輸入輸出比抓 1:1。
  • 以 GPT-4o 計:輸入 750 萬 × $2.50 + 輸出 750 萬 × $10 ≈ 每日約 US$93.75
  • 換算一年約 US$34,200,三年約 US$102,600(約新台幣 330 萬元)
  • 若改用 Claude Sonnet 4.6($3/$15),同樣用量三年約 US$147,800,約新台幣 465 萬元;用 Opus 4.8($5/$25)則約 US$246,000,約新台幣 775 萬元

這還只是「穩定用量」。一旦導入 AI agent 自動化、多輪對話或大量批次處理,token 量很容易再翻倍——這就是「Token 焦慮」的來源:你無法精準預測下個月帳單,且越成功(用得越多)成本越失控。更別說資料外送的合規風險,對醫療、金融、製造、法律與政府研究單位而言,這往往是不可接受的硬限制。

地端自建的真實成本:硬體、電力、維運三筆

地端的 TCO 只有三塊,而且大部分是一次性的。我們以 MAQ 的兩款主力機型實算(價格為 MAQ 官方實售價)。

硬體:一次性,可攤三年

  • MAQ AI-High(NT$567,000):RTX PRO 5000 48GB Blackwell+Threadripper 9960X 24 核+128GB ECC。48GB 顯存可單卡跑 70B 4-bit 量化(Q4_K_M 約 43GB),是中型企業跑 Llama 3.3 70B、Qwen3 的甜蜜點。
  • MAQ AI-Highend(NT$1,145,000):RTX PRO 6000 96GB Blackwell+Threadripper PRO 9975WX 32 核+256GB ECC,預載 gpt-oss-120b(MXFP4 約 60GB,單卡 96GB 從容承載)。這是要跑最強開源權重模型的規格。

值得一提的是,GPU 本身的行情正在上漲。受 GDDR7 記憶體供應吃緊影響,RTX PRO 6000 Blackwell 96GB 單卡的 NVIDIA 官方目錄價,已從 2025 年初發布時的約 US$8,565 攀升到 2026 年的 US$13,250(市場零售實際成交仍約 US$8,000~9,200)。這代表地端硬體不會越等越便宜,反而早買早攤提,也凸顯 MAQ 整機含建置與三年保固的定價相對務實。

電力:唯一的長期變動成本

台灣 2026 年企業用電(台電產業高壓)平均約每度 4.2~4.3 元新台幣(含夏月差別、離峰時段更低;本文以 NT$4.27 估算)。以單卡 GPU 工作站滿載連續運轉估算:

  • 中階機整機約 0.8~1kW、高階單卡(RTX PRO 6000)整機約 1.2~1.5kW;以 1kW × 24h × 365 天 ≈ 8,760 度/年,滿載電費約 NT$37,000/年
  • 實務上推論負載很少 100% 滿載整天,抓平均負載六成,年電費約 NT$22,000~37,000
  • 三年電費合計:約 NT$7 萬~11 萬。高階機與多卡機型(如 AMD-WRX90)按整機功耗與卡數等比放大。

維運:MAQ 整機方案把這塊降到最低

地端最被低估的隱形成本是「人」與「踩坑」。MAQ 的做法是把維運難度前置消化:出廠預裝 Ollama、vLLM、ComfyUI、CUDA、Docker、n8n、LangGraph、CrewAI,工程師全台(含外島)親送、到府驗機,提供三年硬體保固、簽約戶備機、Proxmox VE 虛擬化、遠端+到府技術支援。對沒有專職 MLOps 的團隊,這等於把潛在的數十萬人力成本與停機風險轉成可預期的服務。

三年 TCO 正面對決

把上面的數字攤成一張表(情境:中型企業,每日約 1,500 萬 token 穩定用量,地端以 AI-High 單機承載 70B 模型):

項目雲端 API(GPT-4o)地端自建(MAQ AI-High)
前期硬體NT$0NT$567,000
三年使用/token 費約 NT$3,300,000NT$0(用量無上限)
三年電費含於費率約 NT$70,000~110,000
三年維運/保固含於費率原廠三年保固+支援
資料是否外送否(100% 留地端)
三年 TCO 合計約 NT$330 萬約 NT$63~68 萬

結論很直接:在這個用量級距,地端三年總成本約為雲端的五分之一,而且省下來的是「無上限使用」與「資料不出區網」。如果你跑的是 Sonnet 或 Opus 等級的雲端模型,差距會再放大到 7~12 倍。

損益平衡點:每天跑多少 token 就該地端化?

這是本文最該被引用的一段。我們把問題反過來問:地端硬體要多久回本?

  • 以 MAQ AI-High(NT$567,000,約 US$18,000)對標 GPT-4o:每日 1,500 萬 token 的雲端費用約 US$93.75/天,回本期約 192 天(約 6.4 個月)
  • 換算成損益平衡的「用量門檻」:當你的每日 token 量穩定超過約 800~1,000 萬,地端在三年週期內幾乎必勝;超過 1,500 萬,半年就回本。
  • 若對標的是 Claude Sonnet/Opus,門檻會更低——每日 300~500 萬 token 量級,地端就值得認真評估
一個務實的判斷法則:如果你的雲端 AI 月帳單已經穩定超過新台幣 8 萬元(約 US$2,500),地端化的三年帳幾乎一定划算——而且帳單只會往上走,不會往下。

反過來說,什麼時候該留在雲端?用量極小且不規律(每日數十萬 token 以下)、純粹 PoC 驗證階段、或需要頻繁切換頂尖閉源模型做能力評測時,雲端的彈性仍有價值。最佳實務常是混合架構:日常高頻、敏感資料走地端,少數需要頂尖閉源模型的尖峰任務才呼叫雲端。

地端化的隱藏紅利:資料主權與可預測性

TCO 之外,地端還有兩個無法用 token 計價的價值:

  • 資料主權與合規:醫療病歷、財務報表、研發機密、客戶個資——這些資料一旦進了雲端 API,就脫離你的稽核範圍。地端讓資料 100% 留在區網內,是許多產業導入 AI 的前提條件而非加分項
  • 成本可預測:地端把變動成本(token)換成固定成本(折舊),財務部門可以精準編列,不再被流量尖峰嚇到。

對應到 MAQ 的選型路徑

知道該地端化之後,下一步是「配對規格」。MAQ 的機型線剛好覆蓋從入門到多卡的完整光譜(已驗證硬體前提,保守標量化):

更完整的對照與選型邏輯,可參考 MAQ 的 AI 硬體選購指南,或直接逛 AI 伺服器專區AMD 多卡專區

不只是硬體:MAQ Atlas 把地端 RAG 變成交鑰匙方案

如果你的核心需求是「企業內部知識問答」而非單純跑模型,MAQ Atlas 是更高層次的答案。它是一台地端 RAG 知識主機,整合 RAG+知識圖譜+AI 助理+權限稽核,搭載 RTX PRO 6000 96GB 單卡載 gpt-oss-120B,實測 161 tok/s、支援 8 人並行,資料完全不出區網。對需要把內部文件、SOP、技術手冊變成可問答知識庫,又必須滿足資安合規的企業,Atlas 把前面整篇 TCO 試算的「地端最佳解」直接做成了開箱即用的產品。

結論:用量決定一切,但門檻比你想的低

2026 年的採購決策其實不複雜:小規模試水溫用雲端,一旦用量穩定、資料敏感、要長期運作,就該地端化。損益平衡點落在每日約 800~1,000 萬 token(對標 GPT-4o)或更低(對標 Claude),而中型企業的回本期往往只要半年。剩下的,就是把規格配對到你的模型大小與並行人數——這正是 MAQ 整機方案與 Atlas 要替你解決的事。

常見問題

每日要跑多少 token,企業地端自建 AI 才比雲端 API 划算?

以 2026 年 GPT-4o 行情(輸入 $2.50、輸出 $10 美元/百萬 token)估算,當每日穩定用量超過約 800~1,000 萬 token,地端在三年 TCO 內幾乎必勝;超過 1,500 萬 token,MAQ AI-High(NT$567,000)約半年回本。若對標較貴的 Claude Sonnet/Opus,門檻更低,每日 300~500 萬 token 就值得評估。一個簡單法則:雲端月帳單穩定超過新台幣 8 萬元,地端化三年帳幾乎一定划算。

雲端 LLM API 和地端自建 AI 伺服器,三年總成本差多少?

以中型企業每日約 1,500 萬 token 估算(匯率約 31.5、未計 batch/cache 折扣),雲端 GPT-4o 三年約新台幣 330 萬元、Claude Sonnet 約 465 萬、Opus 約 775 萬;地端以 MAQ AI-High 自建則為硬體 NT$567,000+三年電費約 7~11 萬,合計約 63~68 萬元,約為雲端的五分之一到十二分之一,且資料 100% 留在地端、用量無上限。

跑 70B 或 120B 大型語言模型,地端需要多大的 GPU 顯存?

70B 模型 4-bit 量化(Q4_K_M)約需 43GB,單卡 48GB 即可承載,對應 MAQ AI-High(RTX PRO 5000 48GB)。gpt-oss-120b 採 MXFP4 約 60GB,需單卡 96GB,對應 MAQ AI-Highend(RTX PRO 6000 96GB Blackwell)。全精度 FP16 的 70B 約需 140GB,得靠多卡並聯,對應 AMD-WRX90 平台。其中 Blackwell 對 MXFP4 提供原生 tensor core 加速(同級卡表現最佳),但 MXFP4 推論並非 NVIDIA 獨有,AMD Instinct 與部分 CPU 也有支援。

地端自建 AI 的電費和維運成本高嗎?

台灣 2026 年企業高壓用電(台電產業)平均約每度 4.2~4.3 元新台幣(含夏月差別)。單卡 GPU 工作站整機中階約 0.8~1kW、高階約 1.2~1.5kW,以平均六成負載估算,年電費約 2.2~3.7 萬元,三年合計約 7~11 萬元,相對硬體投資很小。維運方面,MAQ 整機出廠預裝 Ollama/vLLM/Docker 等環境,提供工程師全台親送驗機、三年硬體保固、簽約戶備機與遠端到府支援,把 MLOps 門檻與停機風險降到最低。

哪些情況應該留在雲端 API、而不是地端自建?

用量極小且不規律(每日數十萬 token 以下)、純 PoC 驗證階段、或需要頻繁切換頂尖閉源模型做能力評測時,雲端的零前期投入與彈性仍有價值。最佳實務常是混合架構:日常高頻與敏感資料走地端、少數需要頂尖閉源模型的尖峰任務才呼叫雲端,兼顧成本、效能與資料安全。

不確定該選哪台?先看 AI 硬體選購指南

從 70B 單卡到 120B、多卡並聯,MAQ 依你的模型大小、並行人數與預算,幫你把規格一次配對到位,工程師全台親送驗機、三年保固。