每日要跑多少 token，企業地端自建 AI 才比雲端 API 划算？

以 2026 年 GPT-4o 行情（輸入 $2.50、輸出 $10 美元／百萬 token）估算，當每日穩定用量超過約 800～1,000 萬 token，地端在三年 TCO 內幾乎必勝；超過 1,500 萬 token，MAQ AI-High（NT$706,000）約半年回本。若對標較貴的 Claude Sonnet／Opus，門檻更低，每日 300～500 萬 token 就值得評估。一個簡單法則：雲端月帳單穩定超過新台幣 8 萬元，地端化三年帳幾乎一定划算。

雲端 LLM API 和地端自建 AI 伺服器，三年總成本差多少？

以中型企業每日約 1,500 萬 token 估算（匯率約 31.5、未計 batch/cache 折扣），雲端 GPT-4o 三年約新台幣 330 萬元、Claude Sonnet 約 465 萬、Opus 約 775 萬；地端以 MAQ AI-High 自建則為硬體 NT$706,000＋三年電費約 7～11 萬，合計約 63～68 萬元，約為雲端的五分之一到十二分之一，且資料 100% 留在地端、用量無上限。

跑 70B 或 120B 大型語言模型，地端需要多大的 GPU 顯存？

70B 模型 4-bit 量化（Q4_K_M）約需 43GB，單卡 48GB 即可承載，對應 MAQ AI-High（RTX PRO 5000 48GB）。gpt-oss-120b 採 MXFP4 約 60GB，需單卡 96GB，對應 MAQ AI-Highend（RTX PRO 6000 96GB Blackwell）。全精度 FP16 的 70B 約需 140GB，得靠多卡並聯，對應 AMD-WRX90 平台。其中 Blackwell 對 MXFP4 提供原生 tensor core 加速（同級卡表現最佳），但 MXFP4 推論並非 NVIDIA 獨有，AMD Instinct 與部分 CPU 也有支援。

地端自建 AI 的電費和維運成本高嗎？

台灣 2026 年企業高壓用電（台電產業）平均約每度 4.2～4.3 元新台幣（含夏月差別）。單卡 GPU 工作站整機中階約 0.8～1kW、高階約 1.2～1.5kW，以平均六成負載估算，年電費約 2.2～3.7 萬元，三年合計約 7～11 萬元，相對硬體投資很小。維運方面，MAQ 整機出廠預裝 Ollama／vLLM／Docker 等環境，提供工程師全台親送驗機、三年硬體保固、簽約戶備機與遠端到府支援，把 MLOps 門檻與停機風險降到最低。

哪些情況應該留在雲端 API、而不是地端自建？

用量極小且不規律（每日數十萬 token 以下）、純 PoC 驗證階段、或需要頻繁切換頂尖閉源模型做能力評測時，雲端的零前期投入與彈性仍有價值。最佳實務常是混合架構：日常高頻與敏感資料走地端、少數需要頂尖閉源模型的尖峰任務才呼叫雲端，兼顧成本、效能與資料安全。

2026 企業地端 AI 採購全攻略：雲端 API vs 地端自建，三年 TCO 總成本實算

2026 年，幾乎每家企業都已經把生成式 AI 排進預算。真正的難題不再是「要不要做」，而是「要怎麼做最划算」：直接串接雲端 LLM API、用多少付多少？還是一次買斷地端伺服器、自己跑模型？這篇文章不談行銷話術，只把三年總持有成本（TCO, Total Cost of Ownership）攤開來算，給你一個能在董事會上站得住腳的數字，也給研究室教授一個能寫進計畫書的依據。

兩種採購模式的本質差異

雲端與地端不是「貴」與「便宜」的差別，而是成本結構的根本不同。理解這點，才不會在錯誤的規模上做錯誤的決定。

雲端 LLM API（OpEx 營運費用）：零前期投資，依 token 用量計費。優點是即開即用、彈性擴縮；缺點是成本隨用量線性成長，且每一次呼叫都把你的資料送出公司網路。
地端自建（CapEx 資本支出）：一次性硬體投資，之後只剩電費與維運。優點是邊際成本趨近於零、資料 100% 留在地端；缺點是前期投入高、需要懂硬體與模型部署。

雲端像租車，跳表計費、不開不付錢；地端像買車，先付一筆，之後每公里都便宜。用量越大、跑得越久，買車越划算——關鍵只在於你的「里程數」過了損益平衡點沒有。

雲端 API 的真實成本：Token 焦慮從何而來

先看 2026 年主流雲端 API 的檯面價格（每百萬 token，美元；本文 NTD 換算統一以匯率約 31.5 計、未計 batch/cache 折扣）：

模型	輸入 / 1M tokens	輸出 / 1M tokens	定位
GPT-4o	$2.50	$10.00	通用主力（仍廣泛使用，新案多改走 GPT-4.1 家族）
GPT-4o mini	$0.15	$0.60	輕量任務
Claude Sonnet 4.6	$3.00	$15.00	長文／程式
Claude Opus 4.8	$5.00	$25.00	高階推理

數字看起來很小，陷阱在於「輸出貴、用量會放大」。實務上一次 RAG 問答、一份報告生成或一段 agent 工作流，往往動輒上萬 token，而且輸出比輸入貴 4～5 倍。我們用一個中型企業的場景估算：

假設每日處理 1,500 萬 token（約等於數十位員工日常用 AI 助理、客服、文件摘要的合理量級），輸入輸出比抓 1:1。
以 GPT-4o 計：輸入 750 萬 × $2.50 + 輸出 750 萬 × $10 ≈ 每日約 US$93.75。
換算一年約 US$34,200，三年約 US$102,600（約新台幣 330 萬元）。
若改用 Claude Sonnet 4.6（$3／$15），同樣用量三年約 US$147,800，約新台幣 465 萬元；用 Opus 4.8（$5／$25）則約 US$246,000，約新台幣 775 萬元。

這還只是「穩定用量」。一旦導入 AI agent 自動化、多輪對話或大量批次處理，token 量很容易再翻倍——這就是「Token 焦慮」的來源：你無法精準預測下個月帳單，且越成功（用得越多）成本越失控。更別說資料外送的合規風險，對醫療、金融、製造、法律與政府研究單位而言，這往往是不可接受的硬限制。

地端自建的真實成本：硬體、電力、維運三筆

地端的 TCO 只有三塊，而且大部分是一次性的。我們以 MAQ 的兩款主力機型實算（價格為 MAQ 官方實售價）。

硬體：一次性，可攤三年

MAQ AI-High（NT$706,000）：RTX PRO 5000 48GB Blackwell＋Threadripper 9960X 24 核＋128GB ECC。48GB 顯存可單卡跑 70B 4-bit 量化（Q4_K_M 約 43GB），是中型企業跑 Llama 3.3 70B、Qwen3 的甜蜜點。
MAQ AI-Highend（NT$1,247,000）：RTX PRO 6000 96GB Blackwell＋Threadripper PRO 9975WX 32 核＋256GB ECC，預載 gpt-oss-120b（MXFP4 約 60GB，單卡 96GB 從容承載）。這是要跑最強開源權重模型的規格。

值得一提的是，GPU 本身的行情正在上漲。受 GDDR7 記憶體供應吃緊影響，RTX PRO 6000 Blackwell 96GB 單卡的 NVIDIA 官方目錄價，已從 2025 年初發布時的約 US$8,565 攀升到 2026 年的 US$13,250（市場零售實際成交仍約 US$8,000～9,200）。這代表地端硬體不會越等越便宜，反而早買早攤提，也凸顯 MAQ 整機含建置與三年保固的定價相對務實。

電力：唯一的長期變動成本

台灣 2026 年企業用電（台電產業高壓）平均約每度 4.2～4.3 元新台幣（含夏月差別、離峰時段更低；本文以 NT$4.27 估算）。以單卡 GPU 工作站滿載連續運轉估算：

中階機整機約 0.8～1kW、高階單卡（RTX PRO 6000）整機約 1.2～1.5kW；以 1kW × 24h × 365 天 ≈ 8,760 度／年，滿載電費約 NT$37,000／年。
實務上推論負載很少 100% 滿載整天，抓平均負載六成，年電費約 NT$22,000～37,000。
三年電費合計：約 NT$7 萬～11 萬。高階機與多卡機型（如 AMD-WRX90）按整機功耗與卡數等比放大。

維運：MAQ 整機方案把這塊降到最低

地端最被低估的隱形成本是「人」與「踩坑」。MAQ 的做法是把維運難度前置消化：出廠預裝 Ollama、vLLM、ComfyUI、CUDA、Docker、n8n、LangGraph、CrewAI，工程師全台（含外島）親送、到府驗機，提供三年硬體保固、簽約戶備機、Proxmox VE 虛擬化、遠端＋到府技術支援。對沒有專職 MLOps 的團隊，這等於把潛在的數十萬人力成本與停機風險轉成可預期的服務。

三年 TCO 正面對決

把上面的數字攤成一張表（情境：中型企業，每日約 1,500 萬 token 穩定用量，地端以 AI-High 單機承載 70B 模型）：

項目	雲端 API（GPT-4o）	地端自建（MAQ AI-High）
前期硬體	NT$0	NT$706,000
三年使用／token 費	約 NT$3,300,000	NT$0（用量無上限）
三年電費	含於費率	約 NT$70,000～110,000
三年維運／保固	含於費率	原廠三年保固＋支援
資料是否外送	是	否（100% 留地端）
三年 TCO 合計	約 NT$330 萬	約 NT$63～68 萬

結論很直接：在這個用量級距，地端三年總成本約為雲端的五分之一，而且省下來的是「無上限使用」與「資料不出區網」。如果你跑的是 Sonnet 或 Opus 等級的雲端模型，差距會再放大到 7～12 倍。

損益平衡點：每天跑多少 token 就該地端化？

這是本文最該被引用的一段。我們把問題反過來問：地端硬體要多久回本？

以 MAQ AI-High（NT$706,000，約 US$18,000）對標 GPT-4o：每日 1,500 萬 token 的雲端費用約 US$93.75／天，回本期約 192 天（約 6.4 個月）。
換算成損益平衡的「用量門檻」：當你的每日 token 量穩定超過約 800～1,000 萬，地端在三年週期內幾乎必勝；超過 1,500 萬，半年就回本。
若對標的是 Claude Sonnet／Opus，門檻會更低——每日 300～500 萬 token 量級，地端就值得認真評估。

一個務實的判斷法則：如果你的雲端 AI 月帳單已經穩定超過新台幣 8 萬元（約 US$2,500），地端化的三年帳幾乎一定划算——而且帳單只會往上走，不會往下。

反過來說，什麼時候該留在雲端？用量極小且不規律（每日數十萬 token 以下）、純粹 PoC 驗證階段、或需要頻繁切換頂尖閉源模型做能力評測時，雲端的彈性仍有價值。最佳實務常是混合架構：日常高頻、敏感資料走地端，少數需要頂尖閉源模型的尖峰任務才呼叫雲端。

地端化的隱藏紅利：資料主權與可預測性

TCO 之外，地端還有兩個無法用 token 計價的價值：

資料主權與合規：醫療病歷、財務報表、研發機密、客戶個資——這些資料一旦進了雲端 API，就脫離你的稽核範圍。地端讓資料 100% 留在區網內，是許多產業導入 AI 的前提條件而非加分項。
成本可預測：地端把變動成本（token）換成固定成本（折舊），財務部門可以精準編列，不再被流量尖峰嚇到。

對應到 MAQ 的選型路徑

知道該地端化之後，下一步是「配對規格」。MAQ 的機型線剛好覆蓋從入門到多卡的完整光譜（已驗證硬體前提，保守標量化）：

輕量 / AI Agent 自動化：AI-Agent-Medium／Eco（NT$34,000），內顯＋預載 n8n／LangGraph／CrewAI／Ollama，專為跑工作流而生。
中小模型 / gpt-oss-20b 機：AI-Medium（NT$151,000，AMD AI PRO R9700 32GB，預載 gpt-oss-20b），32GB 顯存適合中小型模型與 20b 級語言模型，是入門地端推論的高性價比選擇。
中型 70B 單卡甜蜜點：AI-High（NT$706,000，RTX PRO 5000 48GB，48GB 跑 70B Q4），48GB 顯存正好單卡承載 70B 4-bit 量化（約 43GB），是 70B 地端化的最佳單卡解。
跑最強開源權重 120B：AI-Highend（NT$1,247,000，RTX PRO 6000 96GB，預載 gpt-oss-120b）。Blackwell 對 MXFP4 提供原生 tensor core 加速（同級消費／工作站卡中表現最佳），單卡 96GB 承載 120B 從容有餘。
全精度 / 多卡並聯：AMD-WRX90（NT$1,515,000），WRX90 平台原生支援 4～7 卡並聯，跑 FP16 全精度 70B（約 140GB）或更大模型。
影像生成：Stable Diffusion 機型線，Flux.1 dev fp8 約 17GB、SDXL fp16 約 8～12GB，預載 ComfyUI 開箱即跑。

更完整的對照與選型邏輯，可參考 MAQ 的 AI 硬體選購指南，或直接逛 AI 伺服器專區與 AMD 多卡專區。

不只是硬體：MAQ Alishan 把地端 RAG 變成交鑰匙方案

如果你的核心需求是「企業內部知識問答」而非單純跑模型，MAQ Alishan 是更高層次的答案。它是一台地端 RAG 知識主機，整合 RAG＋知識圖譜＋AI 助理＋權限稽核，搭載 RTX PRO 6000 96GB 單卡載 gpt-oss-120B，實測 161 tok/s、支援 8 人並行，資料完全不出區網。對需要把內部文件、SOP、技術手冊變成可問答知識庫，又必須滿足資安合規的企業，Alishan 把前面整篇 TCO 試算的「地端最佳解」直接做成了開箱即用的產品。

結論：用量決定一切，但門檻比你想的低

2026 年的採購決策其實不複雜：小規模試水溫用雲端，一旦用量穩定、資料敏感、要長期運作，就該地端化。損益平衡點落在每日約 800～1,000 萬 token（對標 GPT-4o）或更低（對標 Claude），而中型企業的回本期往往只要半年。剩下的，就是把規格配對到你的模型大小與並行人數——這正是 MAQ 整機方案與 Alishan 要替你解決的事。