2026 年,企業要問的已經不是「要不要做 AI Agent」,而是「這筆投資多久回本、哪些流程值得先做」。代理式 AI(Agentic AI)把大型語言模型從「會聊天」變成「會做事」——它能讀工單、查資料庫、呼叫 API、寫回 CRM,自動跑完一整條流程。但工具好玩不等於划算。本文不談願景,只談數字:用 2026 年真實的雲端 API 計費與本地模型成本,給你一套可以直接套用的 ROI 試算框架,並回答一個被普遍誤解的問題——跑 AI Agent 的瓶頸,到底是不是高階顯卡?
先分清楚:哪些流程適合交給 AI Agent
不是所有工作都該自動化。AI Agent 的甜蜜點,是高頻、規則明確、但人工處理又煩又貴的流程。導入前先用三個條件篩:發生頻率高(每天數十次以上)、輸入輸出結構相對固定、錯了有辦法人工複核兜底。符合這三點的流程,回本最快。
- 客服初篩與分流:把進來的訊息分類、抽出關鍵欄位、回答常見問題、無法處理的再轉人工。產業數據顯示,例行、規則明確的詢問 deflection(攔截率)約落在 40~70%——高度結構化的詢問可達上緣,情緒高漲或爭議型的意圖則明顯偏低(約 19~34%)。換句話說,自動化覆蓋率該看流程性質務實預估,而非一上線就期待普遍達到七成。
- 報表與摘要生成:每日/每週把分散在多個系統的數字撈出來、彙整、寫成人話。這類工作規則固定、重複度極高,是 n8n 排程節點最擅長的場景。
- 資料抽取(structured extraction):從 PDF、發票、合約、Email 裡把欄位拉成結構化資料。傳統靠正則與樣板很脆弱,換成 LLM 抽取後容錯大幅提升。
- 跨系統串接:ERP、CRM、工單、試算表之間的搬資料與觸發動作。n8n 內建 400+ 應用連接器,代理只是工作流裡的其中一個節點,前後接的是真正的業務系統。
能寫成「如果…就…」SOP、但又因為文字太雜而難以硬寫規則的流程,正是代理式 AI 投報率最高的起點。
三個框架怎麼選:n8n、LangGraph、CrewAI
2026 年企業端最常被拿來比較的三套開源框架,定位其實互補,不是互斥:
| 框架 | 核心思路 | 最適合的場景 | 2026 現況 |
|---|---|---|---|
| n8n | 視覺化工作流,代理是其中一個節點 | 跨系統串接、排程、把代理嵌進既有業務流程 | 400+ 連接器,社群版可自架(self-hosted)免費 |
| LangGraph | 有狀態(stateful)的圖型代理,精準控制每一步 | 長流程、需要記憶與人類審核關卡(HITL)的複雜任務 | 1.x(已達 1.0 穩定里程碑,持續強化 checkpoint/狀態持久化) |
| CrewAI | 多代理分工,像一個團隊協作 | 研究員+撰稿+審核的內容管線、多步分析 | 1.x(企業可觀測性與排程;月下載量約 520 萬) |
實務上常見組合是:用 n8n 當骨架(負責觸發、串接、排程),複雜決策節點再交給 LangGraph 或 CrewAI。三套都能完全自架,這點對接下來的成本計算至關重要——因為框架本身免費,真正的成本花在「模型推論」上。
成本的核心戰場:雲端 API vs 本地輕量模型
代理式 AI 的特性是呼叫密集。一個流程往往不是問一次,而是「規劃→呼叫工具→讀結果→再規劃」,一筆業務可能觸發 5~15 次模型推論,而且每次都把工具說明、歷史對話、系統提示一起塞進去,token 消耗遠比單純聊天大。這正是雲端按量計費容易失控的地方。
雲端 API:起步快,但量大就咬人
2026 年主流商用 API 的價格(每百萬 token,輸入/輸出)大致如下:
- GPT-5.5:US$5 / US$30(旗艦,2026 年 4 月把 GPT-5 線單價翻倍)
- GPT-5.4:US$2.50 / US$15
- Claude Sonnet 4.6:US$3 / US$15;Claude Haiku 4.5:US$1 / US$5
看單價很便宜,但代理工作流會放大它。假設一條客服流程平均吃 8K 輸入+2K 輸出 token,用 Sonnet 4.6 約 US$0.054/次;一天跑 3,000 次就是 US$162/天,一個月超過 US$4,800(約 NT$15.6 萬),而且這還沒算重試、長對話與多代理疊加。提示快取(prompt caching)對重複的系統提示可省下九成快取輸入成本、批次 API 再打五折,能壓低帳單——但只要量持續成長,雲端就是每個月都要重新繳一次的變動成本。
本地輕量模型:把變動成本變成一次性硬體
關鍵洞察是:代理流程裡的多數步驟,根本不需要旗艦級模型。分類、抽欄位、判斷意圖、改寫文字、決定下一步該呼叫哪個工具——這些用 2026 年的小模型(Qwen3 4B/8B、Gemma 3 4B、Llama 3.2 3B、gpt-oss)在本地就跑得又快又夠用,只有真正複雜的推理才偶爾呼叫雲端旗艦。這種「小模型在地端打底、大模型雲端救援」的混合架構,是 2026 年代理式 AI 成本最優的主流解法。
為什麼瓶頸是 CPU 核心數與記憶體,不是高階獨顯?
這是企業採購最常踩的迷思——以為跑 AI 就得買最貴的顯卡。對 AI Agent 工作負載而言,事實正好相反,原因有三:
- 跑的是小模型,VRAM 不是瓶頸:Qwen3 8B、Gemma 3 4B 這類模型 Q4 量化後僅需數 GB,內顯(iGPU)配上足夠系統記憶體就能載入,根本用不到 24GB、48GB 的大顯存。買 RTX 5090 來跑 8B 模型,是用跑車去送便當。
- 代理工作是「協調」而非「重算」:AI Agent 的時間大量花在等工具回應、解析 JSON、排程、跑 n8n 節點、處理多個並行任務——這些是 CPU 與記憶體的活,不是 GPU 浮點運算的活。核心數多、記憶體足,才能同時跑多條工作流、多個容器(Docker/vLLM)而不卡。
- 本地小模型推論吃記憶體頻寬與 CPU:純 CPU 跑 3~4B 模型約 8~12 tok/s、配上內顯加速可再往上,對「分類一句話」「抽三個欄位」這種短輸出綽綽有餘。決定體感的是記憶體容量與頻寬,不是有沒有頂規獨顯。
換句話說,一台多核 CPU + 充足記憶體 + 內顯的機器,對代理工作流的性價比,遠勝一台塞了高階遊戲卡卻記憶體吃緊的機器。這也是為什麼專為 AI Agent 設計的機型,規格邏輯和繪圖工作站完全不同。
一套簡單的 ROI 試算框架(四步驟)
別被複雜模型嚇到,企業導入的回本帳其實四步就能估。要提醒的是,以下數字採用了幾項樂觀但合理的假設(50% 覆蓋率、本地推論成本趨近於零),實際導入請依自家流程性質調整,下面的算式是「怎麼算」的框架,不是保證的承諾:
- 算現況人工成本:(每月處理筆數)×(每筆平均人工分鐘)×(人力時薪)。例:客服每月 6,000 筆例行詢問,每筆 5 分鐘,時薪 NT$300 → 每月 NT$150,000。
- 估自動化覆蓋率:保守抓 40~50% 起步(高度結構化情境成熟後可能更高)。以 50% 計,AI Agent 每月省下約 NT$75,000 人工。
- 算導入後的持續成本:若走純雲端 API,這約 3,000 筆/月(即 6,000 筆中被自動化的那一半)可能要 NT$1.5 萬以上的 API 帳單,且逐月支付;若走本地代理 PC,模型推論成本趨近於電費,幾乎為零,只剩一次性硬體。
- 算回本期:硬體投資 ÷ 每月淨節省。
把第 4 步套到 MAQ AI-Agent-Medium(NT$53,000)上:以上面每月淨省約 NT$75,000、扣掉趨近於零的本地推論成本估算,約 0.7 個月(不到一個月)就回收硬體成本(53,000 ÷ 75,000 ≈ 0.71 月),之後每月淨節省持續累積;若選 AI-Agent-Eco(NT$53,000),回本期約 0.71 個月,同樣落在一個月內。即使把覆蓋率砍到只有 30%、把節省打對折來保守估,回本期也落在 2~3 個月內。這與產業普遍觀察一致:實作良好的 AI 代理首年常見 200~500% 投報率、3~6 個月回本,AI 與自動化可讓客服營運成本下降 20~30%。
而本地化的真正威力在「之後」:雲端方案的省下幅度會被逐月增長的 API 帳單吃掉,量越大付越多;本地代理 PC 則是一次性投入、邊際成本趨近於零,業務量翻倍也不會讓帳單翻倍。這就是為什麼高頻流程越跑越久,本地化的累計優勢越明顯。
對應到 MAQ 的硬體方案怎麼選
把上面的邏輯落到實機,MAQ(網絡商數科技)的產品線正是照「代理工作負載真正吃什麼」來設計的:
- AI-Agent-Medium(NT$53,000)/AI-Agent-Eco(NT$53,000):32GB 記憶體、內顯,出廠預載
n8n、LangGraph、CrewAI、Ollama。兩款定位相同、平台不同(Medium 走 6 核 AMD Ryzen 5 8600G、Eco 走 14 核 Intel Core Ultra 5),都專為「跑代理工作流、在地端打底小模型」設計——把預算放在核心數與記憶體,而不是用不到的高階獨顯。開箱即可ollama run qwen3:8b(或ollama run gemma3:4b、ollama run llama3.2:3b等小模型)、拉起 n8n 工作流,是大多數企業導入 AI Agent 的務實起點。 - 需要在地端跑更大模型時往上走:若代理流程裡的「複雜推理節點」也想留在地端、不外送雲端,AI-Medium(NT$155,000,AMD AI PRO R9700 32GB,預載 gpt-oss-20b)或 AI-Eco(NT$185,000,NVIDIA RTX PRO 4000 24GB Blackwell,預載 Llama 11B)可在本地承載中型模型,避免敏感對話出區網。
- 企業級地端知識中樞:若要把代理接上內部知識庫做 RAG,MAQ Atlas 提供 RAG+知識圖譜+AI 助理+權限稽核,跑 RTX PRO 6000 96GB 單卡載 gpt-oss-120B,實測 161 tok/s、支援 8 人並行,且資料 100% 留在區網內——這對受監理或在意資料外流的企業是關鍵。
所有機型出廠都預裝 Ollama/ComfyUI/CUDA/Docker/vLLM/n8n/LangGraph/CrewAI,並由工程師全台(含外島)親送驗機、三年硬體保固、簽約戶備機。對企業而言,省下的不只是 API 費用,還有自己搭環境、踩相依套件坑的時間。
結論:把帳算清楚,自然知道值不值得
代理式 AI 值不值得,從來不是信仰問題,而是一道四步驟的算術題。先挑高頻、規則明確的流程(客服初篩、報表、資料抽取、跨系統串接);分清楚哪些步驟用本地小模型就夠、哪些才需要雲端旗艦;認清代理工作負載真正吃的是 CPU 核心與記憶體而非高階獨顯;最後用「硬體投資 ÷ 每月淨節省」算回本。當你把雲端逐月變動成本,換成一台 NT$53,000 起、邊際成本趨近於零的本地代理 PC,多數高頻流程的回本期都會落在數週到數月之間——而且業務量越大,本地化越划算。