客戶案例 · 私有 AI 主機

私有 AI 客服主機。
機密不外送，沒有 Token 焦慮。

為「小K咖啡」八間民宿打造的 24 小時 AI 訂房客服——自動查房況、報房價、產生訂房連結、議價轉介、真人接手。全程跑在自家 NVIDIA RTX PRO 6000 伺服器上，用量再大也不必盯著 token 計費表。以下都是實機實測數據。

選購這台主機看它實際運作 ›

MAQ 私有 AI 主機 · NVIDIA RTX PRO 6000 Blackwell 96GB

161tok/s

生成速度

3,370tok/s

讀取 prefill

2.6秒

5 人同時問完

8並行

同時對話不排隊

The Machine

單張 96GB 大卡，整台 120B 模型

伺服器等級硬體，單卡完整載入 120B 參數模型，不切割、不掉精度。

NVIDIA RTX PRO 6000 Blackwell

96GB 顯示記憶體 · 300W · AI 伺服器旗艦，單卡跑滿 120B 大模型

AMD Threadripper PRO

32 核心處理器 · 伺服器平台，支援 IPMI · 水冷散熱

DDR5 ECC RDIMM

伺服器級錯誤校正記憶體，長時間運算穩定不出錯

M.2 PCIe 5.0 SSD

PCIe 5.0 NVMe 快閃儲存 · 模型秒級載入

雙 10GbE 網路

多槽 PCIe 5.0 ×16 · USB4 40G · 可擴充多卡

Ubuntu Server + Ollama

OpenAI 相容 API · 模型常駐 VRAM · 8 並行槽

看完整規格與選購

Benchmark · 真實量測

實機效能，不是規格書理論值

以下數字全部直接打這台伺服器量出來。模型為 gpt-oss-120B（MoE 架構，每 token 僅激活約 5B 參數，所以又快又省）。

161tok/s

回覆生成速度

客人收到字的速度感，比人打字快數倍

3,370tok/s

讀取速度 prefill

吃進完整 system prompt ＋對話歷史

2.6秒

5 人同時問

自動批次處理，不是一個一個排隊

On-prem

跑在自家伺服器，
資料完全不外送

對話與客戶資料 100% 留在自家區網，沒有 Rate Limit、尖峰也順。一台機器算力大幅有餘，可同時服務七間門店，用量越大、每次對話的平均成本越低。

了解私有 AI 主機 ›

Real workload

一次對話多久？能服務幾位客人？

真實一輪吃進約 10–12K tokens 的設定與對話脈絡，AI 自動判斷要不要查資料庫。

對話延遲

對話類型	實測延遲	說明
純問答 / 設施詢問	2–4 秒	不查資料庫，直接回
查房況 / 報房價	6–10 秒	自動呼叫工具查即時空房
跨棟比較 / 包棟方案	10–14 秒	一次掃多間民宿

同時服務量

設定	同時對話	體驗
標準	4 位同時	各自正常速度、幾乎無感
現行（8 並行槽）	8 位同時	VRAM 仍有餘裕
理論滿載	~600–900 場/時	每場完整對話 3–5 輪

// 量測環境：Ollama + gpt-oss-120B，單張 NVIDIA RTX PRO 6000 96GB，內網直連延遲約 3ms。

What it does

不只會聊天，它真的把事做完

會查資料庫、算價、產生訂房連結，並懂得什麼時候該找真人。

即時查房況房價

連動訂房系統查真實空房，含平假日、加人、寵物、早餐計價，並套用房價日曆規則

一鍵訂房連結

日期人數預填好，客人點開直接到報價頁，可自動帶優惠折扣碼

懂國定假日

客人說「端午」「中秋」自動換算正確日期，不靠模型亂猜

議價智慧轉介

客人嫌貴 / 講預算時，先問預算並即時通知老闆娘，不冒然降價

安全優先回應

客人回報打破東西，先關心有沒有人受傷，再轉由真人處理賠償

真人無縫接手

客人喊「轉真人」即推播通知、AI 安靜，後台一鍵切回，全程不漏接

LINE × 7 + 官網

七間民宿各自的官方 LINE 帳號 + 官網浮動 widget，同一套大腦

餐廳訂位整合

查咖啡廳早午餐時段，附上招牌介紹與預約方式

Economics of scale

用量越大，自架越划算

重點不是「誰一定比較便宜」，而是隨著用量與門店數成長，固定成本的自架方案邊際成本趨近於零，且資料完全留在自家。

雲端 API

零建置、起步最快，適合輕量或剛導入
費用隨用量等比成長，量越大帳單越高
尖峰可能撞流量限制，需排隊或升方案
對話與客戶資料送往第三方雲端

自架 GPU 伺服器

用量算在自己機器上，不必盯著 token 計費表、沒有按量帳單焦慮
用量越大，每次對話的平均成本越低（固定成本被攤平）
一台機器算力大幅有餘，可同時服務多間門店，再攤更薄
無 Rate Limit、尖峰也順；資料完全留在自家區網

// 自架的甜蜜點：高用量、長期經營、多店 / 多品牌共用。低用量起步階段，雲端仍是務實選擇。

想為自己的店 / 工作室，
建一台私有 AI 主機？

從硬體選配、模型部署到系統串接，MAQ 全方位為你打造專屬的私有 AI 主機——機密資料不外送，不再有 Token 焦慮。

選購 AI 主機加 LINE 諮詢

私有 AI 客服主機。機密不外送，沒有 Token 焦慮。