私有 AI 客服主機
資料不出區網,
不再有 Token 焦慮
為「小K咖啡」七間民宿與餐廳打造的 24 小時 AI 訂房客服 —— 自動查房況、報房價、產生訂房連結、議價轉介、真人接手。跑在自家 NVIDIA RTX PRO 6000 伺服器上,用量再大也不必盯著 token 計費表、無流量上限。以下全部是實機實測數據。
這台機器的規格
工作站等級硬體,單張 96GB 大卡足以完整載入 120B 參數模型,不需切割、不掉精度。
NVIDIA RTX PRO 6000 Blackwell
96GB 顯示記憶體 · 300W · AI 工作站旗艦,單卡跑滿 120B 大模型
AMD Threadripper PRO
32 核心處理器 · 工作站平台 · 水冷散熱
DDR5 ECC RDIMM
伺服器級錯誤校正記憶體
M.2 PCIe 5.0 SSD
PCIe 5.0 NVMe 快閃儲存 · 模型秒級載入
雙 10GbE 網路
多槽 PCIe 5.0 ×16 · USB4 40G · 可擴充多卡
Ubuntu Server + Ollama
OpenAI 相容 API · 模型常駐 VRAM · 8 並行槽
實機效能實測
以下數字全部是直接打這台伺服器量出來的,不是規格書理論值。模型為 gpt-oss-120B(MoE 架構,每 token 僅激活約 5B 參數,所以又快又省)。
● 真實量測 · 非理論值一次客人對話要多久?
真實 Ask AI 一輪:吃進約 10–12K tokens 的設定與對話脈絡,自動判斷要不要查資料庫。
| 對話類型 | 實測延遲 | 說明 |
|---|---|---|
| 純問答 / 設施詢問 | 2–4 秒 | 不查資料庫,直接回 |
| 查房況 / 報房價 | 6–10 秒 | 自動呼叫工具查即時空房 |
| 跨棟比較 / 包棟方案 | 10–14 秒 | 一次掃多間民宿 |
能同時服務幾位客人?
調整並行槽即可線性擴充;96GB VRAM 在載入模型後仍有大量空間給多人同時對話。
| 設定 | 同時對話 | 體驗 |
|---|---|---|
| 標準 | 4 位同時 | 各自正常速度、幾乎無感 |
| 現行(8 並行槽) | 8 位同時 | VRAM 仍有餘裕 |
| 理論滿載 | ~600–900 場/小時 | 每場完整對話 3–5 輪 |
// 量測環境:Ollama + gpt-oss-120B,單張 NVIDIA RTX PRO 6000 96GB,內網直連延遲約 3ms。
AI 客服實際會做的事
不是只會聊天的機器人 —— 它真的會查資料庫、算價、產生訂房連結,並懂得什麼時候該找真人。
即時查房況房價
連動訂房系統查真實空房,含平假日、加人、寵物、早餐計價,並套用房價日曆規則
一鍵訂房連結
日期人數預填好,客人點開直接到報價頁,可自動帶優惠折扣碼
懂國定假日
客人說「端午」「中秋」自動換算正確日期,不靠模型亂猜
議價智慧轉介
客人嫌貴 / 講預算時,先問預算並即時通知老闆娘,不冒然降價
安全優先回應
客人回報打破東西,先關心有沒有人受傷,再轉由真人處理賠償
真人無縫接手
客人喊「轉真人」即推播通知、AI 安靜,後台一鍵切回,全程不漏接
LINE × 7 + 官網
七間民宿各自的官方 LINE 帳號 + 官網浮動 widget,同一套大腦
餐廳訂位整合
查咖啡廳早午餐時段,附上招牌介紹與預約方式
用量越大,自架越划算
兩種方案各有適合的階段。重點不是「誰一定比較便宜」,而是隨著用量與門店數成長,固定成本的自架方案邊際成本趨近於零,且資料完全留在自家。
雲端 API
- 零建置、起步最快,適合輕量或剛導入
- 費用隨用量等比成長,量越大帳單越高
- 尖峰可能撞流量限制,需排隊或升方案
- 對話與客戶資料送往第三方雲端
自架 GPU 伺服器
- 用量算在自己機器上,不必盯著 token 計費表、沒有按量帳單焦慮
- 用量越大,每次對話的平均成本越低(固定成本被攤平)
- 一台機器算力大幅有餘,可同時服務多間門店,再攤更薄
- 無 Rate Limit、尖峰也順;資料完全留在自家區網
// 自架的甜蜜點:高用量、長期經營、多店 / 多品牌共用。低用量起步階段,雲端仍是務實選擇。
想為自己的店 / 工作室
建一台私有 AI 主機?
從硬體選配、模型部署到系統串接,MAQ 全方位為你打造專屬的私有 AI 主機 —— 資料不出區網,不再有 Token 焦慮。