xAI 的產品線最近明顯加快擴張速度,從 Grok 聊天模型、影像生成,到更完整的開發者 API 生態,現在連語音介面也正式補上。xAI 推出 Grok 的語音 API,涵蓋語音轉文字(STT,Speech to Text)與文字轉語音(TTS,Text to Speech)兩大能力,並主打價格大幅低於現有市場主流服務,甚至比 ElevenLabs 便宜近 10 倍。
Did xAI just mass-murder the entire voice AI industry? 🤯
Grok just launched two voice APIs. Speech-to-Text and Text-to-Speech.
Built on the same stack powering Tesla cars and Starlink support.
And priced at 10x cheaper than ElevenLabs.
Speech-to-Text: $0.10/hr batch.… pic.twitter.com/hoEFybkwkC
— Vaibhav Sisinty (@VaibhavSisinty) April 18, 2026
xAI 這次推出的,不只是單純 TTS,而是一整套語音 API
根據 xAI 官方 Voice APIs 文件,這次上線的語音能力並不只有一般人最容易理解的文字轉語音。整體來看,xAI 把語音相關能力拆成三塊。第一是可用於即時語音對話的 Voice Agent API,透過 /v1/realtime 提供語音對語音互動能力;第二是 Text to Speech API,透過 /v1/tts 將文字轉成語音;第三則是 Speech to Text API,透過 /v1/stt 把語音內容轉成文字。這代表 xAI 不只是要做「幫你唸文字」的語音服務,而是想把語音輸入、語音輸出與即時語音代理整合成可供開發者直接串接的完整平台。

過去大家對大型語言模型的認知,大多還停留在文字聊天或網頁式問答,但即時語音回應已經成為下一波競爭焦點,因為只要能把 AI 從文字介面解放成「能聽、能說、能即時回應」的代理系統,它就能更自然地進入客服、車載、電話、教學、助理與企業內部流程場景。xAI 在官方文件中也明白寫到,其 Voice Agent API 支援工具呼叫,可串接 Web Search 等能力,而語音系統本身也支援多語言、電話編碼與企業整合需求,這些都顯示它瞄準的不是單純 demo,而是實際部署場景。
最受矚目的點,是價格真的打得很兇
根據 xAI 官方 Models and Pricing 文件,Speech to Text API 的批次轉錄價格為每小時 0.10 美元,即時串流模式為每小時 0.20 美元,而 Text to Speech API 的價格則是每 100 萬字元 4.20 美元。官方新聞頁與社群討論也都圍繞這個價格展開,因為這樣的定價明顯是在對準現有語音 API 市場發起價格戰。

若以新台幣粗估,批次 STT 約為每小時 NT$3 左右,即時 STT 約每小時 NT$6 左右,而 TTS 約每 100 萬字元僅為 NT$136 左右。這種價格對開發者的吸引力很高,因為語音產品一旦規模化,成本壓力通常比文字服務更直接。尤其客服、外呼、會議記錄、AI 電話助理等場景,很容易因長時間音訊處理而快速墊高成本,因此價格只要有明顯差距,就可能直接改變開發者選型。這也是為什麼 Vaibhav Sisinty 會直接把競爭對手指向 ElevenLabs,因為在當前開發者圈裡,語音模型的比較已不再只是自然度,而是自然度、延遲、穩定性、功能與價格的綜合戰。

功能面不只便宜,還補上多語言、即時串流與語氣控制
除了價格之外,這次另一個讓外界注意的,是 xAI 並不是用「便宜但功能陽春」的方式切入市場。官方文件顯示,Speech to Text API 支援 25 種語言,並區分批次與串流模式;Text to Speech 則支援多種語音角色、串流與批次輸出,還支援 MP3、WAV、PCM、μ-law、A-law 等格式。對於要做電話系統或語音代理的人來說,這些規格都不是小功能,而是實際能不能落地的重要門檻。
更有意思的是,xAI 還在文件中強調了「Expressive Speech Tags」,也就是能在輸入文字中插入像 [pause]、[laugh]、<whisper> 這類標記,讓輸出的語音更有表情,而不是只是平平把字念完。這一點正是目前高階 TTS 服務的競爭重點之一,因為要讓 AI 聲音更接近真人,關鍵不只在音色本身,還包含節奏、停頓、情緒與強調方式。從產品策略來看,xAI 顯然不想只做一個「便宜的替代品」,而是希望同時吃下基礎語音服務與更高互動感的應用市場。
xAI 明顯想把 Grok 從聊天模型,推向可直接部署的語音代理平台
從官方文件來看,xAI 對語音的想像其實不只停留在 STT 和 TTS 這種單點 API。它更大的企圖,應該是讓 Grok 變成一個可以直接接上語音入口、執行工具調用、甚至處理電話與即時客服任務的完整代理平台。Voice Agent API 文件裡就提到,它可以結合工具呼叫、WebSocket、即時事件與多種整合方式,甚至列出 Web Voice Agent、Twilio Phone Agent、WebRTC、LiveKit、Voximplant、Pipecat 等應用與整合範例。這種寫法很明顯不是在賣「單一模型能力」,而是在賣「你可以直接拿來做產品」。
從 xAI 目前的產品設計方向來看,它確實正在朝企業語音、電話代理與大規模服務場景靠攏。對馬斯克陣營來說,這是一條很合理的路線,因為若要讓 Grok 不只存在於 X 或聊天視窗,而是延伸到更多實體服務和企業流程,語音 API 幾乎是必補的一塊。
對 ElevenLabs、Deepgram、AssemblyAI 這些玩家來說,真正壓力來自價格戰與整合戰一起來
目前 AI 語音市場並不是沒人做,而是已經相當擁擠。TTS 領域有 ElevenLabs 這種以自然度與聲音表現見長的服務;STT 方面則有 Deepgram、AssemblyAI 等老牌 API 服務商;若再往企業通訊和即時代理延伸,還會碰上更多通話、客服、影音和基礎設施型玩家。xAI 現在切進來,最可怕的地方不只是它有模型能力,而是它可以把語音功能和自家聊天模型、搜尋工具、即時代理能力綁在一起,再用低價格直接壓縮市場。
對開發者來說,這種整合式平台會很有吸引力。因為他們不一定想自己拼裝 STT、TTS、LLM、工具調用與即時通訊架構。若同一個供應商可以一次提供這些能力,而且價格還夠低,那麼導入門檻就會下降很多,這樣這類 AI 語音服務就會更加普及了。(編按:其實 Grok 也有免費的每月語音 API 額度,有興趣的可以自己試試)。