最近 Google 動作不斷,各種模型疊代速度越來越快,近日除了剛推出就震撼業界的 Gemini 3.1 Pro 與 Nano Banana 2以外,前日( 美國時間 2026 年 3 月 3 日),又再發表最新的高性價比、高能力的 Gemini 3.1 Flash-Lite,這款專為高效能開發者打造的生成式 AI 模型,以突破性的低價與閃電般的回應速度,重新定義了「極致性價比」的意義。
Gemini 3.1 Flash-Lite:極致性價比與速度的全新突破
Gemini 3.1 Flash-Lite 的定價堪稱業界最低:輸入每百萬 Token 僅需 0.25 美元,輸出則為 1.50 美元,較大型模型的成本降低逾 90%。
在速度方面,首字回應時間比前代 2.5 Flash 快上 2.5 倍,整體輸出吞吐量提升 45%,實現近乎即時的回覆體驗。這樣的效能讓開發者可以在維持低費用的前提下,進行高頻率的查詢、即時翻譯、對話系統等場景,真正做到「省錢又省時」。
越級打怪的精準度
別因為低價而小看其智慧能力,Gemini 3.1 Flash-Lite 在多項基準測試中展現越級的精準度:在 Arena.ai 排行榜中取得 1432 Elo 分數,超越不少高階模型;GPQA Diamond 測試達到 86.9% 的正確率,MMMU Pro 更獲得 76.8% 的分數。這意味著即使是輕量化的 Flash-Lite,仍能處理複雜的問答、專業領域的推理與多模態理解,滿足開發者對高品質輸出的需求。
首度內建「思考層級」功能
Gemini 3.1 Flash-Lite 是首款原生支援「思考層級」(Thinking Levels) 的 Flash 等級模型。開發者可透過 API 參數自由選擇模型「思考」的深度,從最淺層的快速回應到深度推理的過程,皆能即時切換。這項功能讓同一模型既能勝任需要即時回覆的客服聊天,也能在需要多步推理的學術問答中提供更完整的解題過程,大幅提升使用彈性與開發效率。
應用場景
基於其高速、低成本與可調思考層級的優勢,Gemini 3.1 Flash-Lite 適合多種應用情境:
- 線上客服與即時聊天,回應時間低於 200 毫秒
- 內容審核與文字生成,可在短時間內處理海量資料
- 教育平台的智慧輔助,提供層次分明的解題說明
- 跨語言即時翻譯與語音轉文字
- 物聯網設備的本地化 AI 推理,降低雲端依賴
這些場景共同指向「高效能、低成本、彈性化」的需求,Flash-Lite 正好提供最佳的解決方案。
結論
Gemini 3.1 Flash-Lite 的問世,標誌著 Google 在 AI 模型的商業化道路上邁出關鍵一步。以不到大型模型十分之一的價格,提供比前代快 2.5 倍的回應速度與相當甚至更佳的精準度,同時首度加入可調思考層級,讓開發者能依任務需求自由切換深度與速度。這種「極致性價比」與「彈性智能」的結合,預計將在未來一年內快速滲透至各行各業,推動生成式 AI 的普及與創新。



