OpenAI 傳聞已久的下一代大型語言模型(LLM)「GPT-5」可能真的要來了,近日在 WebDev Arena(以雙盲方式比較各家 LLM 模型性能的知名平台)上出現了一個疑似代號為「Lobster(龍蝦)」的 LLM 悄然現身。而這位代號為「Lobster」的神秘參賽者,竟在所有測試中超越當前最強模型 Grok-4 脫穎而出,令全球 AI 從業者與相關人事紛紛驚呼:「GPT-5,來了!」
「龍蝦」橫空出世:匿名測評揭示GPT-5的初登場
WebDev Arena 是一個專門評測大型語言模型能力的網站,透過統一提示詞並採用雙盲評分機制,避免任何品牌偏見。近日,一位用戶「Lisan al Gaib」在該平台上發現了一個表現異常出色的模型,其效果遠遠超越 Grok-4。根據該用戶分享的比較圖示,代號「Lobster」的模型在前端頁面生成上展現驚人效果,創造出具有藝術性視覺、流暢動畫及深度沉浸感的神經網路動畫。
GPT-5 vs Grok-4
exact same prompts, wildly different output in web lmarena https://t.co/2ER6cNg5HD pic.twitter.com/N4hJ4L5eAV
— Lisan al Gaib (@scaling01) July 25, 2025
使用的提示詞如下:
「Create a stunning, interactive animation of a neural network or brain-like graph structure—use artistic colors, smooth transitions, and beautiful visuals. The page should feel alive, immersive, and impressive, with no buttons—just scrolling or continuous animation. Make it breathtaking.」(創建一個令人驚嘆的神經網絡或類腦圖結構的互動式動畫——使用藝術性的色彩、平滑的過渡和精美的視覺效果。整個頁面應充滿活力、沉浸感和震撼力,不使用任何按鈕,僅透過滾動或持續的動畫進行互動。讓其令人叹為觀止。)
該任務對於前端程式碼生成的要求極高,能夠完美完成不僅要求理解自然語言、還須整合動畫、圖形、互動邏輯,而Lobster的生成品質讓整個社群震驚:這可能正是GPT-5的首次「實戰現身」。
疑似多版本同時曝光:「Lobster」、「Nectarine」、「Starfish」
更令人關注的是,除了「Lobster」外,社群中還出現了其他GPT-5系列的代號資訊,疑似代表其不同層級版本:
-
GPT-5 標準版:Lobster(龍蝦)
-
GPT-5-mini 輕量版:Nectarine(油桃)
-
GPT-5-nano 微型版:Starfish(海星)
– they are all reasoning models
– Lobster > Nectarine > Starfish on my testing with LisanBench
– Nectarine and Lobster beat previous high-score of 62 with the starting word “camping”:
o1 – 62
Sonnet 4 Thinking – 49
o3 – 47
GPT-4.5 – 44Lobster – 81
— Lisan al Gaib (@scaling01) July 25, 2025
這樣的命名方式似乎也延續了OpenAI過去對模型版本的內部代號策略,而社群普遍猜測這些都是OpenAI在開發與測試階段為掩飾正式命名所使用的偽裝代號。
Reddit社群與開發者揭露更多蛛絲馬跡
根據Reddit開發者社群的觀察,OpenAI近期已悄悄地將部分「o3」請求重定向至新模型處理。甚至在 LMArena 這類匿名評測平台中,OpenAI也註冊了另一個身份為「zenith」的模型。有開發者發現,該模型能處理過往 GPT-4 或 o3 幾乎無法解答的極高難度數學題目,其邏輯風格與以往明顯不同。
這些跡象都指向一個可能:OpenAI正在透過多個匿名測試模型,廣泛測試 GPT-5 的能力邊界。
內部員工與受邀者提前試用:體驗反饋震撼
根據部分社群網友透露,已有部分非技術領域的企業員工獲得 GPT-5 預覽版訪問權限。雖然因為簽署保密協議,無法確認這些受邀公司具體身份,但這已間接證實了 GPT-5 目前已進入廣泛內部測試階段。
OpenAI 執行長山姆·奧特曼(Sam Altman)也在近期受訪中暗示,他對 GPT-5 的初步體驗「非常強大」,並開始在各個場合微妙透露該模型的性能表現。
Sam Altman on GPT 5:
“ GPT-5 is the smartest thing. GPT-5 is smarter than us in almost every way. You know, and yet here we are. ”
This might be the last podcast before the big release! pic.twitter.com/MgfSHMRjGk
— Chris (@chatgpt21) July 23, 2025
程式設計能力全面進化,可能Claude Sonnet 4
從試用者提供的第一手回饋中,GPT-5 最被盛讚的能力就是「編程」。據了解,GPT-5 不僅在解決競賽型編程題上表現出色,更重要的是,它在現實工程場景中的應對能力有了質的飛躍。具體而言,即使面對那種包含大量遺留「屎山程式碼」的龐大代碼庫,GPT-5也能進行有效修改與優化,展現出前所未見的理解與重構能力。這一點,甚至讓過去在開發圈中被譽為「編程之王」的Claude Sonnet 4 都黯然失色。
這一改變可能對OpenAI的市場策略產生重大影響,特別是在高收益的AI編程助手市場。例如 Cursor 就是依靠 Claude 模型提供強大編程輔助,年營收已破億美元,而OpenAI顯然希望奪回這塊蛋糕(更何況最近 OPENAI 原本想收購 Windsurf 宣告失敗 )。
據悉,GPT-5 的研發核心目標之一,是將傳統 GPT 模型與 o 系列(以推理能力著稱的模型)整合成一體化界面。根據使用者回饋,GPT-5 能根據問題難度自動調整推理能力:簡單的拼字問題會自動採取低資源模式處理,而像是「優化一個10年未維護的資料庫架構」這類複雜問題,則會啟用深層推理流程。
安撫市場與資金方:OpenAI並未撞牆,而是彎道超車
2024年曾出現關於大模型發展遇到「撞牆期」的論調,認為預訓練的邊際效益正在下降。但 GPT-5 的登場似乎反駁了這一觀點(如果上面的測試真的都是 GPT-5 的話)。透過更聰明的推理策略與後訓練技術(如強化學習與指令微調),OpenAI 最新的 GPT-5 能顯示這條路線並非瓶頸已至,而是轉向以更高效方式邁向下一階段。對於英偉達這類 AI 硬體設備廠商與投資人而言,GPT-5 將來的表現能起到穩定軍心的作用,也為未來的資料中心擴建與 AI 應用提供更多信心。
GPT-5真的要來了?
綜上所述,GPT-5無論從技術整合、推理策略還是應用能力上,都已展現出劃時代的進步。它不僅補齊了OpenAI在編程與工程應用上的短板,更可能重新定義 AGI 的實現路徑。目前雖然尚未公佈具體發佈時間與開放範圍,但從社群反應、試用回饋與高層表態來看,GPT-5無疑已箭在弦上,只待東風(正式發表了)。