GPT-5 真的要來了？能力超越 Grok4 的神秘大模型「龍蝦」現身

OpenAI 傳聞已久的下一代大型語言模型（LLM）「GPT-5」可能真的要來了，近日在 WebDev Arena（以雙盲方式比較各家 LLM 模型性能的知名平台）上出現了一個疑似代號為「Lobster（龍蝦）」的 LLM 悄然現身。而這位代號為「Lobster」的神秘參賽者，竟在所有測試中超越當前最強模型 Grok-4 脫穎而出，令全球 AI 從業者與相關人事紛紛驚呼：「GPT-5，來了！」

「龍蝦」橫空出世：匿名測評揭示GPT-5的初登場

WebDev Arena 是一個專門評測大型語言模型能力的網站，透過統一提示詞並採用雙盲評分機制，避免任何品牌偏見。近日，一位用戶「Lisan al Gaib」在該平台上發現了一個表現異常出色的模型，其效果遠遠超越 Grok-4。根據該用戶分享的比較圖示，代號「Lobster」的模型在前端頁面生成上展現驚人效果，創造出具有藝術性視覺、流暢動畫及深度沉浸感的神經網路動畫。

GPT-5 vs Grok-4

exact same prompts, wildly different output in web lmarena https://t.co/2ER6cNg5HD pic.twitter.com/N4hJ4L5eAV

— Lisan al Gaib (@scaling01) July 25, 2025

使用的提示詞如下：

「Create a stunning, interactive animation of a neural network or brain-like graph structure—use artistic colors, smooth transitions, and beautiful visuals. The page should feel alive, immersive, and impressive, with no buttons—just scrolling or continuous animation. Make it breathtaking.」（創建一個令人驚嘆的神經網絡或類腦圖結構的互動式動畫——使用藝術性的色彩、平滑的過渡和精美的視覺效果。整個頁面應充滿活力、沉浸感和震撼力，不使用任何按鈕，僅透過滾動或持續的動畫進行互動。讓其令人叹為觀止。）

該任務對於前端程式碼生成的要求極高，能夠完美完成不僅要求理解自然語言、還須整合動畫、圖形、互動邏輯，而Lobster的生成品質讓整個社群震驚：這可能正是GPT-5的首次「實戰現身」。

疑似多版本同時曝光：「Lobster」、「Nectarine」、「Starfish」

更令人關注的是，除了「Lobster」外，社群中還出現了其他GPT-5系列的代號資訊，疑似代表其不同層級版本：

GPT-5 標準版：Lobster（龍蝦）
GPT-5-mini 輕量版：Nectarine（油桃）
GPT-5-nano 微型版：Starfish（海星）

– they are all reasoning models

– Lobster > Nectarine > Starfish on my testing with LisanBench

– Nectarine and Lobster beat previous high-score of 62 with the starting word “camping”:
o1 – 62
Sonnet 4 Thinking – 49
o3 – 47
GPT-4.5 – 44

Lobster – 81

– i… https://t.co/zl5YsEDReY

— Lisan al Gaib (@scaling01) July 25, 2025

這樣的命名方式似乎也延續了OpenAI過去對模型版本的內部代號策略，而社群普遍猜測這些都是OpenAI在開發與測試階段為掩飾正式命名所使用的偽裝代號。

Reddit社群與開發者揭露更多蛛絲馬跡

根據Reddit開發者社群的觀察，OpenAI近期已悄悄地將部分「o3」請求重定向至新模型處理。甚至在 LMArena 這類匿名評測平台中，OpenAI也註冊了另一個身份為「zenith」的模型。有開發者發現，該模型能處理過往 GPT-4 或 o3 幾乎無法解答的極高難度數學題目，其邏輯風格與以往明顯不同。

這些跡象都指向一個可能：OpenAI正在透過多個匿名測試模型，廣泛測試 GPT-5 的能力邊界。

內部員工與受邀者提前試用：體驗反饋震撼

根據部分社群網友透露，已有部分非技術領域的企業員工獲得 GPT-5 預覽版訪問權限。雖然因為簽署保密協議，無法確認這些受邀公司具體身份，但這已間接證實了 GPT-5 目前已進入廣泛內部測試階段。

OpenAI 執行長山姆·奧特曼（Sam Altman）也在近期受訪中暗示，他對 GPT-5 的初步體驗「非常強大」，並開始在各個場合微妙透露該模型的性能表現。

Sam Altman on GPT 5:

“ GPT-5 is the smartest thing. GPT-5 is smarter than us in almost every way. You know, and yet here we are. ”

This might be the last podcast before the big release! pic.twitter.com/MgfSHMRjGk

— Chris (@chatgpt21) July 23, 2025

程式設計能力全面進化，可能Claude Sonnet 4

從試用者提供的第一手回饋中，GPT-5 最被盛讚的能力就是「編程」。據了解，GPT-5 不僅在解決競賽型編程題上表現出色，更重要的是，它在現實工程場景中的應對能力有了質的飛躍。具體而言，即使面對那種包含大量遺留「屎山程式碼」的龐大代碼庫，GPT-5也能進行有效修改與優化，展現出前所未見的理解與重構能力。這一點，甚至讓過去在開發圈中被譽為「編程之王」的Claude Sonnet 4 都黯然失色。

這一改變可能對OpenAI的市場策略產生重大影響，特別是在高收益的AI編程助手市場。例如 Cursor 就是依靠 Claude 模型提供強大編程輔助，年營收已破億美元，而OpenAI顯然希望奪回這塊蛋糕（更何況最近 OPENAI 原本想收購 Windsurf 宣告失敗）。

據悉，GPT-5 的研發核心目標之一，是將傳統 GPT 模型與 o 系列（以推理能力著稱的模型）整合成一體化界面。根據使用者回饋，GPT-5 能根據問題難度自動調整推理能力：簡單的拼字問題會自動採取低資源模式處理，而像是「優化一個10年未維護的資料庫架構」這類複雜問題，則會啟用深層推理流程。

安撫市場與資金方：OpenAI並未撞牆，而是彎道超車

2024年曾出現關於大模型發展遇到「撞牆期」的論調，認為預訓練的邊際效益正在下降。但 GPT-5 的登場似乎反駁了這一觀點（如果上面的測試真的都是 GPT-5 的話）。透過更聰明的推理策略與後訓練技術（如強化學習與指令微調），OpenAI 最新的 GPT-5 能顯示這條路線並非瓶頸已至，而是轉向以更高效方式邁向下一階段。對於英偉達這類 AI 硬體設備廠商與投資人而言，GPT-5 將來的表現能起到穩定軍心的作用，也為未來的資料中心擴建與 AI 應用提供更多信心。

GPT-5真的要來了？

綜上所述，GPT-5無論從技術整合、推理策略還是應用能力上，都已展現出劃時代的進步。它不僅補齊了OpenAI在編程與工程應用上的短板，更可能重新定義 AGI 的實現路徑。目前雖然尚未公佈具體發佈時間與開放範圍，但從社群反應、試用回饋與高層表態來看，GPT-5無疑已箭在弦上，只待東風（正式發表了）。

Tags: GPT-5 OPENAI

GPT-5 真的要來了？能力超越 Grok4 的神秘大模型「龍蝦」現身

您也許會喜歡：

網站搜尋

廣告