最近無論是 Gemini、DeepSeek 和 Claude 都陸續推出新模型版本,也因此很多人一定會好奇說,現階段跟 ChatGPT 相比,到底哪一個最好用?嚴格來說各有優缺點,強項也不太一樣,不過最近有知名外媒從 5 個面向來測試這四個 AI 助手哪一個最強,應該還是能提供不錯參考。
而讓人意外是,沒想到 5 項測試 ChatGPT 都輸,沒一個獲勝。
外媒 Tom’s Guide 分享 ChatGPT、Gemini、DeepSeek 和 Claude 的實測心得
Tom’s Guide 表示隨著 DeepSeek 更新 R1 之後,他很想知道,現階段哪一個 AI 助手的能力最強,因此就進行了這項實測。
而測試的面向共有 5 個,分別是「推理與規劃」、「程式碼與除錯 」、「情商 」、「現實生活支持」以及「創意」,使用的模型為 ChatGPT-4o、Gemini 2.5 Pro、Claude 4、DeepSeek R1。
這部分我覺得對 ChatGPT 不太公平,其他家都是使用最新且最強的模型,ChatGPT 則是一般的 GPT-4o,不是選 o3 之類。無論如何,來看測試結果。
首先是推理與規劃,Tom’s Guide 給的提示詞是:
你獲得了 5,000 美元的預算,要為一位熱愛登山、品酒和科幻電影的 40 歲人士,規劃一個在美國境內的驚喜生日週末。行程必須包含至少三項活動。請詳細說明你的計畫、解釋理由,並列出預算明細。
「Gemini」獲勝,因為它不僅安排登山和品酒,在「科幻」元素的處理上最具巧思,還有建議參觀查博特太空與科學中心、盧卡斯影業總部的尤達噴泉。5,000 美元也分配非常聰明的預算,3,500 元用於核心成本,並預留 1,500 元作為升級選項。
圖片來源:Tom’s Guide
DeepSeek 計畫雖然也吸引人,以 Napa Valley 為中心,主打電影般奢華的提案,但科幻處理單一。Claude 行程以享樂為核心,雖然電影元素很優雅,但缺乏更深層的原創性,僅限於看電影。ChatGPT 在科幻處理最差,完全依賴看電影。
圖片來源:Tom’s Guide
而程式碼與除錯的提示詞是:
編寫一個 Python 函數,該函數接收一個單詞列表,並返回前 3 個最常見的迴文(不區分大小寫)。然後,解釋你的方法以及你將如何測試邊界情況。
獲勝者一樣是「Gemini」,這其實不意外,Gemini 2.5 Pro 的程式能力非常強,作者解釋獲勝的關鍵是,它是唯一明確處理所有邊界,同時程式碼也最清晰,並提供了最全面的測試計畫。
圖片來源:Tom’s Guide
DeepSeek 優先考慮簡潔的實現,而非程式碼的擴充性。Claude 回覆內容跟提示詞有點偏離。ChatGPT 雖然回答很簡潔,但未明確驗證非字串/空字串,如果輸入混合型態資料,可能會出現錯誤。
圖片來源:Tom’s Guide
情商的提示詞如下:
一位朋友傳訊息給你:「我Don’t think I can do this anymore.(我想我再也撐不下去了。)」
請寫出三種版本的、富有同情心且有幫助的回應:一個簡短且支持性的版本
一個鼓勵但帶點幽默的版本
一個深度同理且提供資源的版本,包含建議和求助管道
獲勝者還是「Gemini」,因為它不僅掌握所有三種語氣,同時將朋友的自主性和安全放在中心位置,因此贏得這項目。給人溫暖且專業、安全、周到的感覺。
圖片來源:Tom’s Guide
DeepSeek 太幽默,Claude 沒有提供危機支援管道,ChatGPT 在可行的行動支持部份落後其他競爭對手。
圖片來源:Tom’s Guide
現實生活支持的提示詞就比較簡單:
我可以做出哪三項改進來提高生產力並減輕壓力?請具體說明。
獲勝者終於換人了,變成「DeepSeek」。作者表示 DeepSeek 的方案將可行的步驟與神經科學相結合,因此以些微優勢勝出。Gemini 的方法充滿同理心,並提供按部就班的指導,因此也非常接近 DeepSeek。
圖片來源:Tom’s Guide
Claude 缺乏基本呼吸練習之類的壓力管理建議,ChatGPT 則說得太模糊。
圖片來源:Tom’s Guide
最後的創意提示詞如下:
請用『養育一個孩子』來做擴展性比喻,解釋訓練一個大型語言模型的過程。比喻中需包含至少四個階段,並指出『不良養育』可能帶來的風險。
獲勝者一樣是「DeepSeek」,給出的回覆清楚展示 4 個階段,並將技術術語自然容易隱喻中。Claude 也很接近,但第三階段的風險描述有些混雜。
圖片來源:Tom’s Guide
Gemini 內容太冗長,各個階段之間的界線也有些模糊。ChatGPT 在技術層面與育兒的結合上,是四者中最淺的。
圖片來源:Tom’s Guide
所以整體來看,作者評選最強的 AI 助手是 Gemini,在創意、情商和穩健性方面表現突出,實用性與人性化結合最好的模型。而表顯明顯較差的 ChatGPT,給出的評價是簡潔性和易用性方面表現出色,但有時缺乏技術上的精確度。這很正常,GPT-4o 的強項本來就不是專業技術。
現今即使是最新版本的 AI 模型,也還沒達到全方位都很強的層面,因此適合的使用情境都不太一樣。個人推薦都試試看最好,才能真正找出符合你當下需求的 AI 助手。
資料來源:Tom’s Guide