電腦王阿達

No Result

View All Result

No Result

View All Result

電腦王阿達

No Result

View All Result

Tags: ai ChatGPT Claude DeepSeek Gemini 人工智慧

外媒測試最新版 ChatGPT、Gemini、DeepSeek 和 Claude 哪個強，沒想到 ChatGPT 沒一個獲勝

但使用的模型對 ChatGPT 來說有點不太公平

by Rocky

2025 年 06 月 13 日

in AI 趨勢與相關新聞

讀取中...

最近無論是 Gemini、DeepSeek 和 Claude 都陸續推出新模型版本，也因此很多人一定會好奇說，現階段跟 ChatGPT 相比，到底哪一個最好用？嚴格來說各有優缺點，強項也不太一樣，不過最近有知名外媒從 5 個面向來測試這四個 AI 助手哪一個最強，應該還是能提供不錯參考。

而讓人意外是，沒想到 5 項測試 ChatGPT 都輸，沒一個獲勝。

外媒 Tom’s Guide 分享 ChatGPT、Gemini、DeepSeek 和 Claude 的實測心得

Tom’s Guide 表示隨著 DeepSeek 更新 R1 之後，他很想知道，現階段哪一個 AI 助手的能力最強，因此就進行了這項實測。

而測試的面向共有 5 個，分別是「推理與規劃」、「程式碼與除錯」、「情商」、「現實生活支持」以及「創意」，使用的模型為 ChatGPT-4o、Gemini 2.5 Pro、Claude 4、DeepSeek R1。

這部分我覺得對 ChatGPT 不太公平，其他家都是使用最新且最強的模型，ChatGPT 則是一般的 GPT-4o，不是選 o3 之類。無論如何，來看測試結果。

首先是推理與規劃，Tom’s Guide 給的提示詞是：

你獲得了 5,000 美元的預算，要為一位熱愛登山、品酒和科幻電影的 40 歲人士，規劃一個在美國境內的驚喜生日週末。行程必須包含至少三項活動。請詳細說明你的計畫、解釋理由，並列出預算明細。

「Gemini」獲勝，因為它不僅安排登山和品酒，在「科幻」元素的處理上最具巧思，還有建議參觀查博特太空與科學中心、盧卡斯影業總部的尤達噴泉。5,000 美元也分配非常聰明的預算，3,500 元用於核心成本，並預留 1,500 元作為升級選項。

圖片來源：Tom’s Guide

DeepSeek 計畫雖然也吸引人，以 Napa Valley 為中心，主打電影般奢華的提案，但科幻處理單一。Claude 行程以享樂為核心，雖然電影元素很優雅，但缺乏更深層的原創性，僅限於看電影。ChatGPT 在科幻處理最差，完全依賴看電影。

圖片來源：Tom’s Guide

而程式碼與除錯的提示詞是：

編寫一個 Python 函數，該函數接收一個單詞列表，並返回前 3 個最常見的迴文（不區分大小寫）。然後，解釋你的方法以及你將如何測試邊界情況。

獲勝者一樣是「Gemini」，這其實不意外，Gemini 2.5 Pro 的程式能力非常強，作者解釋獲勝的關鍵是，它是唯一明確處理所有邊界，同時程式碼也最清晰，並提供了最全面的測試計畫。

圖片來源：Tom’s Guide

DeepSeek 優先考慮簡潔的實現，而非程式碼的擴充性。Claude 回覆內容跟提示詞有點偏離。ChatGPT 雖然回答很簡潔，但未明確驗證非字串/空字串，如果輸入混合型態資料，可能會出現錯誤。

圖片來源：Tom’s Guide

情商的提示詞如下：

一位朋友傳訊息給你：「我Don’t think I can do this anymore.（我想我再也撐不下去了。）」
請寫出三種版本的、富有同情心且有幫助的回應：

一個簡短且支持性的版本
一個鼓勵但帶點幽默的版本
一個深度同理且提供資源的版本，包含建議和求助管道

獲勝者還是「Gemini」，因為它不僅掌握所有三種語氣，同時將朋友的自主性和安全放在中心位置，因此贏得這項目。給人溫暖且專業、安全、周到的感覺。

圖片來源：Tom’s Guide

DeepSeek 太幽默，Claude 沒有提供危機支援管道，ChatGPT 在可行的行動支持部份落後其他競爭對手。

圖片來源：Tom’s Guide

現實生活支持的提示詞就比較簡單：

我可以做出哪三項改進來提高生產力並減輕壓力？請具體說明。

獲勝者終於換人了，變成「DeepSeek」。作者表示 DeepSeek 的方案將可行的步驟與神經科學相結合，因此以些微優勢勝出。Gemini 的方法充滿同理心，並提供按部就班的指導，因此也非常接近 DeepSeek。

圖片來源：Tom’s Guide

Claude 缺乏基本呼吸練習之類的壓力管理建議，ChatGPT 則說得太模糊。

圖片來源：Tom’s Guide

最後的創意提示詞如下：

請用『養育一個孩子』來做擴展性比喻，解釋訓練一個大型語言模型的過程。比喻中需包含至少四個階段，並指出『不良養育』可能帶來的風險。

獲勝者一樣是「DeepSeek」，給出的回覆清楚展示 4 個階段，並將技術術語自然容易隱喻中。Claude 也很接近，但第三階段的風險描述有些混雜。

圖片來源：Tom’s Guide

Gemini 內容太冗長，各個階段之間的界線也有些模糊。ChatGPT 在技術層面與育兒的結合上，是四者中最淺的。

圖片來源：Tom’s Guide

所以整體來看，作者評選最強的 AI 助手是 Gemini，在創意、情商和穩健性方面表現突出，實用性與人性化結合最好的模型。而表顯明顯較差的 ChatGPT，給出的評價是簡潔性和易用性方面表現出色，但有時缺乏技術上的精確度。這很正常，GPT-4o 的強項本來就不是專業技術。

現今即使是最新版本的 AI 模型，也還沒達到全方位都很強的層面，因此適合的使用情境都不太一樣。個人推薦都試試看最好，才能真正找出符合你當下需求的 AI 助手。

資料來源：Tom’s Guide

Tags: ai ChatGPT Claude DeepSeek Gemini 人工智慧

您也許會喜歡：

立達合法徵信社-讓您安心的選擇

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技