誰最會投資？Gemini、ChatGPT、Grok、Claude與DeepSeek AI 交易競技場大對決

隨著 AI 大型語言模型（LLM）從單純的文本生成工具，逐漸演化為具備分析與決策能力的「代理人（Agents）」，人們都在思考一個問題：這些 AI 真的能夠理解複雜的真實世界，並做出準確的預測嗎？其中，一項名為「AI 交易競技場（AI Trade Arena）」的實驗專案，近日在科技社群 Hacker News 上引發了熱烈討論，並於 2025 年 12 月 4 日登上了該網站的熱門榜首。這項由開發者 Kam 和 Josh 發起的實驗，試圖透過最直接、最殘酷的方式來驗證 AI 的能力：讓 AI 們進入股市操盤投資並檢視收益狀況。

AI 交易競技場五大頂尖模型的十萬美元對決

這項實驗的核心概念相當簡單卻極具野心：給予五個當今最先進的大型語言模型各 10 萬美元的虛擬資金，讓它們在真實的股市環境中進行為期八個月的操盤，看誰能賺得最多。

參賽的選手名單堪稱 AI 界的「全明星陣容」，包括：

OpenAI 的 GPT-5
Anthropic 的 Claude Sonnet 4.5
Google 的 Gemini 2.5 Pro（還不是目前最強的 Gemini 3 Pro）
xAI 的 Grok 4
以及來自中國的 DeepSeek

實驗設定了一個名為「交易競技場（Trade Arena）」的封閉環境。在這裡，AI 代理人不僅僅是接收指令，它們需要主動研究股票、消化新聞資訊，並執行交易決策。為了確保實驗的公平性與真實性，開發團隊構建了一個精密的「時間機器」。這個回測（Backtest）模擬的時間跨度設定為 2025 年 2 月 3 日至 10 月 20 日。這段期間極具代表性，因為它涵蓋了市場停滯期（如 2025 年 2 月）以及隨後的增長爆發期（如 2025 年夏季），能夠充分考驗 AI 在不同市場週期下的應變能力。

技術架構：如何防止 AI「作弊」？

在回測實驗中，最大的挑戰在於防止「未來資訊洩漏（Data Leakage）」。如果模型提前知道了明天的股價，那麼預測就毫無意義。為了克服這一點，Kam 和 Josh 開發了一套嚴格的時間分段 API 系統。這套系統如同過濾器一般，確保每個模型在模擬的「每一天」，只能接收到當天及之前可公開獲得的市場數據、新聞 API 和公司財務報表。這意味著，當 AI 在模擬 2 月份的交易時，它絕對無法「看見」3 月份才會發布的財報或突發新聞。

此外，為了避免模型單純依靠「死背」訓練數據中的歷史股價來獲利，團隊特意選擇了各個模型訓練截止日期（Training Cutoff）之後的時間段進行測試。這一設計至關重要，它確保了 AI 的表現是源於其即時的分析與推理能力，而非對歷史數據的記憶。

戰況揭曉：Grok 奪冠，Gemini 敬陪末座

經過八個月的激戰，實驗結果令人玩味，也顛覆了許多人的預期。最終由 Grok 4 以正收益 +56.10％奪下冠軍，這款由馬斯克 xAI 開發的模型在投資回報率上表現最為優異。緊隨其後的是中國的 DeepSeek 以正收益 49.01％居次，兩者之間的差距並不算大。而 GPT-5 與 Claude 則都以 27％左右的正收益不相上下，唯一只有 Google Gemini 賠錢。

分析這五大模型的投資組合，可以發現獲利者們一個明顯的共同趨勢：重倉科技股。大部分表現優異的模型，都不約而同地將資金集中在科技板塊，這也符合 2025 年該時段市場的主要增長動力。

然而，Google 的 Gemini 2.5 Pro 卻意外地在本次競賽中墊底。根據交易數據分析，Gemini 是唯一持有大量「非科技類股」的模型。這種投資組合的多樣化策略（Diversification），在傳統金融理論中通常被視為分散風險的良方，但在這段特定的牛市週期中，卻導致其績效遠遠落後於那些大膽押注科技股的對手。

這引發了一個有趣的討論：Gemini 的決策是過於保守，還是它在解讀市場情緒時出現了偏差？這正是團隊希望透過互動式演示（Interactive Demo）讓大眾深入挖掘的部分。使用者可以查看每一筆交易決策背後的推理邏輯，自行判斷 AI 是「運氣好」還是「真有實力」。

回測的藝術與侷限

雖然這項實驗引起了廣泛關注，但開發團隊也保持了高度的理性與透明，詳盡列舉了這種「回測」方法的優缺點。從優勢來看，回測允許研究人員大規模地運行模型與評估。透過模擬，可以在短時間內測試多種場景，並獲得具有統計學意義的初步結果。這種效率是實盤交易無法比擬的。

然而，侷限性同樣明顯。回測畢竟是對現實的「近似」。它無法完全模擬真實金融市場中那種競爭性與對抗性的本質。例如：

滑價（Slippage）：在大額交易中，買入行為本身會推高價格，導致實際成交價高於預期。
流動性限制（Volume/Liquidity constraints）：在現實中，某些股票可能無法在想賣的時候立即賣出。
過度擬合（Overfitting）：模型可能只是在適應歷史數據的特徵，而非掌握了真正的市場規律。

儘管團隊坦言目前的數據在統計學上尚不足以蓋棺論定，但這仍是理解模型行為、分析能力及預測能力的重要第一步。Kam 和 Josh 強調，這個專案的長遠目標並非僅僅為了打造一個「賺錢機器」，而是希望更深層次地理解 AI 代理人在複雜環境下的運作機制。

金融市場之所以是評估 AI 的理想場所，是因為它同時具備了「定量」與「定性」的維度。

定量分析：透過如 Barra 因子分析等專業金融工具，研究人員可以剝離變量，試圖區分模型的表現究竟是源於「實力（Skill）」還是「運氣（Luck）」。
定性分析：由於 LLM 的決策過程是基於文本推理（Text-based reasoning），研究人員可以閱讀模型的「思考過程」。

這使得我們能夠區分「死記硬背」與「真實推理」。舉例來說，模型買入 NVIDIA（輝達）股票，是因為它「記得」這支股票會漲，還是因為它閱讀了 10-K 財務報表，從中分析出了市場基本面的強勁訊號？透過檢視決策邏輯，我們能清晰地分辨這兩者的不同。

下一步：邁向真實戰場

「AI 交易競技場」的故事才剛開始。團隊已經規劃了接下來的三階段發展藍圖：

持續回測：在更多歷史場景中測試模型。
即時模擬交易（Live Paper Trading）：在當下時間點進行模擬交易，徹底消除「未來數據洩漏」的風險。
實盤交易（Real-world Trading）：最終進入真金白銀的戰場。

這項實驗不僅展示了 GPT-5、Claude、Gemini、Grok 和 DeepSeek 這幾個主流模型之間的在金融投資方面的差異，更重要的是，它也為人們提供了一個觀察 AI 如何理解世界、處理資訊並做出決策的全新窗口。無論 AI 最終是否能戰勝市場，市場本身都將成為檢驗 AI 智慧最誠實的試金石，那麼問題來了，你真的敢把錢交給 AI 去投資嗎？大家可以一起來討論看看。

Source

Tags: ai AI Trade Arena Claude DeepSeek Gemini GPT-5 Grok LLM

誰最會投資？Gemini、ChatGPT、Grok、Claude與DeepSeek AI 交易競技場大對決

勝者讓人意外

您也許會喜歡：

網站搜尋

廣告