隨著 AI 大型語言模型(LLM)從單純的文本生成工具,逐漸演化為具備分析與決策能力的「代理人(Agents)」,人們都在思考一個問題:這些 AI 真的能夠理解複雜的真實世界,並做出準確的預測嗎?其中,一項名為「AI 交易競技場(AI Trade Arena)」的實驗專案,近日在科技社群 Hacker News 上引發了熱烈討論,並於 2025 年 12 月 4 日登上了該網站的熱門榜首。這項由開發者 Kam 和 Josh 發起的實驗,試圖透過最直接、最殘酷的方式來驗證 AI 的能力:讓 AI 們進入股市操盤投資並檢視收益狀況。
AI 交易競技場五大頂尖模型的十萬美元對決
這項實驗的核心概念相當簡單卻極具野心:給予五個當今最先進的大型語言模型各 10 萬美元的虛擬資金,讓它們在真實的股市環境中進行為期八個月的操盤,看誰能賺得最多。
參賽的選手名單堪稱 AI 界的「全明星陣容」,包括:
-
OpenAI 的 GPT-5
-
Anthropic 的 Claude Sonnet 4.5
-
Google 的 Gemini 2.5 Pro(還不是目前最強的 Gemini 3 Pro)
-
xAI 的 Grok 4
-
以及來自中國的 DeepSeek
實驗設定了一個名為「交易競技場(Trade Arena)」的封閉環境。在這裡,AI 代理人不僅僅是接收指令,它們需要主動研究股票、消化新聞資訊,並執行交易決策。為了確保實驗的公平性與真實性,開發團隊構建了一個精密的「時間機器」。這個回測(Backtest)模擬的時間跨度設定為 2025 年 2 月 3 日至 10 月 20 日。這段期間極具代表性,因為它涵蓋了市場停滯期(如 2025 年 2 月)以及隨後的增長爆發期(如 2025 年夏季),能夠充分考驗 AI 在不同市場週期下的應變能力。
技術架構:如何防止 AI「作弊」?
在回測實驗中,最大的挑戰在於防止「未來資訊洩漏(Data Leakage)」。如果模型提前知道了明天的股價,那麼預測就毫無意義。為了克服這一點,Kam 和 Josh 開發了一套嚴格的時間分段 API 系統。這套系統如同過濾器一般,確保每個模型在模擬的「每一天」,只能接收到當天及之前可公開獲得的市場數據、新聞 API 和公司財務報表。這意味著,當 AI 在模擬 2 月份的交易時,它絕對無法「看見」3 月份才會發布的財報或突發新聞。
此外,為了避免模型單純依靠「死背」訓練數據中的歷史股價來獲利,團隊特意選擇了各個模型訓練截止日期(Training Cutoff)之後的時間段進行測試。這一設計至關重要,它確保了 AI 的表現是源於其即時的分析與推理能力,而非對歷史數據的記憶。
戰況揭曉:Grok 奪冠,Gemini 敬陪末座
經過八個月的激戰,實驗結果令人玩味,也顛覆了許多人的預期。最終由 Grok 4 以正收益 +56.10% 奪下冠軍,這款由馬斯克 xAI 開發的模型在投資回報率上表現最為優異。緊隨其後的是中國的 DeepSeek 以正收益 49.01%居次,兩者之間的差距並不算大。而 GPT-5 與 Claude 則都以 27% 左右的正收益不相上下,唯一只有 Google Gemini 賠錢。
分析這五大模型的投資組合,可以發現獲利者們一個明顯的共同趨勢:重倉科技股。大部分表現優異的模型,都不約而同地將資金集中在科技板塊,這也符合 2025 年該時段市場的主要增長動力。
然而,Google 的 Gemini 2.5 Pro 卻意外地在本次競賽中墊底。根據交易數據分析,Gemini 是唯一持有大量「非科技類股」的模型。這種投資組合的多樣化策略(Diversification),在傳統金融理論中通常被視為分散風險的良方,但在這段特定的牛市週期中,卻導致其績效遠遠落後於那些大膽押注科技股的對手。
這引發了一個有趣的討論:Gemini 的決策是過於保守,還是它在解讀市場情緒時出現了偏差?這正是團隊希望透過互動式演示(Interactive Demo)讓大眾深入挖掘的部分。使用者可以查看每一筆交易決策背後的推理邏輯,自行判斷 AI 是「運氣好」還是「真有實力」。
回測的藝術與侷限
雖然這項實驗引起了廣泛關注,但開發團隊也保持了高度的理性與透明,詳盡列舉了這種「回測」方法的優缺點。從優勢來看,回測允許研究人員大規模地運行模型與評估。透過模擬,可以在短時間內測試多種場景,並獲得具有統計學意義的初步結果。這種效率是實盤交易無法比擬的。
然而,侷限性同樣明顯。回測畢竟是對現實的「近似」。它無法完全模擬真實金融市場中那種競爭性與對抗性的本質。例如:
-
滑價(Slippage):在大額交易中,買入行為本身會推高價格,導致實際成交價高於預期。
-
流動性限制(Volume/Liquidity constraints):在現實中,某些股票可能無法在想賣的時候立即賣出。
-
過度擬合(Overfitting):模型可能只是在適應歷史數據的特徵,而非掌握了真正的市場規律。
儘管團隊坦言目前的數據在統計學上尚不足以蓋棺論定,但這仍是理解模型行為、分析能力及預測能力的重要第一步。Kam 和 Josh 強調,這個專案的長遠目標並非僅僅為了打造一個「賺錢機器」,而是希望更深層次地理解 AI 代理人在複雜環境下的運作機制。
金融市場之所以是評估 AI 的理想場所,是因為它同時具備了「定量」與「定性」的維度。
-
定量分析:透過如 Barra 因子分析等專業金融工具,研究人員可以剝離變量,試圖區分模型的表現究竟是源於「實力(Skill)」還是「運氣(Luck)」。
-
定性分析:由於 LLM 的決策過程是基於文本推理(Text-based reasoning),研究人員可以閱讀模型的「思考過程」。
這使得我們能夠區分「死記硬背」與「真實推理」。舉例來說,模型買入 NVIDIA(輝達)股票,是因為它「記得」這支股票會漲,還是因為它閱讀了 10-K 財務報表,從中分析出了市場基本面的強勁訊號?透過檢視決策邏輯,我們能清晰地分辨這兩者的不同。
下一步:邁向真實戰場
「AI 交易競技場」的故事才剛開始。團隊已經規劃了接下來的三階段發展藍圖:
-
持續回測:在更多歷史場景中測試模型。
-
即時模擬交易(Live Paper Trading):在當下時間點進行模擬交易,徹底消除「未來數據洩漏」的風險。
-
實盤交易(Real-world Trading):最終進入真金白銀的戰場。
這項實驗不僅展示了 GPT-5、Claude、Gemini、Grok 和 DeepSeek 這幾個主流模型之間的在金融投資方面的差異,更重要的是,它也為人們提供了一個觀察 AI 如何理解世界、處理資訊並做出決策的全新窗口。無論 AI 最終是否能戰勝市場,市場本身都將成為檢驗 AI 智慧最誠實的試金石,那麼問題來了,你真的敢把錢交給 AI 去投資嗎?大家可以一起來討論看看。


