以往要設計一款強大的「世界模型」幾乎都是 Google 或 騰訊這類大型 AI 公司才能做到的領域,不過最近一位才剛從馬里蘭大學畢業,目前的正職工作是沃爾瑪(Walmart)的軟體工程師 Alexander Goslin 在 SIGGRAPH 2026 上發表的一篇機器學習論文獲得採用,引發了廣泛關注。他的研究裝備只有一張 RTX 3090 Ti 顯卡,沒有經費、沒有指導教授、沒有團隊,完全獨立完成。根據相關資訊,這也是「SIGGRAPH 歷史上第一篇獨立研究者的機器學習論文」。而這篇論文的厲害之處,則是以一張普通消費級顯卡即可做到無限地形延伸的即時生成運算。
什麼是 SIGGRAPH?
SIGGRAPH(全稱Special Interest Group for Computer GRAPHICS and Interactive Techniques)是美國計算機協會(ACM)下屬的計算機圖形學專業組織,成立於 1967 年,由布朗大學教授Andries van Dam與IBM公司Sam Masta發起。該組織自1974年起每年舉辦年會,1981年起新增 CG(Computer Graphics)展覽,涵蓋論文發表、技術展示、藝術畫廊等活動,全球主要計算機圖形軟硬體廠商及動畫創作者每年在此發佈最新研究成果與藝術作品。會議論文發表在《ACM Transactions on Graphics》期刊(CCF A類/SCI 1區Top),接受率僅約21%,可以理解為計算機圖像研究領域的最高殿堂,Alexander Goslin 以個人獨立身份非專業研究者身份論文獲得認可非常不容易。
這篇論文有兩個主要貢獻:
InfiniteDiffusion:一種利用擴散模型進行無限生成的嶄新方法。
Terrain Diffusion:世界上第一個學習型程序化地形生成器。
InfiniteDiffusion:打破無限生成的三難困境
要理解這篇論文的貢獻,得先認識圖形學領域長期面臨的一個根本問題:在電腦中生成無限大的世界,品質、無限擴展、與無狀態隨機存取三者無法同時滿足。
傳統的做法是程序化雜訊(procedural noise),例如 1983 年 Ken Perlin 發明的 Perlin Noise。這類方法速度快、可無限擴展,但生成的結果在真實感與大尺度結構一致性上有根本限制。擴散模型(diffusion models)能生成極高品質的影像,但通常被限制在固定大小的畫布上。自回歸(autoregressive)方法可以做到無限生成,但必須依序擴展,每次存取都是 O(n) 的時間複雜度,且輸出依賴取樣順序,無法保證可重現性。
InfiniteDiffusion 的核心貢獻,就是打破這個三難困境。它是一個免訓練(training-free)的演算法,將擴散模型的取樣過程重新設計為「懶惰運算」(lazy computation):只有當你請求某個區域時,才會生成該區域的內容,而且每個區域的生成是完全獨立的。
Introducing InfiniteDiffusion, my independent paper accepted to #SIGGRAPH2026!
I have one RTX 3090 Ti. No funding, advisors, or team. By day I’m a new grad SWE at Walmart.
The paper has two main contributions:
– InfiniteDiffusion: a new approach to infinite generation with… pic.twitter.com/7LnmjHoHhE— Alexander Goslin (@xandurglar) June 25, 2026
用更直白的話說,InfiniteDiffusion 把擴散模型變成了 Perlin Noise 的升級版,繼承了程序化雜訊四十年來讓它成為世界生成骨幹的所有特性:無縫無限擴展、種子一致性(同一個 seed 永遠產生同一個世界)、以及常數時間的隨機存取。差別在於,它生成的內容不再受限於人類手寫的公式,而是可以從訓練資料中學習任何結構。
與自回歸方法的全面對比
Goslin 在論文中列出了 InfiniteDiffusion 與自回歸方法的系統性差異:
- 隨機存取:自回歸為 O(n),InfiniteDiffusion 為 O(1),想跳到地圖上任何一點,只需一次查詢
- 確定性:自回歸的輸出依賴取樣順序,InfiniteDiffusion 完全順序無關,同一個 seed + 座標必定產生相同結果
- 可並行性:自回歸本質上是序貫的,InfiniteDiffusion 支援「embarrassingly parallel」,多個區域可以同時生成
- 狀態需求:自回歸需要儲存完整的生成歷史,InfiniteDiffusion 僅使用有限的 LRU 快取作為效能優化,無需持久化儲存
- 免訓練:自回歸方法需要額外訓練,InfiniteDiffusion 可以直接套用現有的擴散模型
這些特性讓 InfiniteDiffusion 特別適合多人遊戲與分散式環境。世界可以透過 seed 分享,玩家可以 O(1) 傳送到地圖上任何位置,不需要重新生成中間區域,而且完全不佔用持久儲存空間[6]。
Terrain Diffusion:首個學習型程序化地形生成器
論文的第二個核心貢獻是 Terrain Diffusion,這是世界上第一個基於學習的程序化地形生成器。它的設計理念是:用一組層疊的擴散模型,從行星尺度的結構一路生成到局部細節。
技術上,Terrain Diffusion 整合了幾個關鍵元件:
- 層疊擴散模型階層:用一組不同尺度的擴散模型耦合行星級脈絡與局部細節,生成跨越數百公里的地貌特徵
- 緊緻拉普拉斯編碼:穩定從馬里亞納海溝(-10,000 公尺)到聖母峰(近 9,000 公尺)這種地球尺度的動態範圍輸出
- 開源無限張量框架:支援常數記憶體操作無界張量的基礎設施
效能方面,Terrain Diffusion 在一張消費級 GPU 上的生成速度比衛星軌道速度快 9 倍,只需 1.5GB 顯存即可運行。每一張 1024×1024 的地形浮雕圖跨越 100 公里的寬度。
從 Minecraft 到 Unity:實際落地展示
為了證明 Terrain Diffusion 不只是紙上談兵,Goslin 將它打包成一個開源的 Minecraft mod,沒有任何外部依賴。玩家可以在 Minecraft 中體驗無限生成的學習型地形:世界可以透過 seed 分享,玩家可以瞬間傳送到數百萬英里之外,多人模式也能正常運作。
在 Unity 的技術展示中,玩家可以在消費級硬體上以 3 倍於衛星軌道速度的速度飛行瀏覽世界,幀率依然流暢。影片在 X 上廣為流傳,YouTuber AsianHalfSquat 也製作了 Minecraft mod 的展示影片。
InfiniteDiffusion 的論文從 2025 年 12 月首次上傳 arXiv,到 2026 年被 SIGGRAPH 接受,歷時約半年。它解決的不是一個邊緣問題,而是程序化世界生成領域困擾了數十年的核心瓶頸:如何在保持無限擴展與隨機存取的前提下,讓生成內容的品質超越手寫公式的限制。
對遊戲產業而言,這項技術的潛在影響最為直接。傳統的程序化地形(如 Minecraft 使用的 Perlin Noise)受限於雜訊函數的表達能力,而 Terrain Diffusion 證明了學習型方法可以在消費級硬體上達到同等的互動速度,同時生成遠比雜訊函數更真實的地貌。開源 Minecraft mod 的存在,也讓任何人都能實際體驗這種差異。
更廣泛地說,Goslin 的故事展示了當開源模型與演算法設計足夠成熟時,一個沒有機構背景的研究者,用一張兩代前的消費級顯卡,也能做出夠資格進入頂級學術會議的學術成就。

