你能想像只要一句話描述,AI 就能為你拍出一部完整的短劇嗎?從一句靈感、一本小說、到一段專業劇本,AI 自動完成從劇本撰寫、分鏡設計、角色塑造到最終影片生成的全部流程,這不再只是科幻電影的情節。由香港大學數據科學系黃超教授團隊開源的熱門專案 ViMax 框架,正在將這個願景變成現實。

港大開源多智能體影片生成框架「ViMax」,一句話讓 AI 自編自導自演
ViMax 在 GitHub 上已獲得超過 5,500 顆星標,並以 MIT 授權完全開源。這個被稱為「Agentic Video Generation」的框架,本質上就是一個 AI 版的全能劇組,全程由 AI 編劇寫劇本、AI 導演掌控節奏、AI 攝影師構圖運鏡、AI 剪輯師打磨細節,全部自動協作,你只需要輸入想法即可。
從「片段生成」到「系統化製作」的躍進
當前主流 AI 影片工具如 veo 3、Runway 等,雖然在短片段生成上表現亮眼,但它們只能產出數秒到數十秒的片段,且面臨兩個致命瓶頸。首先是敘事規劃的複雜度爆炸,長影片需要統籌數百個鏡頭的敘事邏輯,涉及角色發展、情節推進和主題呼應等多個維度,這種多層次的故事架構遠遠超出了當前語言模型的單輪處理極限。其次是跨鏡頭視覺連貫性難題,現有生成模型各自為戰,缺乏對前序內容的記憶能力,導致角色形象、場景風格在不同鏡頭之間頻繁「變臉」。這種視覺記憶缺失在長影片中會產生雪球效應,嚴重影響觀看體驗。
ViMax 正是針對這兩個瓶頸設計的。它不是再去改良某一個生成模型,而是從系統架構層面徹底重新思考了 AI 影片製作流程。
四大創作模式:從靈感到成片的全覆蓋
ViMax 提供了四種不同的創作入口模式,滿足從普通用戶到專業創作者的多樣需求:
- 創意到影片(Idea2Video):最簡單的模式,使用者只需輸入一句話想法(例如「如果貓和狗是最好的朋友,牠們遇到新貓咪時會發生什麼?」),系統就會自動完成從劇本到影片的全部流程。
- 小說到影片(Novel2Video):智慧文學改編引擎,可將完整小說自動壓縮並轉化為分集影片內容,實現角色追蹤、敘事壓縮與逐場景視覺化改編。
- 劇本到影片(Script2Video):針對專業創作者設計,支援好萊塢格式的標準劇本輸入,使用者可以完全掌控從鏡頭語言到節奏的每個細節。
- 智慧客串(AutoCameo):上傳一張個人照片,ViMax 就能將你或你的寵物融入影片中,成為故事角色,而且保持外觀一致性與自然互動。
多智能體協作架構深度解析
ViMax 最核心的設計理念是將長影片製作分解為五個相互協調的階段,每個階段由專門的 AI 智能體負責:
第一階段:劇本創作,無論使用者輸入的是簡單想法、完整小說還是劇本片段,編劇智能體都能將其重新組織為標準化的影視劇本,包含場景設定、角色台詞和故事節奏安排。此階段採用 RAG(檢索增強生成)技術,系統首先對原始素材進行深度解析,建立包含角色關係、情節脈絡、主題元素的綜合索引庫,確保每個局部規劃都能「看見」整體故事圖景。
第二階段:分鏡規劃,分鏡智能體運用專業電影製作理論,為每個場景設計精確的鏡頭語言,從攝影機位置、運動軌跡,到光影布局、角色調度,形成完整的拍攝藍圖。ViMax 在此採用遞迴式敘事分解策略,將完整劇本按照敘事邏輯拆解為事件層(核心敘事節點)、場景層(可執行的戲劇單元)和鏡頭層(精確執行指令)三個層次,確保語言模型在每個認知層級都面對適度的規劃範圍。
第三階段:視覺資產生成,採用「先圖後影片」的兩步生成策略。首先創建核心視覺元素(角色造型、場景設計、關鍵畫面),然後以此為基礎生成對應的動態影片片段。系統會智慧選取當前鏡頭首幀所需的參考圖(包含前序時間線中的分鏡資料),確保影片越長,多角色與環境元素越準確。
第四階段:品質把控,對於每個生成任務,系統會同時產出多個版本,由品檢智能體運用視覺語言模型(MLLM/VLM)進行專業評估,篩選出最符合分鏡要求的版本。若所有候選都未達標,系統會自動調優參數並重新生成,模擬人類創作者反覆挑選最佳素材的工作流程。
第五階段:統一協調,導演智能體擔任總指揮,監控全流程的協調運轉,維護各階段輸出的風格統一,並負責智能體間的任務分配與資訊同步。
底層架構:模組化設計與多元模型支援
ViMax 採用 Python 3.12 開發,使用 uv 作為專案管理工具,依賴包括 Faiss 向量資料庫(用於 RAG 檢索)、MoviePy(影片剪輯)、OpenCV(影像處理)、LangChain(AI 流程編排)等主流開源套件。
在模型支援方面,ViMax 採用模組化設計,使用者可以自由更換底層模型:
- 對話模型:支援 Google Gemini、OpenRouter 上的各類模型,也可使用 MiniMax-M2.7(100 萬 tokens 上下文)。
- 影像生成器:支援 Google Imagen 等 API
- 影片生成器:支援 Google Veo 等 API
這種設計讓 ViMax 不綁定任何特定廠商,使用者可以根據預算和需求自由組合。例如,使用 OpenRouter 存取便宜的 LLM、搭配 Google Veo 的高品質影片生成能力,形成最具成本效益的組合。
AutoCameo:把你自己放進影片裡
ViMax 的 AutoCameo 功能是一大亮點。使用者上傳一張自己的照片,系統就能讓照片中的人物以一致的外觀出現在影片中,扮演各種角色。這項功能不再只是把頭貼上去的簡單合成,而是讓 AI 理解照片中人物的特徵,並在數十個鏡頭中保持外觀、表情和動作的一致性。
這對內容創作者而言意義重大:你可以讓自己「出演」短片而無需實際拍攝,或讓寵物成為故事主角,甚至製作個人化的生日祝福影片。傳統需要綠幕、專業攝影棚和後製團隊才能做到的效果,現在一個開源框架就能實現。
開源生態與社群反響
ViMax 自 2025 年 11 月開源以來,已在 GitHub 獲得超過 5,500 顆星標與 935 次分支(Fork),這個成長速度在學術開源專案中相當驚人。此外,港大黃超團隊(HKUDS)近年在 AI 開源領域動作頻繁。ViMax 已是該團隊在短期內推出的第三個重大 AI 突破,此前他們已在推薦系統、神經網路等領域累積了豐富的開源成果。
從 Discord 的討論來看,開發者對 ViMax 的關注點主要集中在:與現有影片生成模型(如 CogVideo、Stable Video Diffusion)的整合可能性、AutoCameo 功能的實際效果,以及在消費級 GPU 上的運行效能。
ViMax 開源專案(請點我)
小結:一人劇組時代的開端
ViMax 代表的並不是某一個 AI 模型的進步,而是 AI 影片製作從「工具時代」進入「系統時代」的關鍵轉折。當前的 AI 影片工具就像提供了高品質的畫筆和顏料,但創作一幅完整畫作仍然需要人類藝術家。ViMax 的定位則更像是提供了一個完整的「自動化工廠」,從原料(創意想法)到成品(完整影片),全部自動化完成。
ViMax 仍處於早期階段,目前它依賴外部 API(如 Google Veo 和 Imagen)來完成實際的影像與影片生成,這意味著使用者需要支付對應的 API 費用。從設定檔可以看到,影片生成 API 的每日限額僅 10 次,這反映了當前高品質 AI 影片生成依然需要一筆不低的成本,如果使用 Seedance 2.0 的話那就更貴了,ViMax 只是簡化了整個生產流程。


