電腦王阿達

No Result

View All Result

No Result

View All Result

電腦王阿達

No Result

View All Result

Tags: ai AI 影片 AutoCameo Github ViMax 開源

港大開源多智能體影片生成框架「ViMax」，一句話讓 AI 自編自導自演

by 達小編

2026 年 05 月 20 日

in AI 趨勢與相關新聞, 最新科技新聞

讀取中...

你能想像只要一句話描述，AI 就能為你拍出一部完整的短劇嗎？從一句靈感、一本小說、到一段專業劇本，AI 自動完成從劇本撰寫、分鏡設計、角色塑造到最終影片生成的全部流程，這不再只是科幻電影的情節。由香港大學數據科學系黃超教授團隊開源的熱門專案 ViMax 框架，正在將這個願景變成現實。

港大開源多智能體影片生成框架「ViMax」，一句話讓 AI 自編自導自演

ViMax 在 GitHub 上已獲得超過 5,500 顆星標，並以 MIT 授權完全開源。這個被稱為「Agentic Video Generation」的框架，本質上就是一個 AI 版的全能劇組，全程由 AI 編劇寫劇本、AI 導演掌控節奏、AI 攝影師構圖運鏡、AI 剪輯師打磨細節，全部自動協作，你只需要輸入想法即可。

從「片段生成」到「系統化製作」的躍進

當前主流 AI 影片工具如 veo 3、Runway 等，雖然在短片段生成上表現亮眼，但它們只能產出數秒到數十秒的片段，且面臨兩個致命瓶頸。首先是敘事規劃的複雜度爆炸，長影片需要統籌數百個鏡頭的敘事邏輯，涉及角色發展、情節推進和主題呼應等多個維度，這種多層次的故事架構遠遠超出了當前語言模型的單輪處理極限。其次是跨鏡頭視覺連貫性難題，現有生成模型各自為戰，缺乏對前序內容的記憶能力，導致角色形象、場景風格在不同鏡頭之間頻繁「變臉」。這種視覺記憶缺失在長影片中會產生雪球效應，嚴重影響觀看體驗。

ViMax 正是針對這兩個瓶頸設計的。它不是再去改良某一個生成模型，而是從系統架構層面徹底重新思考了 AI 影片製作流程。

四大創作模式：從靈感到成片的全覆蓋

ViMax 提供了四種不同的創作入口模式，滿足從普通用戶到專業創作者的多樣需求：

創意到影片（Idea2Video）：最簡單的模式，使用者只需輸入一句話想法（例如「如果貓和狗是最好的朋友，牠們遇到新貓咪時會發生什麼？」），系統就會自動完成從劇本到影片的全部流程。
小說到影片（Novel2Video）：智慧文學改編引擎，可將完整小說自動壓縮並轉化為分集影片內容，實現角色追蹤、敘事壓縮與逐場景視覺化改編。
劇本到影片（Script2Video）：針對專業創作者設計，支援好萊塢格式的標準劇本輸入，使用者可以完全掌控從鏡頭語言到節奏的每個細節。
智慧客串（AutoCameo）：上傳一張個人照片，ViMax 就能將你或你的寵物融入影片中，成為故事角色，而且保持外觀一致性與自然互動。

多智能體協作架構深度解析

ViMax 最核心的設計理念是將長影片製作分解為五個相互協調的階段，每個階段由專門的 AI 智能體負責：

第一階段：劇本創作，無論使用者輸入的是簡單想法、完整小說還是劇本片段，編劇智能體都能將其重新組織為標準化的影視劇本，包含場景設定、角色台詞和故事節奏安排。此階段採用 RAG（檢索增強生成）技術，系統首先對原始素材進行深度解析，建立包含角色關係、情節脈絡、主題元素的綜合索引庫，確保每個局部規劃都能「看見」整體故事圖景。

第二階段：分鏡規劃，分鏡智能體運用專業電影製作理論，為每個場景設計精確的鏡頭語言，從攝影機位置、運動軌跡，到光影布局、角色調度，形成完整的拍攝藍圖。ViMax 在此採用遞迴式敘事分解策略，將完整劇本按照敘事邏輯拆解為事件層（核心敘事節點）、場景層（可執行的戲劇單元）和鏡頭層（精確執行指令）三個層次，確保語言模型在每個認知層級都面對適度的規劃範圍。

第三階段：視覺資產生成，採用「先圖後影片」的兩步生成策略。首先創建核心視覺元素（角色造型、場景設計、關鍵畫面），然後以此為基礎生成對應的動態影片片段。系統會智慧選取當前鏡頭首幀所需的參考圖（包含前序時間線中的分鏡資料），確保影片越長，多角色與環境元素越準確。

第四階段：品質把控，對於每個生成任務，系統會同時產出多個版本，由品檢智能體運用視覺語言模型（MLLM/VLM）進行專業評估，篩選出最符合分鏡要求的版本。若所有候選都未達標，系統會自動調優參數並重新生成，模擬人類創作者反覆挑選最佳素材的工作流程。

第五階段：統一協調，導演智能體擔任總指揮，監控全流程的協調運轉，維護各階段輸出的風格統一，並負責智能體間的任務分配與資訊同步。

底層架構：模組化設計與多元模型支援

ViMax 採用 Python 3.12 開發，使用 uv 作為專案管理工具，依賴包括 Faiss 向量資料庫（用於 RAG 檢索）、MoviePy（影片剪輯）、OpenCV（影像處理）、LangChain（AI 流程編排）等主流開源套件。

在模型支援方面，ViMax 採用模組化設計，使用者可以自由更換底層模型：

對話模型：支援 Google Gemini、OpenRouter 上的各類模型，也可使用 MiniMax-M2.7（100 萬 tokens 上下文）。
影像生成器：支援 Google Imagen 等 API
影片生成器：支援 Google Veo 等 API

這種設計讓 ViMax 不綁定任何特定廠商，使用者可以根據預算和需求自由組合。例如，使用 OpenRouter 存取便宜的 LLM、搭配 Google Veo 的高品質影片生成能力，形成最具成本效益的組合。

AutoCameo：把你自己放進影片裡

ViMax 的 AutoCameo 功能是一大亮點。使用者上傳一張自己的照片，系統就能讓照片中的人物以一致的外觀出現在影片中，扮演各種角色。這項功能不再只是把頭貼上去的簡單合成，而是讓 AI 理解照片中人物的特徵，並在數十個鏡頭中保持外觀、表情和動作的一致性。

這對內容創作者而言意義重大：你可以讓自己「出演」短片而無需實際拍攝，或讓寵物成為故事主角，甚至製作個人化的生日祝福影片。傳統需要綠幕、專業攝影棚和後製團隊才能做到的效果，現在一個開源框架就能實現。

開源生態與社群反響

ViMax 自 2025 年 11 月開源以來，已在 GitHub 獲得超過 5,500 顆星標與 935 次分支（Fork），這個成長速度在學術開源專案中相當驚人。此外，港大黃超團隊（HKUDS）近年在 AI 開源領域動作頻繁。ViMax 已是該團隊在短期內推出的第三個重大 AI 突破，此前他們已在推薦系統、神經網路等領域累積了豐富的開源成果。

從 Discord 的討論來看，開發者對 ViMax 的關注點主要集中在：與現有影片生成模型（如 CogVideo、Stable Video Diffusion）的整合可能性、AutoCameo 功能的實際效果，以及在消費級 GPU 上的運行效能。

ViMax 開源專案（請點我）

小結：一人劇組時代的開端

ViMax 代表的並不是某一個 AI 模型的進步，而是 AI 影片製作從「工具時代」進入「系統時代」的關鍵轉折。當前的 AI 影片工具就像提供了高品質的畫筆和顏料，但創作一幅完整畫作仍然需要人類藝術家。ViMax 的定位則更像是提供了一個完整的「自動化工廠」，從原料（創意想法）到成品（完整影片），全部自動化完成。

ViMax 仍處於早期階段，目前它依賴外部 API（如 Google Veo 和 Imagen）來完成實際的影像與影片生成，這意味著使用者需要支付對應的 API 費用。從設定檔可以看到，影片生成 API 的每日限額僅 10 次，這反映了當前高品質 AI 影片生成依然需要一筆不低的成本，如果使用 Seedance 2.0 的話那就更貴了，ViMax 只是簡化了整個生產流程。

Tags: ai AI 影片 AutoCameo Github ViMax 開源

您也許會喜歡：

立達合法徵信社-讓您安心的選擇

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技