以往想製作像 Heygen 這類「數字人」影片都必須要購買會員,生產每部影片也必須獨立計費,現在這個情況可能會改變了。中國「美團」的技術團隊正式開源了商用等級的數位人影片生成模型「LongCat-Video-Avatar 1.5」,相較於此前 HeyGen、Kling Avatar 等閉源方案,LongCat-Video-Avatar 1.5 在唇形同步、物理合理性、長影片穩定性、多人互動以及推理效率等面向均有顯著提升,且以 MIT 授權免費開放,開發者可在本機環境直接部署並進行批量生成。

三大核心升級:從研究走向商用
LongCat-Video-Avatar 1.5 針對傳統數位人領域的三大痛點:抖動、變形、高延遲,進行了系統性的改進。
pic.twitter.com/sO3u04Mt2q
我操!美团直接把商业闭源Avatar干翻了,
开源免费版LongCat-Video-Avatar-1.5来了!塞一张照片 + 一段语音(中文英语日语随便来),
直接出唇同步爆炸、自然眨眼摇头、手势乱飞的说话视频。长视频脸不崩、多人对话各管各的、
唱歌跳舞都行,动漫动物真人全吃得下!…— HankAI (@hank_aibtc) May 25, 2026
音訊編碼器升級:Whisper-large 取代 Wav2Vec2
前代版本使用 Wav2Vec2 作為音訊編碼器,1.5 版本則升級為 OpenAI 的 Whisper-large。更大的參數量與更豐富的多語言先驗知識,使得模型能夠更精細地捕捉音素變化與發音節奏。這項改動直接帶來三個效益:
- 長句、快速語速、歌唱等複雜音訊的唇部動作更加精準
- 臉部、頭部與身體的動作協調更自然
- 長影片中的跳幀率與身分漂移大幅減少
多階段增強資料系統:提升開放領域泛化能力
團隊建立了全新的資料處理流程,結合「離線標註」與「線上驗證」機制,注入三種特定資料類型,使模型在真人、虛擬偶像、動漫與動物等多元場景中表現穩定:
- 多人對話資料:透過說話者檢測消除音影歧義,準確區分說話者與聆聽者
- 靜默資料:無對白的影片幫助模型學習不說話時的自然微表情,避免不該動嘴時嘴巴亂動
- 情緒資料:幀級情緒辨識過濾注入情緒變化,讓語音與表情真正連動
手部與連貫性專屬對齊:引入 GRPO
針對電商直播與商品演示等頻繁出現手部動作的場景,模型引入了 GRPO(Group Relative Policy Optimization)人類偏好對齊機制:
- 加入第一幀手部檢測機制
- 以幀級獎勵信號優化手部生成
- 有效改善手部扭曲、局部結構崩潰及動作不一致的問題
推理速度提升 15 倍:10 秒影片僅需 1 分鐘
為了降低商業運算成本,LongCat-Video-Avatar 1.5 在架構上進行了顯著優化:
- DMD 技術:採用分佈式匹配蒸餾(Distributed Matching Distillation),將生成過程從 50 步壓縮至 8 步
- 架構重構:以「單一共享基底模型+多個 LoRA 適配器」取代傳統的三模型並行方案,釋放顯存空間
- 實際效能:推理效率約提升 15 倍,生成一段 10 秒影片僅需約 1 分鐘
這意味著在單卡 NVIDIA H200(80GB 顯存)的環境下即可運行,大幅降低了數位人內容製作的硬體門檻。
基準測試全面領先閉源方案
在 EvalTalker 基準測試中,由 770 位評估者與 10 位領域專家針對新聞、教育、娛樂等場景進行評分,LongCat-Video-Avatar 1.5 的表現全面超越了 Kling Avatar 2.0、OmniHuman-1.5 與 HeyGen 等主流閉源方案:
- 使用者偏好勝率:對比 Kling Avatar 2.0 達 65.9%、對比 OmniHuman-1.5 達 61.1%、對比 HeyGen 達 54.3%
- 單人評分 3.336,顯著高於 HeyGen
- 多人評分 2.730,大幅超越 InfiniteTalk 的 2.339
- 主體變形率僅 23.1%,背景變形率 9.4%,跳幀率僅 0.8%,為比較模型中最佳
多元應用場景:從電商直播到動漫生成
LongCat-Video-Avatar 1.5 的應用範圍遠超一般數位人工具。根據官方示範,模型支援以下場景:
- 電商行銷:輸入參考照片與語音,生成唇同步自然、身分一致的帶貨影片
- 長影片生成:原生支援分鐘級別影片,無色彩漂移或品質下降
- 多人對話:多位角色各自穩定,自然交接說話輪次
- 歌唱表演:動態動作與音樂表現力兼備
- 動漫角色:風格化角色與二次元數位人皆能穩定驅動
- 動物角色:甚至能驅動非人類角色的口型與表情
開源資源與社群反應
模型已於多個平台開放:
- GitHub:meituan-longcat/LongCat-Video
- Hugging Face(有試用):meituan-longcat/LongCat-Video-Avatar-1.5
社群反應熱烈,科技媒體與開發者社群普遍認為這是 2026 年開源影片生成領域最重要的發布之一。有 YouTube 創作者指出,LongCat-Video 是目前對標 OpenAI Sora 2 的最佳開源競爭者,其品質已可與 Sora 2 相提並論。Reddit 的 r/LocalLLaMA 社群亦迅速展開討論,肯定其在數位人領域的突破。
展望
LongCat-Video-Avatar 1.5 的開源不僅填補了數位人領域開源與商用之間的最大落差,更為內容創作者、電商平台與教育機構提供了一個低成本、高效率的影片生成方案。隨著 MIT 授權的開放性,預期中將有更多開發者基於此模型進行二次開發與最佳化,進一步推動數位人技術的普及化。對於長期依賴 HeyGen 等閉源服務的團隊而言,這或許是轉向開源方案的契機。