電腦王阿達

No Result

View All Result

No Result

View All Result

電腦王阿達

No Result

View All Result

Tags: AI 影片 Github LongCat-Video-Avatar 數位人數字人美團開源

數位人影片生成不用花大錢！美團開源 LongCat-Video-Avatar 1.5，能製作多人、動漫、電商影片

by 達小編

2026 年 05 月 26 日

in AI 趨勢與相關新聞, 最新科技新聞

讀取中...

以往想製作像 Heygen 這類「數字人」影片都必須要購買會員，生產每部影片也必須獨立計費，現在這個情況可能會改變了。中國「美團」的技術團隊正式開源了商用等級的數位人影片生成模型「LongCat-Video-Avatar 1.5」，相較於此前 HeyGen、Kling Avatar 等閉源方案，LongCat-Video-Avatar 1.5 在唇形同步、物理合理性、長影片穩定性、多人互動以及推理效率等面向均有顯著提升，且以 MIT 授權免費開放，開發者可在本機環境直接部署並進行批量生成。

三大核心升級：從研究走向商用

LongCat-Video-Avatar 1.5 針對傳統數位人領域的三大痛點：抖動、變形、高延遲，進行了系統性的改進。

pic.twitter.com/sO3u04Mt2q
我操！美团直接把商业闭源Avatar干翻了，
开源免费版LongCat-Video-Avatar-1.5来了！

塞一张照片 + 一段语音（中文英语日语随便来），
直接出唇同步爆炸、自然眨眼摇头、手势乱飞的说话视频。

长视频脸不崩、多人对话各管各的、
唱歌跳舞都行，动漫动物真人全吃得下！…

— HankAI (@hank_aibtc) May 25, 2026

音訊編碼器升級：Whisper-large 取代 Wav2Vec2

前代版本使用 Wav2Vec2 作為音訊編碼器，1.5 版本則升級為 OpenAI 的 Whisper-large。更大的參數量與更豐富的多語言先驗知識，使得模型能夠更精細地捕捉音素變化與發音節奏。這項改動直接帶來三個效益：

長句、快速語速、歌唱等複雜音訊的唇部動作更加精準
臉部、頭部與身體的動作協調更自然
長影片中的跳幀率與身分漂移大幅減少

多階段增強資料系統：提升開放領域泛化能力

團隊建立了全新的資料處理流程，結合「離線標註」與「線上驗證」機制，注入三種特定資料類型，使模型在真人、虛擬偶像、動漫與動物等多元場景中表現穩定：

多人對話資料：透過說話者檢測消除音影歧義，準確區分說話者與聆聽者
靜默資料：無對白的影片幫助模型學習不說話時的自然微表情，避免不該動嘴時嘴巴亂動
情緒資料：幀級情緒辨識過濾注入情緒變化，讓語音與表情真正連動

手部與連貫性專屬對齊：引入 GRPO

針對電商直播與商品演示等頻繁出現手部動作的場景，模型引入了 GRPO（Group Relative Policy Optimization）人類偏好對齊機制：

加入第一幀手部檢測機制
以幀級獎勵信號優化手部生成
有效改善手部扭曲、局部結構崩潰及動作不一致的問題

推理速度提升 15 倍：10 秒影片僅需 1 分鐘

為了降低商業運算成本，LongCat-Video-Avatar 1.5 在架構上進行了顯著優化：

DMD 技術：採用分佈式匹配蒸餾（Distributed Matching Distillation），將生成過程從 50 步壓縮至 8 步
架構重構：以「單一共享基底模型＋多個 LoRA 適配器」取代傳統的三模型並行方案，釋放顯存空間
實際效能：推理效率約提升 15 倍，生成一段 10 秒影片僅需約 1 分鐘

這意味著在單卡 NVIDIA H200（80GB 顯存）的環境下即可運行，大幅降低了數位人內容製作的硬體門檻。

基準測試全面領先閉源方案

在 EvalTalker 基準測試中，由 770 位評估者與 10 位領域專家針對新聞、教育、娛樂等場景進行評分，LongCat-Video-Avatar 1.5 的表現全面超越了 Kling Avatar 2.0、OmniHuman-1.5 與 HeyGen 等主流閉源方案：

使用者偏好勝率：對比 Kling Avatar 2.0 達 65.9%、對比 OmniHuman-1.5 達 61.1%、對比 HeyGen 達 54.3%
單人評分 3.336，顯著高於 HeyGen
多人評分 2.730，大幅超越 InfiniteTalk 的 2.339
主體變形率僅 23.1%，背景變形率 9.4%，跳幀率僅 0.8%，為比較模型中最佳

多元應用場景：從電商直播到動漫生成

LongCat-Video-Avatar 1.5 的應用範圍遠超一般數位人工具。根據官方示範，模型支援以下場景：

電商行銷：輸入參考照片與語音，生成唇同步自然、身分一致的帶貨影片
長影片生成：原生支援分鐘級別影片，無色彩漂移或品質下降
多人對話：多位角色各自穩定，自然交接說話輪次
歌唱表演：動態動作與音樂表現力兼備
動漫角色：風格化角色與二次元數位人皆能穩定驅動
動物角色：甚至能驅動非人類角色的口型與表情

開源資源與社群反應

模型已於多個平台開放：

GitHub：meituan-longcat/LongCat-Video
Hugging Face（有試用）：meituan-longcat/LongCat-Video-Avatar-1.5

社群反應熱烈，科技媒體與開發者社群普遍認為這是 2026 年開源影片生成領域最重要的發布之一。有 YouTube 創作者指出，LongCat-Video 是目前對標 OpenAI Sora 2 的最佳開源競爭者，其品質已可與 Sora 2 相提並論。Reddit 的 r/LocalLLaMA 社群亦迅速展開討論，肯定其在數位人領域的突破。

展望

LongCat-Video-Avatar 1.5 的開源不僅填補了數位人領域開源與商用之間的最大落差，更為內容創作者、電商平台與教育機構提供了一個低成本、高效率的影片生成方案。隨著 MIT 授權的開放性，預期中將有更多開發者基於此模型進行二次開發與最佳化，進一步推動數位人技術的普及化。對於長期依賴 HeyGen 等閉源服務的團隊而言，這或許是轉向開源方案的契機。

Tags: AI 影片 Github LongCat-Video-Avatar 數位人數字人美團開源

您也許會喜歡：

立達合法徵信社-讓您安心的選擇

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技