以色列人工智慧公司 Lightricks 於近日正式發布自家最新的 LTX 2.3 開源影片生成模型,為前代 LTX-2 的重大升級版本。該模型最大特色在於能夠在單一模型內直接生成含同步音訊的高畫質影片,最高支援 4K 解析度、50 FPS,最長可生成 20 秒 AI 影片,並原生支援垂直(9:16)影片格式,滿足社群媒體內容創作需求。
四大技術升級 提升提示詞理解與畫質表現
LTX 2.3 在多項核心技術上進行大幅升級。首先,文字編碼器規模擴大 4 倍,大幅提升提示詞理解能力,能精確呈現攝影機運動、構圖和角色動作,讓生成結果更符合創作者的預期。
全新設計的 VAE(變分自編碼器)提供更清晰的細節和更穩定的運動畫質,有效改善前代作品常見的畫面模糊問題。也支援 Lora 可進行影片風格轉換功能。
圖像轉影片(I2V)功能從訓練階段即整合至模型架構中,顯著減少畫面停滯現象,並降低所謂的「肯納伯斯效應」(can nabs effect),使連續幀之間的過渡更加自然,而且也支援首尾幀功能與原生直橫格式影片生成。
音訊品質同步提升,是目前開源模型中少數支援音畫同時生成的本地端模型。新型 vocoder 降低背景雜音並強化音畫同步,解決過往 AI 生成的影片常見的音訊延遲或不同步問題。大家可以看看官方所釋出的宣傳影片,效果相當驚艷(以開源模型來說)。
免費桌面應用程式同步推出 Windows 版需高規硬體
伴隨模型發布,Lightricks 也推出免費桌面應用程式 LTX Desktop,讓使用者能夠在個人電腦上直接執行影片生成任務。該應用程式支援 Windows(本地端運行)和 macOS(API 運行)雙平台。
Windows 版本對硬體需求相當高,最低建議配備為 32GB VRAM(顯示卡記憶體)、32GB RAM(系統記憶體)以及 60GB 可用儲存空間。這樣的門檻意味著僅有高階遊戲主機或專業工作站才能流暢運行。
Pro 版本提供進階功能 音訊轉影片、影片延伸
除了開源版本外,Lightricks 也同步推出 LTX 2.3 Pro 服務,透過 Replicate 平台提供 API 存取。Pro 版本支援多項進階功能,包括音訊轉影片(將聲音轉化為對應的動態畫面)、影片重製(提升既有影片的解析度與畫質)以及影片延伸(將短片段延長至更長的內容)。
LTX 2.3 官網請點我
開源授權與硬體相容性
LTX 2.3 採用開源免費授權,年營收低於 1000 萬美元的公司可自由使用該模型進行商業開發。技術細節方面,模型已登陸 HuggingFace 平台,提供開源權重檢查點下載,並支援 LoRA 訓練與 ComfyUI 整合,方便開發者進行微調與自訂,目前也有試用平台可以動手體驗其強大功能。
目前版本僅支援 NVIDIA GPU 加速運算,AMD 與 Intel 顯示卡的相容支援仍在開發當中。
Lightricks/LTX-2.3 – Hugging Face
結語
LTX 2.3 的推出展現了開源影片生成模型的持續進化,不僅在畫質與流暢度上有所突破,更將音訊同步整合為標準功能,對內容創作者而言是重要的工具里程碑。然而,高硬體使用門檻對一般人來說依仍限制了其普及速度,如何在效能與可及性之間取得平衡,將是 Lightricks 未來需要面對的課題。







