Google 於前幾日 2025 年 5 月 20 日的 Google I/O 開發者大會上發表 Google 全新的 AI 影片生成模型:Veo 3,這項新模型除了畫面更加逼真、加入 Flow 剪輯功能以外,還加入了即時音效配音的能力,不僅讓 AI 生成影片告別了「默片時代」,更將 AI 生成內容的真實感提升到前所未有的高度,甚至已經到達「真假難辨」的境地。
Veo 3:AI 影片生成的革命性突破
Google Veo 3 是 Google DeepMind 團隊開發的最新一代 AI 影片生成模型,相較於前代 Veo2 ,Veo 3 最大的突破在於首次實現了影像與音效的同步生成。現在使用者只需提供描述角色和環境的提示詞,並建議對話內容及希望的聲音效果,Veo 3 就能生成包含音效、背景噪音、對話等完整音訊的影片。
至於 Veo3 所製作的影片效果是否真如 Google 所言那麼驚人?相信也是很多人好奇的重點,畢竟 Open AI 的 Sora 翻車案例殷鑑不遠。現在在社群平台 X(前推特)上,就有許多非常驚人的案例,這邊為大家彙整一些已經用上 Veo3 的創作者所製作的案例。
以假亂真的網路美女
以後網路上看到美女對你嬌聲嗲氣的與你聊天可能都不可信了,這段影片就是使用 Veo3 所生成,可看到虛擬人物連咳嗽、慵懶的感覺都有作出來,要不是眼神與手指部分有點奇怪,一般人可能完全無法辨識真假。以後網路交友除非線下先見面,不然千萬別當火山孝子。
不得不说Veo3这个TTS的语气比大部分现在的平台都靠谱。。。 pic.twitter.com/Qu6gAscLMV
— 汗青 HQ (@hq4ai) May 22, 2025
合乎物理現象的威爾史密斯吃義大利麵
之前在網路上很紅的 AI 生成的「威爾史密斯吃義大利麵」影片,當時影片裡面出現好幾段臉部崩壞變形與物理行為不符合的情況,在當時也製造出各種迷因。連當事人都有拍片嘲諷過,我們之前也有撰文報導。
不過網友使用 Veo 3 重現「威爾史密斯吃義大利麵」這個經典的 AI 影片生成難題時,這次的效果就已經非常逼真了,不認真看真的快要無法分辨。
Just got access to Veo 3 and the first thing I did was try the Will Smith spaghetti test. SOUND ON pic.twitter.com/y0CiZwNxgM
— Javi Lopez ⛩️ (@javilopen) May 22, 2025
這邊也附上阿達剛用 Sora 製作的「威爾史密斯吃義大利麵」版本:
AI 生成角色的自我認知
一個有趣的概念性案例,探討「如果 AI 生成的角色拒絕相信他們是 AI 生成的會怎樣」,當然場景與對白都是人類輸入的。
Prompt Theory (Made with Veo 3)
What if AI-generated characters refused to believe they were AI-generated? pic.twitter.com/GJSRCXp3JP
— Hashem Al-Ghaili (@HashemGhaili) May 22, 2025
用更低的成本拍攝廣告
這一位使用者表示他之前曾經花了50萬美金拍攝一個藥品廣告,但他現在只花了 500 美金點數就用 Veo3 就拍出下面這個廣告(雖然便宜很多,但對於一般使用者來說還是很大的花費):
I used to shoot $500k pharmaceutical commercials.
I made this for $500 in Veo 3 credits in less than a day.
What’s the argument for spending $500K now?
(Steal my prompt below 👇🏼) pic.twitter.com/4UH43EXDux
— PJ Ace (@PJaccetturo) May 22, 2025
即時生成的遊戲畫面
這展示了如果 Veo3 繼續進化的話,也許有可能未來的遊戲畫面可以用 AI 來即時渲染,大量節省開發時間。
Veo 3 does video games really well. It’s like you can explore new worlds already.
Prompts are all variations of:
> a third-person open world video game walking around…
> an fps video game in/on a… pic.twitter.com/bpDGaKNU55— fofr (@fofrAI) May 22, 2025
另外也有人用 Veo3 即時生成現實世界裡的遊戲場景。
Veo 3 tackling some real world locations but “in-game”
1. Paris – Eiffel Tower pic.twitter.com/ownfb9JrZy
— Linus Ekenstam (@LinusEkenstam) May 23, 2025
假新聞將無所不在?
影片中展示了一段看似普通的街頭採訪,一名男子正在接受兩位女性的採訪。若不事先告知,幾乎無法辨別這是 AI 生成的內容。影片中人物的表情、動作自然流暢,環境光影變化真實,甚至連對話內容與口型同步都達到了以假亂真的程度。
Veo 3 has been out for <24 hours.
I’ve generated so many videos that I already ran out of credits on the $250/month plan.
Here’s a collection of my best clips (with prompts!) 👇 pic.twitter.com/E6HImXaYhp
— Justine Moore (@venturetwins) May 21, 2025
甚至連有主播的新聞台畫面都可以輕鬆生成,不管是場景、動作、口氣都跟真的一樣,以後假新聞問題可能會更加嚴重。
It’s been 48h since Google launched Veo 3
It’s time for the thing that everyone feared.
Fake news: pic.twitter.com/JaWjsrKt9V
— Alex Patrascu (@maxescu) May 23, 2025
戲劇拍攝
大家可以看這場景、煙霧的效果,真的很可怕。
#Veo3 further blurs the lines between reality and imagination with audio, stronger text adherence, and richer visual details. pic.twitter.com/Tv5H9Uwzh3
— MBZ (@babaeizadeh) May 20, 2025
從 OpenAI Sora 到 Veo 3:AI 影片生成的快速演進
Veo 3 的出現標誌著 AI 影片生成技術的快速演進,僅僅在 2024 年 2 月,OpenAI 發布 Sora 時,業界就已經為其影片生成能力感到震驚。而短短三個月後,Google 的 Veo 3 就在多個方面超越了 Sora(但實在話 Sora 的確是眾多 AI 影片生成服務中表現最差的),特別是在音訊生成與影像真實感方面。
這種技術的快速迭代也引發了人們對「網際網路死亡」(dead internet)理論的擔憂:未來的網路內容可能將充斥著 AI 生成的影片和評論。如果目前不太真實的 AI 生成影片已經能在 YouTube 上獲得大量觀看,那麼真實度更高的 Veo 3 生成內容將獲得多少關注?
對創作者與觀眾的影響與挑戰
Veo 3 未來的更廣泛應用領域
-
好萊塢製作:據報導,好萊塢導演已開始將 DeepMind 產品整合到他們的製作中,著名導演 Darren Aronofsky 是最新的例子之一。
-
教育與培訓:Veo 3 可用於創建高度逼真的教育和培訓材料,從醫學教育到職業培訓。
-
虛擬試穿與電子商務:結合 Google 的其他 AI 功能,Veo 3 將可用於創建虛擬試穿體驗由照片升級為影片,提升電子商務互動性。
-
個人化內容:為用戶創建高度個人化的影片內容,從生日祝福到定制教學。