谷歌Veo 3震撼发布:AI视频生成迈入“音画同步”新纪元
谷歌于本周二正式发布了其最新款AI工具Veo 3,这款工具能够生成高质量视频,并同步添加逼真的音效,标志着AI视频生成技术迈入了一个全新的阶段。
Veo 3作为OpenAI Sora的直接竞争对手,其核心亮点在于能够将音频元素与视频内容无缝整合。谷歌表示,Veo 3可以自动生成包括角色对白、动物声音在内的多种音频内容,进一步提升了音画同步的真实感。

谷歌DeepMind产品副总裁伊莱·柯林斯(Eli Collins)在周二的一篇博客中提到:
“Veo 3在文本和图像提示、现实物理效果以及精准唇形同步方面表现出色。”
Veo 3的音画同步生成功能是AI视频生成领域的一项重大突破。它不仅能够根据提示词生成高质量的视频,还能自动生成与画面完全同步的对白、唇动对齐、拟真环境音效以及情绪氛围音轨。其底层技术V2A(Video-to-Audio)通过将视频像素转化为语义信号,并结合文本提示生成同步音频波形,从而实现了这一功能。
Veo 3基于对物理世界的深刻理解,能够实时生成与画面匹配的声音,例如脚步声、烹饪声等,而非后期拼接。此外,Veo 3还能精准捕捉画面情绪,渲染氛围音效,甚至在多角色、多种风格的复杂场景下表现出色。在长提示词理解与事件流生成方面,Veo 3也能处理复杂的事件流,生成逻辑连贯、多步骤执行的视频片段。
Veo 3从本周二起向美国用户开放,订阅者需加入谷歌新推出的Ultra订阅计划,月费为249.99美元,主要面向深度AI爱好者。同时,Veo 3也将在谷歌的企业级AI平台Vertex AI上向用户提供服务。
目前,X社交平台上已经涌现大量用户使用Veo 3生成的“尝鲜”视频。例如,一段镜头跟随一只腊肠犬穿过客厅,跑出敞开的前门,来到门廊。它站在顶层楼梯上,俯瞰着周围的景色,这时一辆冰淇淋车驶过。视频中伴随小狗冲出门口的脚步声以及冰淇淋车驶过的声音。

在另一个X用户分享的Veo 3生成视频中,一匹马走进酒吧,视频伴随马蹄声、马叫声以及酒保说话的声音。

Veo 3的推出正值生成式AI在图像和视频创作领域应用日益普及之际。OpenAI首席执行官奥特曼曾透露,旗下ChatGPT 4o的图像生成功能因过度受欢迎,甚至一度令计算芯片“过热”,公司不得不暂时限制该功能的使用。
此外,谷歌还宣布对Veo 2进行更新,新增支持通过文字提示对视频中物体进行增删的功能。同时,谷歌开放了其AI音乐生成模型Lyria 2,供YouTube Shorts创作者及Vertex AI企业客户使用。
- 15.17币圈行情分析:比特币与以太坊操作策略参考
- 2香港正式通过《稳定币条例草案》:全面解读其立法历程与核心内容
- 3Movement事件深度解析:项目方、做市商与VC的利益博弈与行业破局之道
- 4下周焦点:TRUMP主题晚宴与稳定币GENIUS法案最终表决领衔(5.19-5.25)
- 5空投周报 | WLFI通过向持有者空投USD1提案;Boop.fun提前关闭空投申领计划(5.12-5.18)
- 6GENIUS法案通过:稳定币监管新时代来临,哪些加密资产将受益?
- 7 如果你持有价值 1,000 美元的柴犬股票,到 2035 年,SHIB 能让你致富吗?
- 8 随着 LIBRA memecoin 调查的深入,阿根廷法院解除了 Milei 的银行保密制度
- 9Pi币面临崩盘危机:0.70美元支撑位能否坚守至2025年5月?