币币情报道:
OpenAI 于本周二正式发布了 Sora 2,将最新的视频生成模型与一款全新的社交应用相结合,使用户能够创作、分享并出演由 AI 生成的视频片段。据公司介绍,此次发布标志着模拟物理现实的一次重大进步,该模型首次实现了与视频同步生成音频。
升级后的 Sora 2 能够生成展示复杂物理交互的视频内容,这些内容在早期系统中难以处理。例如,Sora 2 成功生成了奥运会体操动作、桨板上的后空翻以及三周半跳等高难度表演,且未出现明显的失真或变形。与以往那些为了满足文本提示而扭曲物理规律的视频生成器不同,Sora 2 致力于模拟更真实的现实结果,包括失败场景。
OpenAI 在其公告中表示:“之前的视频模型过于乐观——它们会通过变形物体和扭曲现实来成功完成文本提示。” Sora 2“与之前的系统相比,在遵守物理定律方面表现得更为出色。”
该模型可以直接从文本提示生成背景音景、语音和音效。截至目前,唯一具备类似功能的模型是谷歌Veo 3。此外,该系统还能处理多镜头序列,同时保持场景变化的连续性,这需要对角色和环境有深入的理解。
OpenAI 将 Sora 2 的发布称为“视频领域的 GPT-3.5 时刻”,并将其与 ChatGPT 推出之前的语言模型进行类比。最初的 Sora 模型于2024年2月发布,代表了该公司所谓的“GPT-1 时刻”——这是视频生成技术开始大规模发挥作用的第一个标志性事件。
然而,随着更多先进的模型的涌现,中国的替代方案已经能够在相同提示下生成质量更高、更连贯的视频,使得 Sora 的优势逐渐被超越。
目前,体验 Sora 2 的唯一途径是通过邀请制访问其新的 iOS 应用程序,该应用被简单命名为 Sora。与之前仅能通过网站访问且专注于独立视频生成的模型不同,这款应用程序更加精致和多功能,引入了一项名为“cameos”的功能,允许用户将自己的形象插入生成的场景中。
用户只需录制一段简短的视频以验证身份并捕捉外貌和声音,即可出现在任何 Sora 创造的环境中。该功能不仅适用于人类,还可以应用于动物或物体,用户可以完全控制谁可以使用自己的肖像。
在演示过程中,OpenAI 团队制作了一系列风格类似于 TikTok 或 Instagram Reel 的视频,内容涵盖广告、踢翻动作以及各种情境下的表演。
该应用还提供了一个可定制的信息流,采用 OpenAI 所谓的新型推荐算法,该算法支持自然语言指令。默认情况下,系统会显示用户关注或互动过的内容,并且不会针对用户的滚动时间进行优化。应用内置机制会定期调查用户健康状况,并提供调整信息流设置的选项。
对于青少年用户,应用设置了每日动态可见代数的默认限制,并对客串功能实施更严格的权限管理。家长可以通过 ChatGPT 访问控件,管理滚动限制、算法个性化和私信设置。
用户对自己的客串内容拥有完全掌控权,可随时撤销访问权限或删除包含自己相似内容的视频。应用还会向用户展示所有客串视频,包括其他人创作的尚未发布的草稿。
Sora 2 目前正在美国和加拿大通过邀请制推出,并计划迅速扩展到其他国家。服务将免费提供,但 OpenAI 表示会有“宽松的限制”,尽管这些限制仍受计算能力的制约。ChatGPT Pro 用户可以访问名为 Sora 2 Pro 的实验性高质量版本。公司计划通过其 API 发布 Sora 2,并保留早期的 Sora 1 Turbo 型号。
OpenAI 表示,如果需求超过可用的计算资源,Sora 2 最终将为用户提供付费购买额外使用次数的选项。
目前,如果您没有邀请码、iPhone 或 ChatGPT Pro,唯一的选择是使用 Veo 3 的有限运行次数,或者尝试本地视频生成器如 Wan。当然,市场上也有更便宜的选项,例如 Kling、Seedance、Hailuo 或 Runway,但拥有一个高度逼真且具备社交媒体功能的视频模型,无疑为 OpenAI 提供了其他公司无法比拟的竞争优势。