第048期:Sora的出现,加速了AGI进程,疯狂的想法喷涌而出

OpenAI在我们中国春节期间发布了新产品——Sora,它将是比ChatGPT更颠覆的产品,ChatGPT的主要能力是理解通用自然语言和常识,并做出文本的预测,而Sora的能力是理解这个世界的运行规律,并以视频的形式完成预测,“理解世界的运行规律”和“理解自然语言”比起来,级别一下子上升了很多,所以我说它将是比ChatGPT更颠覆的产品。本期将深入聊一聊我对Sora这款产品的看法。

在线收听

喜马拉雅:点击播放

你还可以在苹果自带的 Podcast 应用、小宇宙APP、QQ音乐中搜“Robust”找到我们的节目收听。

捐赠支持

求打赏🙇如果你觉得 Robust 这样一档技术类的谈话节目还不错,希望我继续做下去,不妨打赏支持。

内容摘要

OpenAI在我们中国春节期间发布了新产品——Sora,它将是比ChatGPT更颠覆的产品,ChatGPT的主要能力是理解通用自然语言和常识,并做出文本的预测,而Sora的能力是理解这个世界的运行规律,并以视频的形式完成预测,“理解世界的运行规律”和“理解自然语言”比起来,级别一下子上升了很多,所以我说它将是比ChatGPT更颠覆的产品。

如果人工智能能够理解这个世界的运行规律,那么也就可以建立现在业界提出的概念“世界模型”,一旦世界模型得以建立,我们就可以再建一个平行世界。这样的想法很是疯狂,不过疯狂的想法不止于此。

AGI(通用人工智能)作为新工业革命标志,几乎已经形成了共识。未来我们的生产、消费、娱乐、科学等等,都可能依赖AGI,或者以它为工具,或者用AGI创造新智能,甚至寄生于中。当然,这里面有很多社会学、人类文化学的问题要研究,例如一个最关键的问题是,穷人在这个时代如何被赋予公平的权利?不过现在讨论这些为时尚早,先努力将技术推进至那一天再来思考不迟。

Sora给我们的启示非常大。

大家都觉得Sora出的视频真实,这种真实感远远大于之前的其他软件,这是为什么呢?这是一个非常重要且严肃的问题。这可以上升到更高层面的一个问题,“为什么我们感觉真实?”,比如,为什么我们有时候会说“这个梦好真实”。现在我来总结答案:因为我们当下的体验,符合我们的常识和经验。我们觉得梦真实,是因为这个梦里面的场景延续了自己这几天的生活体验,所以符合生活经验的体验,让我们有强烈的真实感。我们看到Sora的视频有更强真实感,是因为我们觉得它出的视频,在细节上都非常符合我们的常识和经验。当然,那些用Sora做的翻车视频,就是不符合我们常识和经验的反例。现在的问题,就是为什么它出视频能做到按照人们的常识和经验来出?

在Sora出现之前,市面上比较知名的文生视频应用有Pika和Runway,但是它们在技术层面有着天大的差别,Pika和Runway等主要是通过传统的机器学习算法对视频帧(像素)做处理和渲染,而Sora则是采用ChatGPT相同的思路,通过提前进行超大规模的训练来掌握真实世界中的物理表现,然后再通过提示词来预测和复现。

打个比方,我们以前开发游戏,需要准备很多素材,然后对素材进行操作,而现在开发游戏则主要依赖于一个物理引擎,基于物理引擎的游戏对比基于素材的无论是感观上还是体验上都要高一个维度。而Sora就是那个基于物理引擎的,它的物理引擎,就是通过对大量的现实世界的视频的训练和学习,而建立的“世界引擎”,当我们输入提示词时,它就在这个引擎上创建一个视频出来。

Sora还有两个特征,一个是可以做到60s的视频,二是可以在保持主角色不变的高度一致性的同时,还生成多个不同角度的分镜。在这两点之下,它的视频还很丝滑,像素高(据称能到4K),有大片感(据称其底层依赖虚幻5引擎来生成视频)。而且Sora还可以提供一个视频,对其细节修改的能力,这使得很多博主基于一些有趣的视频,创造出更有趣的东西。

关于Sora的技术解析,它是怎么训练的,怎么预测的,我在B站上发现了一个视频,讲的深入浅出,你可以通过这个视频来了解(https://www.bilibili.com/video/BV1RH4y1j74b/)。

站在2024年的今天,我们不得不承认AGI会对很多行业带来颠覆。Sora对电影特效、短视频制作等等的冲击,可想而知。

我在之前的节目里面曾提到一个想法,就是基于GPT来做电影和游戏开发,当时我的想法思路是和Pika之类的路线是一样的,想通过图片的补间的方式来实现连续动画和持续生成,但这种思路不可能带来优秀的体验。而Sora让我看到了另外一种可能。就目前来说,基于Sora和其他智能工具配合,制作出3-5分钟的视频毫无悬念,而Sora还具备续写的能力,只需要我们在相同语言上下文中给出新的提示词即可。要知道ChatGPT已经支持模型的记忆能力。由此可见,互动式的视频生成越来越近。

今天,我在网上看到另外一种想法,现在苹果的Vision  Pro已经发售,假以时日,在Vision Pro这样的设备上,实现持续性的沉浸式交互式视频生成,由用户自己来创造自己想看的内容,而非由第三方机构来推荐内容,成为了可能。前段时间爆火的《糟糕!我被美女包围了》视频互动游戏,其制作成本、剧情量、交互的选择数都是有限的,而有了我上述的大胆想法之后,这样的游戏将变得轻而易举,且无限可能。届时,我我们可能分不清,这到底是游戏,还是电影。

类似《头号玩家》《黑客帝国》《Her》这样的电影中的场景,现在来看,似乎也未尝不能达到。

最后,我们来总结一下。Sora的发布,预示着AGI发展进程已经进入理解世界运行规律的阶段,并尝试构建世界模型。这将颠覆我们以前很多需要基于计算机技术才能做到的事,这对有关行业的颠覆无疑是巨大的,虽然AGI的发展初衷是为了把工作交给计算机,把人作为劳动力解放出来,但实际中我们还是需要有危机感,个人要实时更新自己的行业技能,转换工作范式,以应对科技革命中的巨大变化。

最后再推荐1部小众电影《未来战警》,以现在的技术发展来看,也不是不可能。

2024-02-20 401

为价值买单,打赏一杯咖啡

本文价值4.01RMB