AI视听应用逐渐成为Agent发展趋势和机会|唐霜

近期，多家厂商发布了视觉模型，结合C端应用市场的情况，我有理由相信，AI应用方向正在从LLM聊天应用向视觉应用转变。从单纯的聊天工具大行其道，到类似写作类copilot工具的盛行，AI应用在2024年已经呈现出了巨大的潜力，但你要知道，现在才5月，从业界顶尖会议提出AI应用将成大趋势，到现在才不过短短半年，可见在AI应用领域，世界发展的有多快。本文就来聊一聊我所看到的趋势和机会。

大模型成为AI领域统治级范式

在GPT-3.5之前，AI训练总是具有针对性，不同厂商、团队的方案百家争鸣，但在ChatGPT被广泛认可之后，大模型已经成为AI领域的核心范式，甚至成为一家新的AI创业公司的唯一选择。通过训练大模型来获得需要的AI能力，已经成为一种普遍被认可的方式，这一模式从LLM领域扩展到多模态领域、文生图领域、图生图领域、文生视频领域、图生视频领域……几乎我们已知的各类领域，都可以使用训练大模型的方式，获得针对该领域的AI模型。

AI领域当下发生着哪些有趣的事？

Stability在经历了创始人出走的情况下，发布了Stable Diffusion 3，获得了更优秀的成图能力，结合早前发布的Stable Diffusion XL底层架构，可以预测新版本的SD将拥有更强的性能。同时，官方推出的Stable Video Diffusion也是令人眼前一亮。SD生态中，SD webui发布了1.9，新工具forge将让客户端具有更强的性能和能力。在文生图领域，除了Stability之外，国内的一众团队开发出的新产品也是令人兴奋，在开源工具的基础上，分享绘画模型、工作流等，形成了AI视觉领域的社区氛围。

在Suno几乎成为统治者的时候，Udio横空出世与之分庭抗礼。从歌词到歌曲再到MV，几个新平台可以让音乐创作从专业工作，变为普通人可以短短几分钟实现的有趣事情，AI在音乐领域真正做到了平权，让普通人可以通过音乐这种形式，完成自己抒发某时某刻心情的创意。

从阿里所谓开源EMO引起的争议，到最终在通义应用中落地的不错效果，在AI视频领域也出现百花斗艳的场景。通过一张照片就可以让其中的人物活起来，并且具有较强的口型拟合，非常有意思。腾讯开源VideoReTalking，微软在azure平台上线具有情感和语气的文转音，数字人领域平民化也是指日可待。

从年初Sora PPT式发布，到陆续有厂商进入内测名单，到open-sora开源项目上线，再到业内其他竞品陆续跟进，虽然sora至今未上线对公众服务，但是整个业界在AI生成视频领域已经发出了最强的期待之声。虽然目前几乎所有的工具在生成视频这件事上，还很难做到完全规避大模型的幻觉问题，以及保持一致性问题，但是在退一步的情况下，利用SD关键帧等的技术方案，也可以实现视频换风格、换脸、换人、换背景等效果，和传统视频处理工具要方便很多。

对于老厂家们而言，微软在office软件中接入copilot技术，实现文件编辑时局部生成能力；Adobe在其全线设计软件中接入AI能力，可以通过涂抹局部后，用文字描述来实现设计，效果炸裂；苹果则是在前脚宣布与谷歌合作后，推出自己的小体量参数大模型ReALM，实现了对屏幕信息的识别和理解，让大模型在用户操作的理解上更进一步。

AI将主导内容领域生产

这一轮LLM-based Agent的大发展，将会颠覆内容生产方式，无论是在C端还是B端，过去我们很多内容生产很多讲创意，讲技术，但真正是创意的寥寥无几，很多都是搬运工。而这一轮AI技术的发展，将彻底颠覆之前的状况，B站百大影视飓风之前一期节目讲帮助一个残疾的兄弟实现运动梦想，使用了非常多传统的影视剪辑和特效技术，成本巨大，但就当前的AI技术而言，要实现相同的效果，或许并不需要那么大的人力物力成本。在B端，很多所谓的编辑、整理、分析工作，本质上都是文字处理的关联工作，在AI的冲击下，这些工作人的成分会逐渐减少，除了人力成本的考虑之外，内容质量和时间效率的考量才是最重要的。

过去半年，我注意到抖音上AI创作的内容比重在不断攀升。以网文故事创作为例，通过大模型生成故事，通过生图、生视频模型完成素材生产，再配合工具自动完成剪辑，连载网文短视频以强烈的AI画风口感和爆爽的故事背景设定，剥夺了很多其他短视频的生成空间。而就这类短视频的制作团队而言，除了成本降低之外，还可以通过推流来实现为其他短剧、游戏平台、购物平台的引流，从而实现盈利。这种AI内容抢占用户流量的现象，在未来只会愈演愈烈。不能说劣币驱逐良币，只能说基于流量为目的的内容推送时代，会被AI所统治，进而有可能出现，人类的内容消费由AI来决定的最终局面。

AI向内容领域的入侵，必然带来某些职业群体的危机，这值得我们关注。从辅助人类提升效率提升生产力的工具，到变成抢人类工作的威胁，AI在现实中的应用范围，应该值得所有人思考。

为什么视听领域是Agent趋势

首先，当下的AI技术本身具有内容增强属性，人们正在利用AI的工具属性改造现有工具，以在内容创作领域更快的产生内容，而内容领域的终极就是视听产品，例如短视频、电影、电视节目、游戏等。这一轮AI技术的发展，就目前来看，在应用领域，将AI作为内容生产工具首当其冲，而技术研究和应用总是相辅相成的，当应用领域对内容生产的需求巨大时，大模型基座的研究也会顺着需求的方向，在内容生产的终极方向——视听领域——不断发力。如此相互作用，类似Stability的SDXL方向，清华研究团队的LCM方向，都为实现实时生成（Realtime Generation）提供了可能性。一旦实时生成技术成熟，那么我在以前多次提到的实时互动视频生成将成为可能。

其次，图像和声音的生成，给大模型团队更多挑战的刺激感，而大模型范式遵循scaling law，只要按照其范式训练大模型，总是能大力出奇迹，看到胜利的曙光，不用担心失败，因此，对于视听大模型的训练团队而言，将来必然获得成就感，而难度摆在那里，未来成功的可能性也大大增强。南开大学和字节跳动合作，提出了StoryDiffusion模型，以较小的训练代价生成一致的漫画和长视频。随着商业应用的竞争白热化，底层模型的研究也愈发激烈。视听模型的潜在商业价值无可估量，甚至一个模型的应用化就是一家独角兽创业公司的全部核心。

最后，视听是人类对世界模型认知的凝固。人类对外界的认知，80%以上来自视听感官，而很明显，即便是盲人摸象，这80%的认知也足够构建起真实世界80%的真相。可见，视听模型的建立，对人类认识这个世界意义重大。从Sora出现开始，对建立AI自动生成的世界模型的追求，成为很多人在AI领域研究的主要动力。把人类认知中，最高形态的部分，通过AI表现出来，在现实世界中也可能存在重要意义，例如对自闭症患者认知世界的理解，对婴幼儿认知教育的辅助等等。正如我们在有些电影中听到的一样，正常人眼中的数字，在文字认知障碍小孩眼中可能就是遨游在宇宙中的怪物一样。通过构建世界模型，我们可以更了解人类自身。

Agent的智能将成为人类的第二大脑

目前，AI在内容领域的颠覆性已经被展现的淋漓尽致，但作为“人工智能”的“智能”部分，并不局限于对人类语言的理解和生成。例如我多次提到的comfyui，其本质上还是利用SD的生成能力，而在智能上的体现，显得非常死板。

人类对AI的最终幻想，是有自我意识和决策能力的超级智能体。最近微软首次推出了VIDiff（Video Instruction Diffusion），一个通用的视频扩散框架，统一的视频理解和编辑。据我所知，剪映团队也正在利用AI升级其视频编辑系统。被称为“人工智能教母”的李飞飞宣称将休学创业，她提出一种可以合理推断出图像和文字在三维环境中的样子的算法，并据此预测采取行动，这种算法概念被称为“空间智能”。而openAI与Figure合作后，公开视频显示该公司最新机器人在有了大模型的支持后，自主决策能力更强。

LLM涌现的推理能力、CoT等，让我们意识到，“思考”这件事本身是有迹可循的。AI智能体的终极形态，是完全自主的思考和决策，以服务于人。但就当下而言，我们对这个部分的开发还很少，我们把大部分精力都投入在内容生产方面，而对开发“第二大脑”的重要程度放在“后面再说”的位置上。最近以付盛为代表的人士提出类似“大模型没必要，小模型刚刚好”这样的理念，他们关注实际应用的商业成本与利润，大于让大模型在思考能力上更进一步。

虽然当下，AI在内容生产领域非常火爆，但是我相信，在工业领域、交通领域、金融领域、安全领域等的AI应用，才意味着作为“工业革命”概念股的成功。而能够作为“人类第二大脑”存在，弥补人类在认知和决策上的不足，才是这一轮Agent发展的目标。

结语

2024年，作为AI元年次年，整个行业发生着巨大的变化。而2024年的国际金融处于冰封期，AI行业没有遇到投资的好时候，却也能如此强劲的发展，在夹缝中投资者们依然看好这一领域。第一次工业革命大约从18世纪末开始，持续到19世纪中叶，大约100年左右的时间；第二次工业革命大约从1870年代开始，到1920年代结束，大约50年不到的时间；第三次科技革命大约从1970年代开始，到1990年代，大约20年左右的时间。科技革命的迭代速度就如宇宙的膨胀速度一样，越来越快，意味着这其中的挑战和机遇将难以想象的一闪而过。被预测为“第四次科技革命”的AI浪潮或许在5年以内就会完成整个底层技术的构建，并在未来几十年中不断开枝散叶。虽然当下在内容领域应用火爆，但我相信，很快，在其他领域，AI也将展现其超凡能力。

2024-05-05 2085

唐霜

AI视听应用逐渐成为Agent发展趋势和机会

大模型成为AI领域统治级范式

AI领域当下发生着哪些有趣的事？

AI将主导内容领域生产

为什么视听领域是Agent趋势

Agent的智能将成为人类的第二大脑

结语

为价值买单，打赏一杯咖啡

声明

关于

生态