在AI视频生成的视频中,如何保持人物说话的口型一致

广告位招租
扫码页面底部二维码联系

Hello小伙伴们好啊!过去两个多月我一【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。直投入在AI视频创作产品Videa未经授权,禁止复制转载。上。用AI来完成创作,也就是AIGC,是【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。过去两年的一个重大课题。随着模型能力的越【本文受版权保护】未经授权,禁止复制转载。来越强,我们现在已经比较容易的制作出基于原创内容,盗版必究。转载请注明出处:www.tangshuang.netAI的视频。但是,即使在今天,我们想要用本文作者:唐霜,转载请注明出处。【本文受版权保护】AI来生成类似电视剧或电影一般的视频,还【作者:唐霜】【版权所有,侵权必究】是很困难的。其中一个非常特殊的点,就是A原创内容,盗版必究。【转载请注明来源】I做的视频,特别是真人视频,口型对不上。

本文作者:唐霜,转载请注明出处。【作者:唐霜】【本文首发于唐霜的博客】

我在B站上看到了AI歌手出道的视频,效果【本文受版权保护】【版权所有】唐霜 www.tangshuang.net非常不错,基于硅基的heygem开源数字原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。人,确实可以做到口型和动作的一致,但是即转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。使如此,AI歌手的MV也经过后期的处理,【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】也就是传统MV的后期处理模式,AI直出还【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】是比较麻烦,况且,我所指的场景,面向更常著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。见的电视剧人物对话剧情。这也是为什么现在【转载请注明来源】【作者:唐霜】的AI视频给人“还不够味儿”的感觉。

【原创内容,转载请注明出处】【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】

现在我看到有很多AI视频,主要分为两种:【版权所有】唐霜 www.tangshuang.net【转载请注明来源】1)动画类,由于动画不需要口型一致,只要【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。嘴巴动和语音一致,就可以被接受,所以现在【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】很多人做AI动画;2)旁白类,人物、场景未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】都是真人真景,但是不能人物说话,一说话就原创内容,盗版必究。【原创内容,转载请注明出处】露馅了。

【关注微信公众号:wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】

一种理想的解决方案是,生成视频的模型支持【转载请注明来源】【本文受版权保护】在具体的时间点,人物可以根据创作者的输入【版权所有】唐霜 www.tangshuang.net【本文受版权保护】说对应的话,也就是说,视频模型,还要把T原创内容,盗版必究。【转载请注明来源】TS的活也干了。这其实对视频模型厂商的要转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。求非常高,因为TTS其实也是一个复杂的训【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net练体系。就目前而言,即使强如google【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。的voe3,也无法直接生成创作者可控的语转载请注明出处:www.tangshuang.net【版权所有,侵权必究】音对白,它生成的视频中人物可以自由随机的【本文受版权保护】【作者:唐霜】说话,但是由创作者精确控制的,还做不到,【本文受版权保护】本文作者:唐霜,转载请注明出处。不知道将来能否做到,还是有点期待。

本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。【本文受版权保护】本文作者:唐霜,转载请注明出处。

另一种解决方案是,通过对口型视频生成模型【版权所有,侵权必究】【关注微信公众号:wwwtangshuangnet】,输入一段视频和一段语言音频,生成最终的未经授权,禁止复制转载。【本文首发于唐霜的博客】口型一致的视频。这种方案成本低,控制精确【作者:唐霜】【未经授权禁止转载】,扩展性也很强。今天,我们就将详细的阐述本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】这套解决方案。

【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。【转载请注明来源】【作者:唐霜】

1 生成剧情视频序列著作权归作者所有,禁止商业用途转载。

【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。

一部有故事的短片,我们会用“分镜”方法论【作者:唐霜】【版权所有】唐霜 www.tangshuang.net来获得镜头序列,并得到分镜视频。这些视频【作者:唐霜】转载请注明出处:www.tangshuang.net连起来,就是我们想要的剧情过程。

原创内容,盗版必究。【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。

【原创内容,转载请注明出处】【版权所有,侵权必究】未经授权,禁止复制转载。【原创内容,转载请注明出处】

一组镜头的视频形成一个序列。按照时间顺序本文版权归作者所有,未经授权不得转载。【本文受版权保护】串联的镜头序列,经过合成,就得到了这组镜转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】头的视频。

转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】

2 合成语音,插入字幕本文版权归作者所有,未经授权不得转载。

【本文受版权保护】未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net

同时,我们使用TTS技术,对每一个镜头中【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。的人物赋予对话、声音。

转载请注明出处:www.tangshuang.net【版权所有,侵权必究】【作者:唐霜】

【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】

以及每一段语音,如何是TTS生成的,则可【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net以直接将其文本作为字幕。

【未经授权禁止转载】【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。

需要注意的是,语音常常是不连续的,因为整转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。个视频并不是时时刻刻都在说话。

【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】【原创内容,转载请注明出处】未经授权,禁止复制转载。

3 口型同步原创内容,盗版必究。

原创内容,盗版必究。【转载请注明来源】本文版权归作者所有,未经授权不得转载。

口型同步有3种方案:1)人物图片+语音;原创内容,盗版必究。转载请注明出处:www.tangshuang.net2)含有人物的视频+语音;3)数字人技术【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。。基于人物图片+语音来同步口型,好处是简【转载请注明来源】未经授权,禁止复制转载。单方便,但是缺点很明显,大部分该类对口型本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。的效果都是最多人的头动,无法做到整个人全转载请注明出处:www.tangshuang.net【转载请注明来源】身合理的动作,同时,图片内人物的背景也不【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。会动,因此,可以说是一眼假。数字人技术不本文作者:唐霜,转载请注明出处。【作者:唐霜】仅可以做到口型一致,而且人物说话时的表情【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。、手势动作都能非常自然,然而在我们生成短本文作者:唐霜,转载请注明出处。原创内容,盗版必究。视频时存在与短视频故事背景融合的问题,目【转载请注明来源】著作权归作者所有,禁止商业用途转载。前还无法在我们AI生成视频领域使用。

本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。

已生成好的视频+语音来实现口型同步,在目本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。前来说是最稳妥的方案。

【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】【版权所有,侵权必究】原创内容,盗版必究。

【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net

我们只需要把上图中红框内的视频和音频整合【本文受版权保护】【关注微信公众号:wwwtangshuangnet】在一起,利用对口型的模型进行新视频的生成【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。,就可以做到目前来说效果最好。

【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】

4 细节问题与解决【原创不易,请尊重版权】

原创内容,盗版必究。【本文受版权保护】【访问 www.tangshuang.net 获取更多精彩内容】

虽然我们只需要上传视频+音频,就可以让对【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。口型的大模型生成新视频,听上去非常简单,本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。然而在实际视频制作的场景下,还是有很多细【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。节问题需要解决。

未经授权,禁止复制转载。【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。【作者:唐霜】

a.多人物【原创不易,请尊重版权】

转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net

在同一视频中,可能存在多个人物,此时AI未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。就无法区分到底是应该让哪一个人物来同步口本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】型。目前我所知的,AI会挑选视频中出现的【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。第一个人作为口型同步的人物。如果想控制口【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。型同步的人物,我们可以向AI提交一张模板【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。人物的画像,这样,AI就会通过画像去匹配未经授权,禁止复制转载。未经授权,禁止复制转载。视频画面中的人物,并且让该人物开口说话,【本文首发于唐霜的博客】原创内容,盗版必究。而不会处理其他人物。

本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。

那么,如果我想让视频中的多个人物都开口说本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】话呢?

【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】

此时,我们就要巧妙的引用人物参考图的功能【原创内容,转载请注明出处】原创内容,盗版必究。。我们需要进行多次操作,第一次,上传原始【版权所有,侵权必究】未经授权,禁止复制转载。视频,人物A的画像,人物A说话的语音,然【作者:唐霜】【作者:唐霜】后合成,之后,我们会得到人物A口型同步的【本文首发于唐霜的博客】【未经授权禁止转载】视频,我们标记为视频A。接下来,我们进行【未经授权禁止转载】本文作者:唐霜,转载请注明出处。第二次操作,这次,我们上车视频A,人物B【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。的画像,人物B说话的语音,然后合成,之后著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】,我们会得到人物B口型同步的视频,标记为【版权所有,侵权必究】【版权所有,侵权必究】视频B。此刻,由于视频A中,人物A的口型【作者:唐霜】本文版权归作者所有,未经授权不得转载。已经同步好了,所以,视频B中,人物AB的未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。口型都对上了。如果还有更多人,则按此方法【原创内容,转载请注明出处】未经授权,禁止复制转载。继续迭代。

【原创内容,转载请注明出处】未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】

b.音画不同步【作者:唐霜】

未经授权,禁止复制转载。【版权所有,侵权必究】【原创内容,转载请注明出处】

当我们想让视频中的人物口型同步时,我们还【本文受版权保护】【访问 www.tangshuang.net 获取更多精彩内容】需要注意人物开始说话的时间点。例如有一段【版权所有,侵权必究】【版权所有,侵权必究】视频,人物在一开始是不说话的,直到后面才【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】开始说话,如下:

本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】【作者:唐霜】

本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。

在这个视频中,人物一开始是表情变化,然后【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】才开始说话。而我们使用TTS生成的语音,著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】会直接上来就开始说话。此时就会音画不同步【转载请注明来源】未经授权,禁止复制转载。

【原创不易,请尊重版权】【版权所有,侵权必究】原创内容,盗版必究。【版权所有,侵权必究】

由于我们已经生成好了视频序列,我们已经在【本文首发于唐霜的博客】原创内容,盗版必究。时间上,让视频获得了连续性,因此,我们最【原创不易,请尊重版权】【原创不易,请尊重版权】好不要去改变视频的时长,否则牵一发而动全【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。身。那么,我们就需要对TTS生成的音频进本文版权归作者所有,未经授权不得转载。【本文受版权保护】行剪辑,在适当的时间点才开始说话,这样才【版权所有】唐霜 www.tangshuang.net【本文受版权保护】能达到我们视频中先做表情后说话的效果。

原创内容,盗版必究。【转载请注明来源】【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。

而在Videa中,你完全不需要自己去做这【原创不易,请尊重版权】【原创不易,请尊重版权】件事,Videa会自己根据视频、音频在时著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】间轴上的时间差,自动补上空音。

本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】【版权所有,侵权必究】

c.跨视频语音原创内容,盗版必究。

本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】未经授权,禁止复制转载。【本文受版权保护】

有些特殊镜头,我们要使用多个视频才能把整【作者:唐霜】原创内容,盗版必究。个镜头表达完整。而如果在这个镜头内有人说本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】话,且不同视频看到人物的角度不同。而由于本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。该人物说话是连续的,所以我们只会生成一段【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。TTS合成语音。此时,就会遇到跨视频语音转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】的情况,也就是一段音频对应多段视频。

【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net

本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】

例如上面这个镜头,就是由两段视频组成的,【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号:wwwtangshuangnet】但是音频却是连通的(有两段音频是因为两个【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】人在同时说话)。

【版权所有,侵权必究】【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。

要解决这个问题有好几个方法,一种是把两段【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net视频合成为一段视频后再来处理,另一种是把未经授权,禁止复制转载。【本文首发于唐霜的博客】语音拆分为多段后处理。两种方法都可以,没本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。有优劣。

【未经授权禁止转载】【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net

结语转载请注明出处:www.tangshuang.net

【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net【作者:唐霜】【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。

本文从原理层面,阐述了在AI视频制作中,【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】如何实现人物口型同步的能力,以及在过程中著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。可能存在的细节问题。不同的AI视频制作工未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】具,它们各自在不同的功能点上各有不同,并著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。没有绝对的优劣。本文的方案,不仅灵活通用【原创内容,转载请注明出处】【版权所有,侵权必究】,而且成本也比较低。如果你在实践过程中遇【本文受版权保护】【原创内容,转载请注明出处】到问题,可以在下方留言,一起讨论。

著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net【未经授权禁止转载】

2025-07-03 2624

为价值买单,打赏一杯咖啡

本文价值26.24RMB