在AI视频生成的视频中，如何保持人物说话的口型一致-唐霜

Hello小伙伴们好啊！过去两个多月我一著作权归作者所有，禁止商业用途转载。本文版权归作者所有，未经授权不得转载。直投入在AI视频创作产品Videa上。用AI来完成创作，也就是AIGC，是【关注微信公众号：wwwtangshuangnet】【未经授权禁止转载】过去两年的一个重大课题。随着模型能力的越【关注微信公众号：wwwtangshuangnet】原创内容，盗版必究。来越强，我们现在已经比较容易的制作出基于【原创不易，请尊重版权】【关注微信公众号：wwwtangshuangnet】AI的视频。但是，即使在今天，我们想要用【原创内容，转载请注明出处】【原创内容，转载请注明出处】AI来生成类似电视剧或电影一般的视频，还转载请注明出处：www.tangshuang.net转载请注明出处：www.tangshuang.net是很困难的。其中一个非常特殊的点，就是A原创内容，盗版必究。【作者：唐霜】I做的视频，特别是真人视频，口型对不上。

【未经授权禁止转载】转载请注明出处：www.tangshua著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。ng.net

我在B站上看到了AI歌手出道的视频，效果【本文受版权保护】【原创不易，请尊重版权】非常不错，基于硅基的heygem开源数字【版权所有】唐霜 www.tangshuang.net原创内容，盗版必究。人，确实可以做到口型和动作的一致，但是即著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net使如此，AI歌手的MV也经过后期的处理，【关注微信公众号：wwwtangshuangnet】【作者：唐霜】也就是传统MV的后期处理模式，AI直出还本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】是比较麻烦，况且，我所指的场景，面向更常【转载请注明来源】著作权归作者所有，禁止商业用途转载。见的电视剧人物对话剧情。这也是为什么现在转载请注明出处：www.tangshuang.net【转载请注明来源】的AI视频给人“还不够味儿”的感觉。

现在我看到有很多AI视频，主要分为两种：【原创不易，请尊重版权】【作者：唐霜】1）动画类，由于动画不需要口型一致，只要【作者：唐霜】【关注微信公众号：wwwtangshuangnet】嘴巴动和语音一致，就可以被接受，所以现在【本文受版权保护】【转载请注明来源】很多人做AI动画；2）旁白类，人物、场景本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。都是真人真景，但是不能人物说话，一说话就【原创不易，请尊重版权】未经授权，禁止复制转载。露馅了。

【转载请注明来源】【关注微信公众号：wwwtangshua【关注微信公众号：wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】ngnet】未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。

一种理想的解决方案是，生成视频的模型支持本文版权归作者所有，未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】在具体的时间点，人物可以根据创作者的输入本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】说对应的话，也就是说，视频模型，还要把T原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】TS的活也干了。这其实对视频模型厂商的要【本文首发于唐霜的博客】【关注微信公众号：wwwtangshuangnet】求非常高，因为TTS其实也是一个复杂的训【关注微信公众号：wwwtangshuangnet】【原创不易，请尊重版权】练体系。就目前而言，即使强如google本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net的voe3，也无法直接生成创作者可控的语【本文受版权保护】本文作者：唐霜，转载请注明出处。音对白，它生成的视频中人物可以自由随机的【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】说话，但是由创作者精确控制的，还做不到，原创内容，盗版必究。【版权所有，侵权必究】不知道将来能否做到，还是有点期待。

本文作者：唐霜，转载请注明出处。【转载请注明来源】

另一种解决方案是，通过对口型视频生成模型本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】，输入一段视频和一段语言音频，生成最终的转载请注明出处：www.tangshuang.net【转载请注明来源】口型一致的视频。这种方案成本低，控制精确未经授权，禁止复制转载。【本文受版权保护】，扩展性也很强。今天，我们就将详细的阐述转载请注明出处：www.tangshuang.net【本文受版权保护】这套解决方案。

1 生成剧情视频序列

一部有故事的短片，我们会用“分镜”方法论【关注微信公众号：wwwtangshuangnet】【原创内容，转载请注明出处】来获得镜头序列，并得到分镜视频。这些视频本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。连起来，就是我们想要的剧情过程。

本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】

一组镜头的视频形成一个序列。按照时间顺序转载请注明出处：www.tangshuang.net【原创不易，请尊重版权】串联的镜头序列，经过合成，就得到了这组镜本文作者：唐霜，转载请注明出处。【作者：唐霜】头的视频。

【本文受版权保护】【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。

2 合成语音，插入字幕

同时，我们使用TTS技术，对每一个镜头中【关注微信公众号：wwwtangshuangnet】原创内容，盗版必究。的人物赋予对话、声音。

【关注微信公众号：wwwtangshua【本文受版权保护】【原创内容，转载请注明出处】ngnet】原创内容，盗版必究。

本文作者：唐霜，转载请注明出处。【本文受版权保护】原创内容，盗版必究。

以及每一段语音，如何是TTS生成的，则可本文作者：唐霜，转载请注明出处。原创内容，盗版必究。以直接将其文本作为字幕。

需要注意的是，语音常常是不连续的，因为整本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。个视频并不是时时刻刻都在说话。

3 口型同步

口型同步有3种方案：1）人物图片+语音；本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。2）含有人物的视频+语音；3）数字人技术本文版权归作者所有，未经授权不得转载。原创内容，盗版必究。。基于人物图片+语音来同步口型，好处是简【本文受版权保护】【访问 www.tangshuang.net 获取更多精彩内容】单方便，但是缺点很明显，大部分该类对口型著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshuangnet】的效果都是最多人的头动，无法做到整个人全未经授权，禁止复制转载。【转载请注明来源】身合理的动作，同时，图片内人物的背景也不【本文受版权保护】【未经授权禁止转载】会动，因此，可以说是一眼假。数字人技术不原创内容，盗版必究。原创内容，盗版必究。仅可以做到口型一致，而且人物说话时的表情【本文首发于唐霜的博客】【未经授权禁止转载】、手势动作都能非常自然，然而在我们生成短【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。视频时存在与短视频故事背景融合的问题，目本文版权归作者所有，未经授权不得转载。【转载请注明来源】前还无法在我们AI生成视频领域使用。

本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。

已生成好的视频+语音来实现口型同步，在目【关注微信公众号：wwwtangshuangnet】【关注微信公众号：wwwtangshuangnet】前来说是最稳妥的方案。

本文版权归作者所有，未经授权不得转载。原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。

未经授权，禁止复制转载。【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。

我们只需要把上图中红框内的视频和音频整合未经授权，禁止复制转载。未经授权，禁止复制转载。在一起，利用对口型的模型进行新视频的生成原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。，就可以做到目前来说效果最好。

【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。

4 细节问题与解决

虽然我们只需要上传视频+音频，就可以让对原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】口型的大模型生成新视频，听上去非常简单，原创内容，盗版必究。转载请注明出处：www.tangshuang.net然而在实际视频制作的场景下，还是有很多细【本文首发于唐霜的博客】【本文首发于唐霜的博客】节问题需要解决。

a.多人物

在同一视频中，可能存在多个人物，此时AI【作者：唐霜】【关注微信公众号：wwwtangshuangnet】就无法区分到底是应该让哪一个人物来同步口【版权所有】唐霜 www.tangshuang.net【作者：唐霜】型。目前我所知的，AI会挑选视频中出现的【未经授权禁止转载】【版权所有，侵权必究】第一个人作为口型同步的人物。如果想控制口【原创不易，请尊重版权】【版权所有】唐霜 www.tangshuang.net型同步的人物，我们可以向AI提交一张模板原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。人物的画像，这样，AI就会通过画像去匹配原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】视频画面中的人物，并且让该人物开口说话，【本文受版权保护】本文版权归作者所有，未经授权不得转载。而不会处理其他人物。

著作权归作者所有，禁止商业用途转载。【原创不易，请尊重版权】

那么，如果我想让视频中的多个人物都开口说本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。话呢？

著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshua【作者：唐霜】转载请注明出处：www.tangshuang.netngnet】

此时，我们就要巧妙的引用人物参考图的功能【原创内容，转载请注明出处】【转载请注明来源】。我们需要进行多次操作，第一次，上传原始【本文首发于唐霜的博客】【原创不易，请尊重版权】视频，人物A的画像，人物A说话的语音，然本文版权归作者所有，未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】后合成，之后，我们会得到人物A口型同步的【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】视频，我们标记为视频A。接下来，我们进行本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。第二次操作，这次，我们上车视频A，人物B【作者：唐霜】【作者：唐霜】的画像，人物B说话的语音，然后合成，之后未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。，我们会得到人物B口型同步的视频，标记为【原创不易，请尊重版权】【作者：唐霜】视频B。此刻，由于视频A中，人物A的口型未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】已经同步好了，所以，视频B中，人物AB的【关注微信公众号：wwwtangshuangnet】未经授权，禁止复制转载。口型都对上了。如果还有更多人，则按此方法【未经授权禁止转载】转载请注明出处：www.tangshuang.net继续迭代。

原创内容，盗版必究。【转载请注明来源】【本文受版权保护】【关注微信公众号：wwwtangshua【未经授权禁止转载】【原创不易，请尊重版权】ngnet】

b.音画不同步

原创内容，盗版必究。未经授权，禁止复制转载。

【转载请注明来源】【关注微信公众号：wwwtangshua著作权归作者所有，禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】ngnet】本文版权归作者所有，未经授权不得转载。

【本文首发于唐霜的博客】转载请注明出处：www.tangshua本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。ng.net【本文首发于唐霜的博客】原创内容，盗版必究。

【原创内容，转载请注明出处】转载请注明出处：www.tangshua【本文首发于唐霜的博客】转载请注明出处：www.tangshuang.netng.net【未经授权禁止转载】

由于我们已经生成好了视频序列，我们已经在著作权归作者所有，禁止商业用途转载。【本文受版权保护】时间上，让视频获得了连续性，因此，我们最原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.net好不要去改变视频的时长，否则牵一发而动全【版权所有，侵权必究】转载请注明出处：www.tangshuang.net身。那么，我们就需要对TTS生成的音频进著作权归作者所有，禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net行剪辑，在适当的时间点才开始说话，这样才本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net能达到我们视频中先做表情后说话的效果。

【本文首发于唐霜的博客】【作者：唐霜】【未经授权禁止转载】

而在Videa中，你完全不需要自己去做这转载请注明出处：www.tangshuang.net本文作者：唐霜，转载请注明出处。件事，Videa会自己根据视频、音频在时【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】间轴上的时间差，自动补上空音。

本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。【转载请注明来源】

c.跨视频语音

【关注微信公众号：wwwtangshua本文版权归作者所有，未经授权不得转载。【转载请注明来源】ngnet】【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。【访问 www.tangshuang.n原创内容，盗版必究。【未经授权禁止转载】et 获取更多精彩内容】

有些特殊镜头，我们要使用多个视频才能把整【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。个镜头表达完整。而如果在这个镜头内有人说本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。话，且不同视频看到人物的角度不同。而由于【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。该人物说话是连续的，所以我们只会生成一段著作权归作者所有，禁止商业用途转载。【本文首发于唐霜的博客】TTS合成语音。此时，就会遇到跨视频语音本文作者：唐霜，转载请注明出处。转载请注明出处：www.tangshuang.net的情况，也就是一段音频对应多段视频。

例如上面这个镜头，就是由两段视频组成的，【原创内容，转载请注明出处】本文作者：唐霜，转载请注明出处。但是音频却是连通的（有两段音频是因为两个【本文首发于唐霜的博客】【未经授权禁止转载】人在同时说话）。

【原创内容，转载请注明出处】未经授权，禁止复制转载。转载请注明出处：www.tangshua【原创内容，转载请注明出处】【本文受版权保护】ng.net

结语

本文从原理层面，阐述了在AI视频制作中，【未经授权禁止转载】【未经授权禁止转载】如何实现人物口型同步的能力，以及在过程中原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.net可能存在的细节问题。不同的AI视频制作工著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshuangnet】具，它们各自在不同的功能点上各有不同，并【转载请注明来源】【作者：唐霜】没有绝对的优劣。本文的方案，不仅灵活通用【访问 www.tangshuang.net 获取更多精彩内容】【版权所有，侵权必究】，而且成本也比较低。如果你在实践过程中遇本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】到问题，可以在下方留言，一起讨论。

未经授权，禁止复制转载。【关注微信公众号：wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】【作者：唐霜】未经授权，禁止复制转载。【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】【版权所有，侵权必究】未经授权，禁止复制转载。【原创内容，转载请注明出处】本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】未经授权，禁止复制转载。著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。转载请注明出处：www.tangshuang.net原创内容，盗版必究。原创内容，盗版必究。【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。

2025-07-03 2854

唐霜

在AI视频生成的视频中，如何保持人物说话的口型一致

1 生成剧情视频序列

2 合成语音，插入字幕

3 口型同步

4 细节问题与解决

结语

为价值买单，打赏一杯咖啡

声明

关于

生态