这是我发布的最技术自豪的一个产品，价值意义感动我自己！-唐霜

朋友们好呀，好久没有写博客了，今天我终于【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。完成了自己酝酿了小半年，最终发布的产品，【本文受版权保护】未经授权，禁止复制转载。这可能是我这半年以来，最有成就感的一次，【转载请注明来源】【转载请注明来源】虽然目前它还没有开始盈利，但是，在技术上转载请注明出处：www.tangshuang.net【作者：唐霜】，我已经跑通了各种技术门槛，因此，已经做【版权所有，侵权必究】【原创内容，转载请注明出处】到心里坦然，将来，我可以快速启动和发布相原创内容，盗版必究。【原创内容，转载请注明出处】关功能的产品了。

【本文受版权保护】著作权归作者所有，禁止商业用途转载。【未经授权禁止转载】

产品演示【原创不易，请尊重版权】

【原创内容，转载请注明出处】【本文首发于唐霜的博客】【关注微信公众号：wwwtangshuangnet】

是的，这是一个将视频翻译为目标语言的产品【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】。它的主要使用场景是，让通过短视频来进行本文作者：唐霜，转载请注明出处。【版权所有，侵权必究】产品种草、推广、获客的商户，可以以较低的著作权归作者所有，禁止商业用途转载。【本文受版权保护】成本，将视频翻译为目标语言的视频，从而，【未经授权禁止转载】原创内容，盗版必究。可以投放到目标市场最流行的短视频平台上。【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】这对想要进入跨境电商领域的商户们而言，具本文版权归作者所有，未经授权不得转载。转载请注明出处：www.tangshuang.net有非常省钱的现实意义。

而对我而言，在实现产品过程中，解决了非常【关注微信公众号：wwwtangshuangnet】本文作者：唐霜，转载请注明出处。多重要的技术问题，这对我来说也非常的有意【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】义。从目前市面上的产品而言，也有类似的竞【关注微信公众号：wwwtangshuangnet】【版权所有，侵权必究】品，或许它们在网站使用体验上看上去很专业未经授权，禁止复制转载。【作者：唐霜】，但是没有我便宜。在我这里，最低只需要用原创内容，盗版必究。【版权所有，侵权必究】2块钱，就可以完成一个16秒视频翻译的完【未经授权禁止转载】【本文首发于唐霜的博客】整周期。

技术难点解析【作者：唐霜】

【本文首发于唐霜的博客】【转载请注明来源】【转载请注明来源】【本文受版权保护】本文作者：唐霜，转载请注明出处。

这里面其实有非常多关于视频翻译到目标语言【版权所有，侵权必究】【关注微信公众号：wwwtangshuangnet】的技术难点，接下来，我就会一一详解这些技未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net术难点。我只会粗劣的介绍一下这些难点的情未经授权，禁止复制转载。【版权所有】唐霜 www.tangshuang.net况以及解决的思路，你不可能完整的从我这篇【转载请注明来源】【关注微信公众号：wwwtangshuangnet】文章获得细节代码，但是，能够获得思路分享转载请注明出处：www.tangshuang.net【原创内容，转载请注明出处】，已经非常棒的一件事了。

从视频到字幕【关注微信公众号：wwwtangshuangnet】

【本文受版权保护】【本文受版权保护】【原创内容，转载请注明出处】【未经授权禁止转载】

在剪映（字节旗下的视频剪辑）这款软件中，【未经授权禁止转载】著作权归作者所有，禁止商业用途转载。有一个小功能，是从视频中自动获得字幕。这【原创不易，请尊重版权】转载请注明出处：www.tangshuang.net个功能原本是免费的，但是随着剪映大面积商【本文受版权保护】本文作者：唐霜，转载请注明出处。业化后，它成为了付费功能，必须购买昂贵的【未经授权禁止转载】【未经授权禁止转载】会员才能使用。这个功能可以帮助创作者，较未经授权，禁止复制转载。【本文受版权保护】为精准的把字幕放到视频底部。注意，我使用本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net了“较为精准”的表述，因为它并不精准。

这里的难点并不在于识别声音为字幕文本本身【作者：唐霜】【访问 www.tangshuang.net 获取更多精彩内容】，而在于，如何能够准确的对齐到时间戳。

这里其实包含两个更深入的问题：未经授权，禁止复制转载。

如何获得时间戳对应的字幕信息？原创内容，盗版必究。

【本文首发于唐霜的博客】

【访问 www.tangshuang.net 获取更多精彩内容】

如何进行断句？原创内容，盗版必究。

著作权归作者所有，禁止商业用途转载。

本文版权归作者所有，未经授权不得转载。

著作权归作者所有，禁止商业用途转载。

其实，这两个问题都是非常难解决的。转载请注明出处：www.tangshuang.net

我们可以利用 openAI 的 whis【作者：唐霜】【作者：唐霜】per 模型来识别语音，并获得时间戳。然【本文受版权保护】本文版权归作者所有，未经授权不得转载。而，whisper 对中文的支持并不很好【版权所有，侵权必究】原创内容，盗版必究。，它的识别存在误差，比如，本来应该是两句转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。话的，被放在了一个句子里，或者在一个句子本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。里把下一个句子里的第一个字抢了过来。另外【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net，你无法通过 whisper 的结果来决【未经授权禁止转载】【作者：唐霜】定如何断句。

【访问 www.tangshuang.net 获取更多精彩内容】【原创不易，请尊重版权】本文版权归作者所有，未经授权不得转载。

再拿到结果后，我们再通过前端的编辑技术，【作者：唐霜】【版权所有】唐霜 www.tangshuang.net将字幕与视频进行合并。作为前端开发老攻城本文作者：唐霜，转载请注明出处。【转载请注明来源】狮，我熟练于这种技术，简单高效且免费，而转载请注明出处：www.tangshuang.net【原创不易，请尊重版权】如果技术不够的同学，也可以选择接入第三方【转载请注明来源】转载请注明出处：www.tangshuang.net的合成服务，把视频和字幕SRT上传，然后未经授权，禁止复制转载。未经授权，禁止复制转载。得到合成后的带字幕视频。

未经授权，禁止复制转载。【未经授权禁止转载】本文作者：唐霜，转载请注明出处。【未经授权禁止转载】

高亮字幕原创内容，盗版必究。

这是tiktok上流行的一种字幕形式，把【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net视频当前正在播放的字幕进行高亮化处理，将未经授权，禁止复制转载。【未经授权禁止转载】当前发音的词语进行高亮，而且居中在屏幕中【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。间。我刷tiktok，很多对着屏幕口播的【转载请注明来源】本文作者：唐霜，转载请注明出处。视频，都是这种字幕。

本文作者：唐霜，转载请注明出处。【本文受版权保护】【未经授权禁止转载】本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】

高亮字幕的技术难度比直接生成字幕的难度又未经授权，禁止复制转载。【作者：唐霜】高了很多。
【关注微信公众号：wwwtangshuangnet】【作者：唐霜】它不仅要求你可以完成字幕的插入，还要求本文版权归作者所有，未经授权不得转载。【转载请注明来源】在单词级别时间戳上有较高的精度。

【本文首发于唐霜的博客】本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】【关注微信公众号：wwwtangshuangnet】

解决思路是，开启whisper词级时间戳【作者：唐霜】【原创内容，转载请注明出处】，并通过训练好的LLM来完成精度优化，然【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。后以单词的时间戳作为当前展示的时间戳，但【原创内容，转载请注明出处】【本文首发于唐霜的博客】是展示的文本是当前时间戳连接前后两个单词【未经授权禁止转载】本文版权归作者所有，未经授权不得转载。。这样，我们就可以用同一套代码逻辑来渲染【转载请注明来源】本文版权归作者所有，未经授权不得转载。字幕，再稍加改造字体渲染部分，就可以高亮【版权所有，侵权必究】【作者：唐霜】渲染单个单词。

【本文首发于唐霜的博客】【原创内容，转载请注明出处】【原创不易，请尊重版权】原创内容，盗版必究。

中英文字幕同屏本文作者：唐霜，转载请注明出处。

这种在外语电影中非常常见，但是其实在短视本文作者：唐霜，转载请注明出处。转载请注明出处：www.tangshuang.net频领域比较少见。因此，这其实是一项技术挑未经授权，禁止复制转载。【原创内容，转载请注明出处】战。

【本文受版权保护】本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。【本文受版权保护】【本文受版权保护】

【访问 www.tangshuang.net 获取更多精彩内容】原创内容，盗版必究。转载请注明出处：www.tangshuang.net

【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。【本文受版权保护】【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。

即决思路有两点：本文版权归作者所有，未经授权不得转载。

未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】原创内容，盗版必究。

通过训练LLM来解决精度对齐和词句的尽可【本文首发于唐霜的博客】原创内容，盗版必究。能对齐问题

【转载请注明来源】

通过错位展示来解决不同语言语序时间戳错位【转载请注明来源】【本文受版权保护】问题

著作权归作者所有，禁止商业用途转载。

本文作者：唐霜，转载请注明出处。

【关注微信公众号：wwwtangshuangnet】

简单展开说下错位展示的思路。也就是，在字【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net幕中，同一句中文在展示的时候，英文字幕会未经授权，禁止复制转载。【原创内容，转载请注明出处】进行推进，所谓“奇变偶不变”的效果。而最【转载请注明来源】本文版权归作者所有，未经授权不得转载。终效果则是，似乎中文和英文字幕是自己走自【作者：唐霜】【原创不易，请尊重版权】己的，两者同时一前一后并肩走。

【关注微信公众号：wwwtangshuangnet】【关注微信公众号：wwwtangshuangnet】【原创不易，请尊重版权】

转载请注明出处：www.tangshuang.net【转载请注明来源】【本文受版权保护】著作权归作者所有，禁止商业用途转载。

---|-------|--|
--|---|-----|-|

【转载请注明来源】著作权归作者所有，禁止商业用途转载。【本文受版权保护】

--|-|--|----||-|
--|-|--|----||-|

通过这一方案，无论哪一方的观众，都能准确著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net捕获当前视频说话的意思。

本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】

语音翻译【转载请注明来源】

本文作者：唐霜，转载请注明出处。【本文受版权保护】【转载请注明来源】转载请注明出处：www.tangshuang.net

简单讲，就是将中文配音的视频，变为英文配本文版权归作者所有，未经授权不得转载。著作权归作者所有，禁止商业用途转载。音的视频。没有真实去解决这个问题时，我们原创内容，盗版必究。【转载请注明来源】会认为，这实在是非常简单，然而当我们真正【未经授权禁止转载】【未经授权禁止转载】去做时，才发现它如此复杂。这件事，让专业【原创不易，请尊重版权】【访问 www.tangshuang.net 获取更多精彩内容】配音演员来做，都是一件很难的事。

有哪些难点呢？让我们来一一过目：本文版权归作者所有，未经授权不得转载。

【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】【关注微信公众号：wwwtangshuangnet】

如何获得相同人物的跨语种配音？【版权所有】唐霜 www.tangshuang.net

【本文受版权保护】

【原创内容，转载请注明出处】

【本文首发于唐霜的博客】

如何确保时间戳对齐？著作权归作者所有，禁止商业用途转载。

【本文首发于唐霜的博客】

【关注微信公众号：wwwtangshuangnet】

本文作者：唐霜，转载请注明出处。

【访问 www.tangshuang.net 获取更多精彩内容】

如何确保声学对齐？【访问 www.tangshuang.net 获取更多精彩内容】

【本文受版权保护】

【关注微信公众号：wwwtangshuangnet】

【原创不易，请尊重版权】

本文版权归作者所有，未经授权不得转载。

第一个问题是三个问题里最简单的，但是难度【本文首发于唐霜的博客】【本文首发于唐霜的博客】仍然非常大。解决思路是，从视频中剖离原始未经授权，禁止复制转载。【未经授权禁止转载】人物的声音，并利用whisper进行识别【版权所有，侵权必究】本文版权归作者所有，未经授权不得转载。，得到拥有时间戳的识别结果，再基于该结果【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。进行文本层面的翻译，再利用TTS对翻译出【访问 www.tangshuang.net 获取更多精彩内容】【原创不易，请尊重版权】来的文本进行语音合成，此时必须选择zer著作权归作者所有，禁止商业用途转载。【原创不易，请尊重版权】o-shot的TTS引擎，使用原始人物声【转载请注明来源】【本文受版权保护】音音频作为克隆对象，这样才能获得相同人的【原创内容，转载请注明出处】【本文受版权保护】跨语种配音。TTS引擎的能力越强，得到的【原创不易，请尊重版权】转载请注明出处：www.tangshuang.net配音结果越逼真。

【原创不易，请尊重版权】著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。

之所以要时间戳对齐，是因为我们的视频中，本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】人物是有动作的，人物说的话和正在做的动作【原创不易，请尊重版权】【转载请注明来源】具有关联性，如果不对齐，就会遇到人物说“【本文受版权保护】原创内容，盗版必究。看，我手里的xx”的时候，画面的人物却把【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。手揣在裤兜里的情况。解决时间戳对齐，是一【未经授权禁止转载】转载请注明出处：www.tangshuang.net门很大的学问，我想这对专业跨语种配音而言本文版权归作者所有，未经授权不得转载。原创内容，盗版必究。，是一项非常有挑战的工作。具体的解决方案【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。也有，例如在时间轴上向两端借时间，或加快【本文受版权保护】原创内容，盗版必究。/放慢语速，或调整画面播放速度来适配声音著作权归作者所有，禁止商业用途转载。【未经授权禁止转载】速度。其中，调整画面播放速度会让画面有慢【原创不易，请尊重版权】【版权所有，侵权必究】帧感，因此，能操作的空间非常小，只能借出本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】一点点时间。在时间轴上向两端借时间，是最【关注微信公众号：wwwtangshuangnet】本文版权归作者所有，未经授权不得转载。可靠的方案，当然，也不能借的太离谱，不然未经授权，禁止复制转载。【本文受版权保护】也会遇到上面说的问题。更好的办法，是配合【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。调整语速一起操作。

【作者：唐霜】【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。

看上去解决了，但是，单纯的调整语速是行不原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】通的，单纯调整语速会使得声调飙高，尖锐的转载请注明出处：www.tangshuang.net本文版权归作者所有，未经授权不得转载。声音令人难以接受。这里我们遇到了最难的问【版权所有】唐霜 www.tangshuang.net【版权所有，侵权必究】题，也就是声学韵律（prosody）的问转载请注明出处：www.tangshuang.net【原创内容，转载请注明出处】题。对于语言而言，其声学韵律系统包含重音转载请注明出处：www.tangshuang.net【版权所有，侵权必究】（stress）、语调（intonati【转载请注明来源】转载请注明出处：www.tangshuang.neton）、节奏（rhythm）、语速（te著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.netmpo）。除非使用专业的工程软件进行人工【版权所有】唐霜 www.tangshuang.net【转载请注明来源】编辑，否则，我们只能在简单编程中，调整语转载请注明出处：www.tangshuang.net【原创内容，转载请注明出处】调（pitch）、语速（speed）和音【原创内容，转载请注明出处】【原创不易，请尊重版权】量（volume），而在我们当前的问题下原创内容，盗版必究。原创内容，盗版必究。，调整音量没有任何作用。

【关注微信公众号：wwwtangshuangnet】【未经授权禁止转载】【关注微信公众号：wwwtangshuangnet】【未经授权禁止转载】

而在前端，虽然我们可以代码来控制，但是我本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net们却不知道具体参数。比如，一段语音，我们本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。打算通过加快它来匹配时间戳，但是我们无法【本文首发于唐霜的博客】转载请注明出处：www.tangshuang.net直接获取pitch参数的值，除非我们人工【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】去听一遍加速后的语音，否则很难。而幸运的未经授权，禁止复制转载。【原创内容，转载请注明出处】是，ffmpeg有些滤镜正好可以处理这个【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net问题，因此这个问题才得以解决。

未经授权，禁止复制转载。【转载请注明来源】【本文首发于唐霜的博客】

【原创内容，转载请注明出处】【转载请注明来源】【原创内容，转载请注明出处】

人脸替换和唇形同步【原创不易，请尊重版权】

将视频投放到其他市场时，换一张符合当地市【本文受版权保护】【原创不易，请尊重版权】场的人脸，能够更切合当地用户的审美。同样本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】的道理，当我们做了语音翻译之后，同步唇形本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】，也可以避免用户看着说太假的尴尬。不过，【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。说起来，这两项看似最复杂的任务，却是整个【原创不易，请尊重版权】本文作者：唐霜，转载请注明出处。实现里最简单的，因为我们只需要依赖第三方本文作者：唐霜，转载请注明出处。转载请注明出处：www.tangshuang.net服务，调用接口即可完成这两项工作。

转载请注明出处：www.tangshuang.net【本文受版权保护】【转载请注明来源】

如何使用？【关注微信公众号：wwwtangshuangnet】

结语【未经授权禁止转载】

著作权归作者所有，禁止商业用途转载。【作者：唐霜】【作者：唐霜】本文版权归作者所有，未经授权不得转载。

实现这个产品的过程其实经历了非常长的时间【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net跨度，很早我就有这个想法，然而在此之前，【未经授权禁止转载】本文版权归作者所有，未经授权不得转载。每一步实现我都遇到一些问题而暂时搁置，直【本文首发于唐霜的博客】【作者：唐霜】到我逐渐掌握了新思路，并且现在市面上的A【原创内容，转载请注明出处】【本文受版权保护】I工具也足够丰富，我才能在两周时间内完成原创内容，盗版必究。【本文首发于唐霜的博客】这个产品。我知道市面上有好几个功能类似的【原创不易，请尊重版权】【转载请注明来源】竞品，我的优势可能就是价格更低。在AI时【转载请注明来源】【作者：唐霜】代，虽然AI已经可以写代码了，但是并非能著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。像人一样充满想象力的去实现产品。AI固然本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。重要，但是人们的想法更重要。

著作权归作者所有，禁止商业用途转载。【本文受版权保护】【原创不易，请尊重版权】著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshuangnet】

【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net【关注微信公众号：wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net【关注微信公众号：wwwtangshuangnet】【版权所有，侵权必究】本文版权归作者所有，未经授权不得转载。【原创内容，转载请注明出处】【未经授权禁止转载】【未经授权禁止转载】本文作者：唐霜，转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】【原创内容，转载请注明出处】原创内容，盗版必究。原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】【未经授权禁止转载】【本文首发于唐霜的博客】【本文受版权保护】转载请注明出处：www.tangshuang.net【本文受版权保护】转载请注明出处：www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号：wwwtangshuangnet】【关注微信公众号：wwwtangshuangnet】【本文首发于唐霜的博客】【本文首发于唐霜的博客】【转载请注明来源】【本文受版权保护】原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.net【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。【未经授权禁止转载】本文作者：唐霜，转载请注明出处。原创内容，盗版必究。未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】【原创不易，请尊重版权】原创内容，盗版必究。转载请注明出处：www.tangshuang.net【版权所有】唐霜 www.tangshuang.net【原创内容，转载请注明出处】原创内容，盗版必究。【版权所有，侵权必究】【版权所有】唐霜 www.tangshuang.net【版权所有，侵权必究】

2025-09-20 1046

唐霜

这是我发布的最技术自豪的一个产品，价值意义感动我自己！

产品演示【原创不易，请尊重版权】

技术难点解析【作者：唐霜】

从视频到字幕【关注微信公众号：wwwtangshuangnet】

高亮字幕原创内容，盗版必究。

中英文字幕同屏本文作者：唐霜，转载请注明出处。

语音翻译【转载请注明来源】

人脸替换和唇形同步【原创不易，请尊重版权】

如何使用？【关注微信公众号：wwwtangshuangnet】

结语【未经授权禁止转载】

为价值买单，打赏一杯咖啡

声明

关于

生态