朋友们好呀,好久没有写博客了,今天我终于【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。完成了自己酝酿了小半年,最终发布的产品,【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】这可能是我这半年以来,最有成就感的一次,【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。虽然目前它还没有开始盈利,但是,在技术上【作者:唐霜】【未经授权禁止转载】,我已经跑通了各种技术门槛,因此,已经做本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net到心里坦然,将来,我可以快速启动和发布相【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】关功能的产品了。
【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】【版权所有】唐霜 www.tangshuang.net产品演示
这是一个什么样的产品呢?我们先来看下效果著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。吧!
【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】【本文首发于唐霜的博客】【版权所有,侵权必究】 著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。是的,这是一个将视频翻译为目标语言的产品【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net。它的主要使用场景是,让通过短视频来进行本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。产品种草、推广、获客的商户,可以以较低的本文作者:唐霜,转载请注明出处。【本文受版权保护】成本,将视频翻译为目标语言的视频,从而,本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】可以投放到目标市场最流行的短视频平台上。【本文受版权保护】本文作者:唐霜,转载请注明出处。这对想要进入跨境电商领域的商户们而言,具原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】有非常省钱的现实意义。
【本文首发于唐霜的博客】【作者:唐霜】【本文首发于唐霜的博客】而对我而言,在实现产品过程中,解决了非常著作权归作者所有,禁止商业用途转载。【本文受版权保护】多重要的技术问题,这对我来说也非常的有意转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。义。从目前市面上的产品而言,也有类似的竞【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。品,或许它们在网站使用体验上看上去很专业【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】,但是没有我便宜。在我这里,最低只需要用【未经授权禁止转载】本文作者:唐霜,转载请注明出处。2块钱,就可以完成一个16秒视频翻译的完【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】整周期。
原创内容,盗版必究。未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net技术难点解析
这里面其实有非常多关于视频翻译到目标语言【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。的技术难点,接下来,我就会一一详解这些技转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】术难点。我只会粗劣的介绍一下这些难点的情本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。况以及解决的思路,你不可能完整的从我这篇【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】文章获得细节代码,但是,能够获得思路分享本文版权归作者所有,未经授权不得转载。【作者:唐霜】,已经非常棒的一件事了。
本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】从视频到字幕
在剪映(字节旗下的视频剪辑)这款软件中,原创内容,盗版必究。【作者:唐霜】有一个小功能,是从视频中自动获得字幕。这【原创内容,转载请注明出处】【作者:唐霜】个功能原本是免费的,但是随着剪映大面积商【转载请注明来源】【原创不易,请尊重版权】业化后,它成为了付费功能,必须购买昂贵的【未经授权禁止转载】原创内容,盗版必究。会员才能使用。这个功能可以帮助创作者,较【未经授权禁止转载】【本文受版权保护】为精准的把字幕放到视频底部。注意,我使用转载请注明出处:www.tangshuang.net【作者:唐霜】了“较为精准”的表述,因为它并不精准。
转载请注明出处:www.tangshuang.net【本文受版权保护】【原创内容,转载请注明出处】【转载请注明来源】这里的难点并不在于识别声音为字幕文本本身【版权所有】唐霜 www.tangshuang.net【本文受版权保护】,而在于,如何能够准确的对齐到时间戳。
【本文受版权保护】转载请注明出处:www.tangshuang.net这里其实包含两个更深入的问题:
未经授权,禁止复制转载。【转载请注明来源】- 如何获得时间戳对应的字幕信息? 【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】
- 如何进行断句? 转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。
其实,这两个问题都是非常难解决的。
未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。我们可以利用 openAI 的 whis本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。per 模型来识别语音,并获得时间戳。然【版权所有,侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】而,whisper 对中文的支持并不很好【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。,它的识别存在误差,比如,本来应该是两句未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net话的,被放在了一个句子里,或者在一个句子【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。里把下一个句子里的第一个字抢了过来。另外本文作者:唐霜,转载请注明出处。【转载请注明来源】,你无法通过 whisper 的结果来决本文作者:唐霜,转载请注明出处。【作者:唐霜】定如何断句。
原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。那么,到底应该如何解决呢?
转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。我这里给一个思路,就是通过训练LLM来解【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。决。我们将whisper的识别结果交给L【关注微信公众号:wwwtangshuangnet】【关注微信公众号:wwwtangshuangnet】LM,从而获得更为精确的结果。
【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。再拿到结果后,我们再通过前端的编辑技术,转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。将字幕与视频进行合并。作为前端开发老攻城【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。狮,我熟练于这种技术,简单高效且免费,而原创内容,盗版必究。【转载请注明来源】如果技术不够的同学,也可以选择接入第三方【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】的合成服务,把视频和字幕SRT上传,然后原创内容,盗版必究。【本文受版权保护】得到合成后的带字幕视频。
著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。高亮字幕
这是tiktok上流行的一种字幕形式,把【作者:唐霜】转载请注明出处:www.tangshuang.net视频当前正在播放的字幕进行高亮化处理,将【本文受版权保护】【转载请注明来源】当前发音的词语进行高亮,而且居中在屏幕中著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】间。我刷tiktok,很多对着屏幕口播的本文作者:唐霜,转载请注明出处。【转载请注明来源】视频,都是这种字幕。
【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】【未经授权禁止转载】【版权所有,侵权必究】高亮字幕的技术难度比直接生成字幕的难度又【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。高了很多。
未经授权,禁止复制转载。
它不仅要求你可以完成字幕的插入,还要求本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。在单词级别时间戳上有较高的精度。
解决思路是,开启whisper词级时间戳著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】,并通过训练好的LLM来完成精度优化,然【本文受版权保护】【版权所有】唐霜 www.tangshuang.net后以单词的时间戳作为当前展示的时间戳,但【作者:唐霜】本文版权归作者所有,未经授权不得转载。是展示的文本是当前时间戳连接前后两个单词【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net。这样,我们就可以用同一套代码逻辑来渲染转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。字幕,再稍加改造字体渲染部分,就可以高亮【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】渲染单个单词。
著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net【本文受版权保护】中英文字幕同屏
这种在外语电影中非常常见,但是其实在短视【版权所有,侵权必究】【原创内容,转载请注明出处】频领域比较少见。因此,这其实是一项技术挑【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】战。
著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】【本文受版权保护】著作权归作者所有,禁止商业用途转载。两种语言同屏的问题在于,中文的说话顺序和【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。英文是反的,英语的从句大部分在后面,因此【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】,当两种语言同屏时,两种文字的意思可能不【未经授权禁止转载】本文作者:唐霜,转载请注明出处。是时时刻刻都对应的。
【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net而更复杂的情况在于,由于英文音节普遍多于【作者:唐霜】【版权所有,侵权必究】中文,这也就意味着,同一句话,英语的音节【未经授权禁止转载】【关注微信公众号:wwwtangshuangnet】会更多,说中文一句话的时间,不够说同等英【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】语一句话的时间。
本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】【转载请注明来源】即决思路有两点:
【作者:唐霜】【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】- 通过训练LLM来解决精度对齐和词句的尽可著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】能对齐问题 未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。
- 通过错位展示来解决不同语言语序时间戳错位【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】问题 【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】【本文首发于唐霜的博客】
简单展开说下错位展示的思路。也就是,在字【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net幕中,同一句中文在展示的时候,英文字幕会【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。进行推进,所谓“奇变偶不变”的效果。而最【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。终效果则是,似乎中文和英文字幕是自己走自【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】己的,两者同时一前一后并肩走。
原创内容,盗版必究。【原创内容,转载请注明出处】【作者:唐霜】转载请注明出处:www.tangshuang.net实现这种效果的方法,就是按照同一时间轴,【转载请注明来源】【关注微信公众号:wwwtangshuangnet】将所有交汇点进行切割,形成多个细分片段,【未经授权禁止转载】未经授权,禁止复制转载。逐一播放。
【作者:唐霜】【版权所有,侵权必究】【原创内容,转载请注明出处】---|-------|--| --|---|-----|-|
变为:
未经授权,禁止复制转载。【未经授权禁止转载】--|-|--|----||-| --|-|--|----||-|
通过这一方案,无论哪一方的观众,都能准确【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。捕获当前视频说话的意思。
本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。不过,单纯从视觉效果来说,其实这种方案并【原创不易,请尊重版权】未经授权,禁止复制转载。不是很好,因为过于跳动的文字,会让人失去【作者:唐霜】著作权归作者所有,禁止商业用途转载。视觉焦点,最后眼睛会有些累。这需要根据实本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。际情况才能下决定。
【转载请注明来源】【原创不易,请尊重版权】语音翻译
简单讲,就是将中文配音的视频,变为英文配本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】音的视频。没有真实去解决这个问题时,我们著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】会认为,这实在是非常简单,然而当我们真正【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。去做时,才发现它如此复杂。这件事,让专业【作者:唐霜】【关注微信公众号:wwwtangshuangnet】配音演员来做,都是一件很难的事。
本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net有哪些难点呢?让我们来一一过目:
本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】【原创不易,请尊重版权】- 如何获得相同人物的跨语种配音? 【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。
- 如何确保时间戳对齐? 原创内容,盗版必究。转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】
- 如何确保声学对齐? 【作者:唐霜】【版权所有】唐霜 www.tangshuang.net【作者:唐霜】【版权所有】唐霜 www.tangshuang.net
第一个问题是三个问题里最简单的,但是难度【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。仍然非常大。解决思路是,从视频中剖离原始【本文受版权保护】【原创不易,请尊重版权】人物的声音,并利用whisper进行识别【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】,得到拥有时间戳的识别结果,再基于该结果本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】进行文本层面的翻译,再利用TTS对翻译出【原创不易,请尊重版权】【本文受版权保护】来的文本进行语音合成,此时必须选择zer【作者:唐霜】【原创不易,请尊重版权】o-shot的TTS引擎,使用原始人物声【未经授权禁止转载】转载请注明出处:www.tangshuang.net音音频作为克隆对象,这样才能获得相同人的【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。跨语种配音。TTS引擎的能力越强,得到的著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net配音结果越逼真。
本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net之所以要时间戳对齐,是因为我们的视频中,【本文首发于唐霜的博客】【转载请注明来源】人物是有动作的,人物说的话和正在做的动作转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】具有关联性,如果不对齐,就会遇到人物说“【原创内容,转载请注明出处】【转载请注明来源】看,我手里的xx”的时候,画面的人物却把著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net手揣在裤兜里的情况。解决时间戳对齐,是一【转载请注明来源】【版权所有】唐霜 www.tangshuang.net门很大的学问,我想这对专业跨语种配音而言【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。,是一项非常有挑战的工作。具体的解决方案未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。也有,例如在时间轴上向两端借时间,或加快【转载请注明来源】未经授权,禁止复制转载。/放慢语速,或调整画面播放速度来适配声音转载请注明出处:www.tangshuang.net【版权所有,侵权必究】速度。其中,调整画面播放速度会让画面有慢本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。帧感,因此,能操作的空间非常小,只能借出【作者:唐霜】【原创不易,请尊重版权】一点点时间。在时间轴上向两端借时间,是最原创内容,盗版必究。【原创不易,请尊重版权】可靠的方案,当然,也不能借的太离谱,不然【转载请注明来源】【关注微信公众号:wwwtangshuangnet】也会遇到上面说的问题。更好的办法,是配合【作者:唐霜】【版权所有,侵权必究】调整语速一起操作。
【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。【版权所有,侵权必究】看上去解决了,但是,单纯的调整语速是行不著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】通的,单纯调整语速会使得声调飙高,尖锐的【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。声音令人难以接受。这里我们遇到了最难的问【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】题,也就是声学韵律(prosody)的问本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net题。对于语言而言,其声学韵律系统包含重音【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】(stress)、语调(intonati【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。on)、节奏(rhythm)、语速(te未经授权,禁止复制转载。【原创不易,请尊重版权】mpo)。除非使用专业的工程软件进行人工【原创内容,转载请注明出处】【本文首发于唐霜的博客】编辑,否则,我们只能在简单编程中,调整语本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。调(pitch)、语速(speed)和音著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net量(volume),而在我们当前的问题下转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】,调整音量没有任何作用。
本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】而在前端,虽然我们可以代码来控制,但是我转载请注明出处:www.tangshuang.net【本文受版权保护】们却不知道具体参数。比如,一段语音,我们原创内容,盗版必究。【未经授权禁止转载】打算通过加快它来匹配时间戳,但是我们无法未经授权,禁止复制转载。原创内容,盗版必究。直接获取pitch参数的值,除非我们人工本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。去听一遍加速后的语音,否则很难。而幸运的【本文受版权保护】未经授权,禁止复制转载。是,ffmpeg有些滤镜正好可以处理这个原创内容,盗版必究。【原创不易,请尊重版权】问题,因此这个问题才得以解决。
本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。这是我在产品实现过程中,遇到的最大障碍。【作者:唐霜】转载请注明出处:www.tangshuang.net这让我意识到,即使AI如此先进的今天,很【版权所有,侵权必究】【未经授权禁止转载】多问题还是需要靠人来解决,人的价值在于创【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】造。
【转载请注明来源】【本文首发于唐霜的博客】人脸替换和唇形同步
将视频投放到其他市场时,换一张符合当地市【版权所有】唐霜 www.tangshuang.net【作者:唐霜】场的人脸,能够更切合当地用户的审美。同样【本文受版权保护】【本文首发于唐霜的博客】的道理,当我们做了语音翻译之后,同步唇形未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net,也可以避免用户看着说太假的尴尬。不过,【未经授权禁止转载】原创内容,盗版必究。说起来,这两项看似最复杂的任务,却是整个著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。实现里最简单的,因为我们只需要依赖第三方【本文受版权保护】本文作者:唐霜,转载请注明出处。服务,调用接口即可完成这两项工作。
转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】如何使用?
首先,你需要进入fguai.com,完成注册登陆后,进入”视频本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net翻译”,之后按照下面视频教程转载请注明出处:www.tangshuang.net原创内容,盗版必究。操作。
【版权所有,侵权必究】【本文受版权保护】【转载请注明来源】未经授权,禁止复制转载。 著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。结语
实现这个产品的过程其实经历了非常长的时间【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。跨度,很早我就有这个想法,然而在此之前,【作者:唐霜】【未经授权禁止转载】每一步实现我都遇到一些问题而暂时搁置,直著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。到我逐渐掌握了新思路,并且现在市面上的A【版权所有,侵权必究】转载请注明出处:www.tangshuang.netI工具也足够丰富,我才能在两周时间内完成【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。这个产品。我知道市面上有好几个功能类似的【本文受版权保护】本文作者:唐霜,转载请注明出处。竞品,我的优势可能就是价格更低。在AI时本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】代,虽然AI已经可以写代码了,但是并非能【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net像人一样充满想象力的去实现产品。AI固然【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】重要,但是人们的想法更重要。
未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net2025-09-20 1291


