2024年TTS技术选型对比评测

广告位招租
扫码页面底部二维码联系

过去半年,随着大厂的加入,TTS领域有了【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】非常大的变化,在以前的文章中,我曾指出S转载请注明出处:www.tangshuang.net原创内容,盗版必究。peech是AIGC领域非常重要的一环,【版权所有,侵权必究】转载请注明出处:www.tangshuang.net它将在众多AIGC领域不可或缺。TTS已本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。经从传统的机器合成音,发展到了自然音阶段原创内容,盗版必究。本文作者:唐霜,转载请注明出处。,当下的TTS项目,追求合成音的自然流畅【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。,口语化、语气、停顿、口头禅、情绪价值等【访问 www.tangshuang.net 获取更多精彩内容】【版权所有,侵权必究】重要因素。过去一段时间,我调研了GPT-【作者:唐霜】【原创不易,请尊重版权】SoVITS, ChatTTS, Cos【未经授权禁止转载】【原创内容,转载请注明出处】yVoice, Fish-Speech等【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。项目,同时对国内大厂云上的语音合成服务进未经授权,禁止复制转载。【转载请注明来源】行了了解,顺带对国外开放了合成接口的创业【转载请注明来源】【版权所有】唐霜 www.tangshuang.net项目进行了试用。本文将详细阐述我所接触到原创内容,盗版必究。本文作者:唐霜,转载请注明出处。的这些TTS项目,以及对它们在接入后是否【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。符合预期做对比评测,以为正在做TTS技术本文作者:唐霜,转载请注明出处。原创内容,盗版必究。选型的朋友提供参考。

【本文首发于唐霜的博客】【转载请注明来源】【未经授权禁止转载】【作者:唐霜】

TTS技术指标原创内容,盗版必究。

【本文首发于唐霜的博客】【作者:唐霜】【版权所有,侵权必究】

在国内有一家叫做ttsmaker的网站,【未经授权禁止转载】转载请注明出处:www.tangshuang.net提供了非常多且免费的语音合成音色,是我认【本文受版权保护】转载请注明出处:www.tangshuang.net为国内目前最为优秀的传统TTS提供方。但【作者:唐霜】【原创不易,请尊重版权】可能由于其内部政策的原因,目前已关闭AP【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】I服务,因此,我们无法将它作为技术备选。本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。在此,需要指出,本文要评测的,是可以作为本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。开发者可以常规接入,作为自己的TTS后端转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。的技术备选,可以是服务商提供基于acce【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】ss_token的API,可以是类似云服著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】务商提供的客户端SDK,也可以是开放源码【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】自己部署为本地服务的,简而言之,如果产品【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net虽好,但作为普通开发者无法接入的(如下文未经授权,禁止复制转载。【未经授权禁止转载】提到的Seed-TTS),不再本文考虑范【原创内容,转载请注明出处】【本文首发于唐霜的博客】围内。

【原创不易,请尊重版权】【本文受版权保护】【转载请注明来源】【版权所有】唐霜 www.tangshuang.net【原创不易,请尊重版权】

我们进行TTS技术选型,一定是服务于我们【转载请注明来源】【版权所有,侵权必究】的应用场景,而不是纯粹追求指标的全面性。本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。从开发者角度,我认为我们要从以下指标去评【版权所有】唐霜 www.tangshuang.net【原创不易,请尊重版权】估对应的备选是否满足我们的需求:

【本文受版权保护】【转载请注明来源】【原创内容,转载请注明出处】
  • 接入的便捷性:如果接入很麻烦,意味着后续原创内容,盗版必究。【版权所有,侵权必究】的维护、升级都需要付出更多的工作
  • 转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】【本文首发于唐霜的博客】【未经授权禁止转载】本文作者:唐霜,转载请注明出处。
  • 效果的出色度:就当下而言,合成语音越接近本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】自然说话,效果越好
  • 【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。未经授权,禁止复制转载。【作者:唐霜】
  • 合成的稳定性:每次输出的效果要具有稳定性【未经授权禁止转载】本文作者:唐霜,转载请注明出处。,声音保持一致,断句、背景电流声、停顿时著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】长等都符合预期
  • 【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】
  • 成本的低廉性本文作者:唐霜,转载请注明出处。
  • 【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】

每一个方面,都会有更多的细节指标来支撑,转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】我会在最后的对比中,把这些细节指标列出来原创内容,盗版必究。转载请注明出处:www.tangshuang.net,让读者可以一目了然。

【未经授权禁止转载】未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net

音色【原创不易,请尊重版权】

【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】原创内容,盗版必究。【作者:唐霜】本文版权归作者所有,未经授权不得转载。

在所有指标中,音色是最重要的指标。不同的本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】模型,在生成效果上,对音色的依赖度都较大【原创不易,请尊重版权】【原创不易,请尊重版权】。有的甚至直接靠音色来决定生成语音的语速本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】、风格和情感。音色可能成为当下的核心话题【原创内容,转载请注明出处】【原创不易,请尊重版权】,虽然从社会学层面,克隆会带来一些伦理问本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net题,但是从技术角度,想要获得具体的应用效【版权所有】唐霜 www.tangshuang.net【转载请注明来源】果,在克隆上下功夫,是目前大部分团队正在未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。努力的方向。

【转载请注明来源】【版权所有,侵权必究】原创内容,盗版必究。【作者:唐霜】【作者:唐霜】

从技术控制的角度,除了音色外,我们希望自【关注微信公众号:wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】己控制情感、说话的风格(人物扮演的角色,【本文受版权保护】【版权所有,侵权必究】例如同一个人,可以扮演家庭主妇、职场女强【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。人、商店老板娘等等)、停顿、口头禅、情感【作者:唐霜】转载请注明出处:www.tangshuang.net强度、音量、语速、语言、音调(低沉或尖叫本文版权归作者所有,未经授权不得转载。【本文受版权保护】)等。只有在技术上我们可以完全独立控制这转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】些参数,我们才能在具体的场景中获得更好的原创内容,盗版必究。【本文首发于唐霜的博客】体验。例如在朗读小说时,不仅要为角色分配【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。音色,而且还要在不同的故事情节中,对角色【作者:唐霜】【版权所有】唐霜 www.tangshuang.net说的话进行情感、风格等的适配。当然,如果【版权所有,侵权必究】【本文受版权保护】这些参数我们完全可控,可以借助大模型来生【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】成朗读脚本。

【本文首发于唐霜的博客】【转载请注明来源】本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】

TTS技术备选介绍【未经授权禁止转载】

【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。

虽然本文试图收集更多技术备选方案,但过多本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】的选项反而可能带来困扰,因此,我只列出相未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】对知名的一些技术选项。

【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。【本文首发于唐霜的博客】【原创不易,请尊重版权】

开源TTS项目转载请注明出处:www.tangshuang.net

【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。

OpenVoice【转载请注明来源】

【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net

可以说,OpenVoice开创了准确克隆本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net人声的时代,它给技术界带来了新的思路。不转载请注明出处:www.tangshuang.net【转载请注明来源】过目前来看,OpenVoice的TTS效【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。果已经远远落后于后起之秀。尽管如此,它依【本文首发于唐霜的博客】【未经授权禁止转载】然是伟大的开源项目。目前出现了了Chat【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】TTS+OpenVoice的组合,Cha【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。tTTS效果出色,但是克隆很逊,因此有这【原创不易,请尊重版权】【转载请注明来源】样的巧妙组合。

原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】未经授权,禁止复制转载。【未经授权禁止转载】

GPT-SoVITS转载请注明出处:www.tangshuang.net

【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】

知名的声音克隆项目,本文作者:唐霜,转载请注明出处。GPT-SoVITS【版权所有】唐霜 www.tangshuang.net可以克隆出音色与原声极为接近的种子,而且原创内容,盗版必究。转载请注明出处:www.tangshuang.net所需的声音长度很短,克隆速度快,推理速度本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。也快,支持中英语言。不过,虽然GPT-S【原创不易,请尊重版权】未经授权,禁止复制转载。oVITS在克隆上能够让输出的声音与原声转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】更像,但是在推理时的自然度不够,能够比较【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net容易听出是AI的合成声。

【版权所有,侵权必究】未经授权,禁止复制转载。【版权所有,侵权必究】原创内容,盗版必究。

近期,GPT-SoVITS发布了2.0版【本文首发于唐霜的博客】【原创不易,请尊重版权】本,在1.0的基础上做了多项提升。但是据【版权所有,侵权必究】【本文受版权保护】社区小伙伴反馈,2.0之后,克隆的声音反【本文首发于唐霜的博客】未经授权,禁止复制转载。而更不像原声了,但是稳定性获得了更好的保【本文首发于唐霜的博客】【版权所有,侵权必究】证。从某种角度讲,我们不应该追求与原声的【本文受版权保护】【作者:唐霜】相似,而应该追求稳定性。

【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。【本文受版权保护】【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】

Fish-Speech未经授权,禁止复制转载。

【转载请注明来源】著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。

相对冷门的TTS开源项目,原创内容,盗版必究。Fish-Speech未经授权,禁止复制转载。附属于大项目Fish Audio,Fis【原创不易,请尊重版权】未经授权,禁止复制转载。h Audio团队部分成员来自GPT-S转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】oVITS,技术上具有一脉相承的意味。

本文作者:唐霜,转载请注明出处。【作者:唐霜】【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。原创内容,盗版必究。

我在测试时,在其space demo中获【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。得的克隆效果不佳,但在其官网克隆则可以获著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】得声音更相似的效果。

著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】

MeloTTS本文作者:唐霜,转载请注明出处。

【转载请注明来源】本文版权归作者所有,未经授权不得转载。【转载请注明来源】【版权所有,侵权必究】【原创不易,请尊重版权】

MeloTTS【作者:唐霜】 是一个由 MyShell AI 开发的原创内容,盗版必究。【本文首发于唐霜的博客】开源、高质量、多语言的文本转语音项目,可转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】以将文本转换成自然流畅的语音输出,并支持【作者:唐霜】转载请注明出处:www.tangshuang.net英语、西班牙语、法语、中文、日语和韩语等未经授权,禁止复制转载。原创内容,盗版必究。多种语言。MeloTTS 特别支持 CP【转载请注明来源】转载请注明出处:www.tangshuang.netU 环境下的实时语音合成,无需依赖 GP【转载请注明来源】著作权归作者所有,禁止商业用途转载。U。

【转载请注明来源】著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】【转载请注明来源】

从体验来讲,MeloTTS 的合成语音只【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net有轻微的机器感,这在开源项目中算是非常优本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】秀。并且文本中的中文、英文和数字都几乎能【原创不易,请尊重版权】【本文首发于唐霜的博客】准确地识别与合成,要说缺点的话就是没有太【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。多的 voice speaker 选项,原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net中文目前只找到了一个女声和一个男声。

【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。【本文受版权保护】【关注微信公众号:wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】

另外值得一提的是,OpenVoice也是著作权归作者所有,禁止商业用途转载。【转载请注明来源】MyShell AI的项目。

本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。【本文受版权保护】本文作者:唐霜,转载请注明出处。

ChatTTS未经授权,禁止复制转载。

本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】

ChatTTS本文作者:唐霜,转载请注明出处。 也是一个开源的文本转语音项目,支持中文【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】和英文。目前来说,是开源社区最活跃的TT未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。S项目,社区出现的ChatTTS For【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。ge项目在原项目等基础上做了很大的提升。【版权所有】唐霜 www.tangshuang.net【转载请注明来源】其生成的效果非常接近真实人生。

著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【本文受版权保护】

不过,其团队出于安全和商业的考虑,开源版【转载请注明来源】【作者:唐霜】本的模型参数较小,且官方特意加入了噪声。

【本文首发于唐霜的博客】原创内容,盗版必究。转载请注明出处:www.tangshuang.net原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net

CosyVoice著作权归作者所有,禁止商业用途转载。

【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】

CosyVoice本文版权归作者所有,未经授权不得转载。是阿里发布的开源模型,附属于大项目Fun【作者:唐霜】【本文受版权保护】AudioLLM。从官方的demo来看,著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】其效果非常接近人声,其效果与ChatTT未经授权,禁止复制转载。【本文受版权保护】S类似,具有情感和口气。同时,其克隆效果原创内容,盗版必究。【未经授权禁止转载】也非常出色,是目前来说,国内最完整最优秀【版权所有,侵权必究】未经授权,禁止复制转载。的TTS开源项目。

转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】

同时,阿里云上也提供了CosyVoice【版权所有,侵权必究】【关注微信公众号:wwwtangshuangnet】的服务,因此,下方就不单独提阿里云服务部著作权归作者所有,禁止商业用途转载。【作者:唐霜】分。

【转载请注明来源】本文版权归作者所有,未经授权不得转载。【本文受版权保护】【版权所有,侵权必究】

闭源TTS服务本文版权归作者所有,未经授权不得转载。

【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】

微软Azure语音合成【版权所有,侵权必究】

转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net

从目前所有云服务公开的情况来看,Azur【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】e的语音合成是最优秀最稳定的选择,它提供【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net了非常多的配置选项,可以帮助开发者在不同【关注微信公众号:wwwtangshuangnet】【关注微信公众号:wwwtangshuangnet】场景实现自己的效果。而且,网上有很多攻略原创内容,盗版必究。【转载请注明来源】,可以白嫖其免费额度。

原创内容,盗版必究。【原创内容,转载请注明出处】【版权所有,侵权必究】原创内容,盗版必究。

TTSMaker【本文受版权保护】

【未经授权禁止转载】【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net

TTSMaker可能是基于Azure语音本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。合成服务进行二次开发后的产品,其效果和性【作者:唐霜】著作权归作者所有,禁止商业用途转载。能非常令人惊艳。它提供了非常多的音色,也【本文受版权保护】【版权所有】唐霜 www.tangshuang.net提供了长文本TTS,免费额度也足够普通用本文版权归作者所有,未经授权不得转载。【本文受版权保护】户使用。它分为国内版和海外版,域名即cn【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net和com的区别,由于某些原因,com域名未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】不能在国内访问,而由于某些原因,cn站点未经授权,禁止复制转载。【本文受版权保护】关闭了API服务。

【作者:唐霜】转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】

火山引擎megaTTS【本文受版权保护】

【原创内容,转载请注明出处】【本文受版权保护】【本文受版权保护】【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】

豆包背后使用了Seed-TTS,但是Se【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】ed-TTS并没有公开提供服务,字节在火【版权所有,侵权必究】【转载请注明来源】山引擎提供了megaTTS,我有真实体验【作者:唐霜】【版权所有】唐霜 www.tangshuang.net,从克隆的效果来看,非常的优秀,与豆包的本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】克隆效果有的一比。不过megaTTS的收【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】费比较贵。

著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】【作者:唐霜】【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。

Reecho睿声本文版权归作者所有,未经授权不得转载。

未经授权,禁止复制转载。【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。

国内较为专注语音相关的厂商,深圳的一家公【关注微信公众号:wwwtangshuangnet】【本文受版权保护】司,提供了AI语音社区,可以实现合成和克本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。隆,也开放了API。我自己试了一下克隆,【版权所有,侵权必究】【本文受版权保护】效果只能说一般,但是它提供的分角色功能我原创内容,盗版必究。【版权所有,侵权必究】觉得很有特点。

著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】

其他云语音合成【未经授权禁止转载】

【版权所有,侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。本文作者:唐霜,转载请注明出处。

腾讯云、讯飞开放平台、有道智云都提供了语【版权所有,侵权必究】【版权所有,侵权必究】音合成服务。我没有真正体验它们的效果,但【版权所有,侵权必究】【关注微信公众号:wwwtangshuangnet】是阅读了它们的开发文档,从文档来看,感觉【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net就不像是给普通开发者提供使用的。

【本文受版权保护】本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】

ElevenLabs(仅英文)【访问 www.tangshuang.net 获取更多精彩内容】

本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。

ElevenLabs是国外的一家专注做A转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。I语音相关的厂商,它的操作台一眼就能看出【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】非常典型的国外小而美公司的特点。其TTS本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】效果非常的优秀,但是只支持英文,如果给中【未经授权禁止转载】【未经授权禁止转载】文的话,会有非常重的外国人口音(有的情况【原创不易,请尊重版权】【作者:唐霜】下这竟然是一种特色)。

【作者:唐霜】未经授权,禁止复制转载。【版权所有,侵权必究】【作者:唐霜】

它有开发API,付费为订阅制,总体而言,【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net虽然其功能很优秀,却不适合国内产品场景。

【版权所有,侵权必究】【本文首发于唐霜的博客】未经授权,禁止复制转载。未经授权,禁止复制转载。【作者:唐霜】

原生TTS功能转载请注明出处:www.tangshuang.net

未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。

浏览器自带SpeechSynthesis

未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】

我们的浏览器自带了未经授权,禁止复制转载。SpeechSynthesis【原创不易,请尊重版权】接口,虽然这个接口是实验性的,但是其兼容【作者:唐霜】【本文受版权保护】性还是非常不错的。基于该接口,我们可以直转载请注明出处:www.tangshuang.net【未经授权禁止转载】接用javascript实现语音播报,特原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net别是结合一些浏览器自带的分词工具,我们可【版权所有,侵权必究】【转载请注明来源】以让SpeechSynthesis实现L未经授权,禁止复制转载。未经授权,禁止复制转载。LM边思考边说话的效果。

转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net【未经授权禁止转载】【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】

但是它的音色会由浏览器加载对应的声音模型原创内容,盗版必究。【版权所有,侵权必究】,而且其生成的声音距离自然的人声还是比较【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】远。

原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net

TTS技术选型对比评测未经授权,禁止复制转载。

【作者:唐霜】【原创内容,转载请注明出处】【转载请注明来源】

作为开发者,我们最终要根据当前的业务场景【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】选择一项TTS技术来实现自己的功能。如果【版权所有】唐霜 www.tangshuang.net【本文受版权保护】使用开源项目,则必须自己部署服务,并基于本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】服务开发业务接口,难度最大;基于云服务,【本文首发于唐霜的博客】【原创不易,请尊重版权】则不需要自己部署,虽然成本更高,但是稳定【作者:唐霜】本文作者:唐霜,转载请注明出处。性和效果有保障;基于原生TTS或第三方原【版权所有】唐霜 www.tangshuang.net【作者:唐霜】生库,成本低,难度低,但是语音效果不怎么【原创内容,转载请注明出处】【本文首发于唐霜的博客】好。

著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】【版权所有,侵权必究】未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】
OpenVoice【版权所有】唐霜 www.tangshuang.net GPT-SoVITS著作权归作者所有,禁止商业用途转载。 Fish-Speech【访问 www.tangshuang.net 获取更多精彩内容】 MeloTTS【版权所有,侵权必究】 ChatTTS【原创内容,转载请注明出处】 CosyVoice原创内容,盗版必究。 微软Azure语音合成转载请注明出处:www.tangshuang.net TTSMaker【原创不易,请尊重版权】 火山引擎megaTTS【版权所有】唐霜 www.tangshuang.net Reecho睿声【未经授权禁止转载】 ElevenLabs本文作者:唐霜,转载请注明出处。 浏览器SpeechSynthesis【关注微信公众号:wwwtangshuangnet】
合成效果【原创不易,请尊重版权】 人声相似性【原创内容,转载请注明出处】
稳定性著作权归作者所有,禁止商业用途转载。 一般【访问 www.tangshuang.net 获取更多精彩内容】 不错未经授权,禁止复制转载。 不错本文作者:唐霜,转载请注明出处。 稳定【原创内容,转载请注明出处】 忽上忽下未经授权,禁止复制转载。 很稳定原创内容,盗版必究。 稳到飞起【访问 www.tangshuang.net 获取更多精彩内容】 稳到飞起转载请注明出处:www.tangshuang.net 稳到飞起本文版权归作者所有,未经授权不得转载。 还行【版权所有】唐霜 www.tangshuang.net 稳到飞起本文作者:唐霜,转载请注明出处。
长文本【原创内容,转载请注明出处】 原创内容,盗版必究。 著作权归作者所有,禁止商业用途转载。 本文版权归作者所有,未经授权不得转载。 转载请注明出处:www.tangshuang.net 【版权所有】唐霜 www.tangshuang.net 【本文首发于唐霜的博客】 未经授权,禁止复制转载。 很好转载请注明出处:www.tangshuang.net 【未经授权禁止转载】 差,但可以分角色【本文首发于唐霜的博客】 好的不得了【转载请注明来源】
情感、风格【版权所有,侵权必究】 几乎没有【版权所有】唐霜 www.tangshuang.net 有一点【关注微信公众号:wwwtangshuangnet】 原创内容,盗版必究。 不错【本文首发于唐霜的博客】 很不错著作权归作者所有,禁止商业用途转载。 很不错【版权所有】唐霜 www.tangshuang.net 可选著作权归作者所有,禁止商业用途转载。 几乎没有本文作者:唐霜,转载请注明出处。 可选著作权归作者所有,禁止商业用途转载。 【作者:唐霜】 【访问 www.tangshuang.net 获取更多精彩内容】
中文+英文+数字【关注微信公众号:wwwtangshuangnet】 【转载请注明来源】 【作者:唐霜】 还行转载请注明出处:www.tangshuang.net 还行原创内容,盗版必究。 【转载请注明来源】 【本文首发于唐霜的博客】 转载请注明出处:www.tangshuang.net 数字不行【未经授权禁止转载】 还行【版权所有】唐霜 www.tangshuang.net 【本文首发于唐霜的博客】 转载请注明出处:www.tangshuang.net
音色数量未经授权,禁止复制转载。 多到不行【版权所有,侵权必究】 中文只有2个【本文受版权保护】 海量本文作者:唐霜,转载请注明出处。 还行【未经授权禁止转载】 常用的都有本文版权归作者所有,未经授权不得转载。 常用的都有著作权归作者所有,禁止商业用途转载。 竟然还有方言【作者:唐霜】 还行【访问 www.tangshuang.net 获取更多精彩内容】 中文的不多,有粤语和台湾【原创不易,请尊重版权】
口语化【本文首发于唐霜的博客】 没有原创内容,盗版必究。 没有原创内容,盗版必究。 没有本文作者:唐霜,转载请注明出处。 没有【版权所有】唐霜 www.tangshuang.net 著作权归作者所有,禁止商业用途转载。 本文作者:唐霜,转载请注明出处。 可选转载请注明出处:www.tangshuang.net 没有【版权所有】唐霜 www.tangshuang.net 没有【本文受版权保护】 没有本文作者:唐霜,转载请注明出处。 没有,机器音重到不行著作权归作者所有,禁止商业用途转载。
合成可选项【本文首发于唐霜的博客】 太少未经授权,禁止复制转载。 太少【作者:唐霜】 很少【版权所有】唐霜 www.tangshuang.net 很少【访问 www.tangshuang.net 获取更多精彩内容】 很少转载请注明出处:www.tangshuang.net 很少著作权归作者所有,禁止商业用途转载。 很多【版权所有】唐霜 www.tangshuang.net 【访问 www.tangshuang.net 获取更多精彩内容】 一般多【本文首发于唐霜的博客】 太少【原创不易,请尊重版权】 几乎没有本文版权归作者所有,未经授权不得转载。
克隆【原创内容,转载请注明出处】 音色近似度【原创不易,请尊重版权】 有一定相似性著作权归作者所有,禁止商业用途转载。 比OpenVoice稍好【原创内容,转载请注明出处】 比OpenVoice好很多【原创内容,转载请注明出处】 用SenseVoice克隆,效果比Ope著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。nVoice好非常多 非常接近原声本文作者:唐霜,转载请注明出处。 个人感觉一般【访问 www.tangshuang.net 获取更多精彩内容】 付费功能没有试【未经授权禁止转载】
语气情感未经授权,禁止复制转载。 可加控制器控制转载请注明出处:www.tangshuang.net 有一点点,但不多【关注微信公众号:wwwtangshuangnet】 【版权所有,侵权必究】 不错【作者:唐霜】 几乎没有【作者:唐霜】 几乎没有著作权归作者所有,禁止商业用途转载。 原创内容,盗版必究。
零样本【转载请注明来源】 未经授权,禁止复制转载。 【作者:唐霜】 【原创不易,请尊重版权】 【转载请注明来源】
源人声要求本文版权归作者所有,未经授权不得转载。 30s未经授权,禁止复制转载。 5s【关注微信公众号:wwwtangshuangnet】 30s著作权归作者所有,禁止商业用途转载。 3-10s【版权所有】唐霜 www.tangshuang.net
开发原创内容,盗版必究。 要自己部署【版权所有】唐霜 www.tangshuang.net 未经授权,禁止复制转载。 【版权所有,侵权必究】 是,可使用API服务【转载请注明来源】 本文版权归作者所有,未经授权不得转载。 未经授权,禁止复制转载。 是,可使用阿里云服务【转载请注明来源】
开发难度【原创不易,请尊重版权】 著作权归作者所有,禁止商业用途转载。 【版权所有】唐霜 www.tangshuang.net 【作者:唐霜】 转载请注明出处:www.tangshuang.net 很难【转载请注明来源】 一般【版权所有,侵权必究】 一般本文版权归作者所有,未经授权不得转载。 简单原创内容,盗版必究。 简单转载请注明出处:www.tangshuang.net 简单【访问 www.tangshuang.net 获取更多精彩内容】 简单【关注微信公众号:wwwtangshuangnet】 简单本文作者:唐霜,转载请注明出处。
自由度本文作者:唐霜,转载请注明出处。 【关注微信公众号:wwwtangshuangnet】 【版权所有】唐霜 www.tangshuang.net 【关注微信公众号:wwwtangshuangnet】 【作者:唐霜】 【转载请注明来源】 本文版权归作者所有,未经授权不得转载。 原创内容,盗版必究。 【作者:唐霜】 【作者:唐霜】 一般著作权归作者所有,禁止商业用途转载。 极高【访问 www.tangshuang.net 获取更多精彩内容】
其他本文版权归作者所有,未经授权不得转载。 项目地址本文版权归作者所有,未经授权不得转载。 https://github.com/m【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】yshell-ai/OpenVoice https://github.com/R【原创不易,请尊重版权】【转载请注明来源】VC-Boss/GPT-SoVITS https://github.com/f【版权所有,侵权必究】转载请注明出处:www.tangshuang.netishaudio/fish-speech https://github.com/m原创内容,盗版必究。本文作者:唐霜,转载请注明出处。yshell-ai/MeloTTS https://github.com/2【原创不易,请尊重版权】【转载请注明来源】noise/ChatTTS https://github.com/F未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。unAudioLLM/CosyVoice
服务著作权归作者所有,禁止商业用途转载。 https://fish.audio/z【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】h-CN/ https://help.aliyun.【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。com/zh/isi/developer【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net-reference/streaming著作权归作者所有,禁止商业用途转载。【本文受版权保护】-speech-synthesis-tt【原创不易,请尊重版权】【版权所有,侵权必究】s-documentation/ https://learn.micros【作者:唐霜】著作权归作者所有,禁止商业用途转载。oft.com/zh-cn/azure/【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.netai-services/speech-s【本文首发于唐霜的博客】【版权所有,侵权必究】ervice/index-text-to【原创内容,转载请注明出处】【作者:唐霜】-speech https://ttsmaker.com【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。/ https://www.volcengi原创内容,盗版必究。【版权所有,侵权必究】ne.com/docs/6561/798【转载请注明来源】本文版权归作者所有,未经授权不得转载。17 https://www.reecho.c未经授权,禁止复制转载。【本文首发于唐霜的博客】n/ https://elevenlabs.i【关注微信公众号:wwwtangshuangnet】【本文受版权保护】o/app/speech-synthes本文作者:唐霜,转载请注明出处。【作者:唐霜】is/text-to-speech https://developer.mo本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.netzilla.org/en-US/docs未经授权,禁止复制转载。【作者:唐霜】/Web/API/SpeechSynth本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】esis
开源协议【版权所有】唐霜 www.tangshuang.net MIT【本文首发于唐霜的博客】 MIT【本文首发于唐霜的博客】 CC-BY-NC-SA 4.0 lice【本文受版权保护】著作权归作者所有,禁止商业用途转载。nse MIT本文版权归作者所有,未经授权不得转载。 AGPL-3.0 license本文版权归作者所有,未经授权不得转载。 Apache-2.0 license【原创不易,请尊重版权】
可商用转载请注明出处:www.tangshuang.net 本文版权归作者所有,未经授权不得转载。 【访问 www.tangshuang.net 获取更多精彩内容】 不可,需授权本文作者:唐霜,转载请注明出处。 本文作者:唐霜,转载请注明出处。 不可,需购买私有版独立部署【版权所有,侵权必究】 【本文首发于唐霜的博客】 不可,需购买商业版【版权所有】唐霜 www.tangshuang.net 【本文首发于唐霜的博客】
总结【原创内容,转载请注明出处】 优点本文作者:唐霜,转载请注明出处。 开源免费可商用【本文首发于唐霜的博客】 开源免费可商用,稳定【访问 www.tangshuang.net 获取更多精彩内容】 人声相似著作权归作者所有,禁止商业用途转载。 开源免费可商用,稳定未经授权,禁止复制转载。 口语化很棒转载请注明出处:www.tangshuang.net 效果比chatTTS还ok转载请注明出处:www.tangshuang.net 无可挑剔【本文受版权保护】 音色多,长文本转载请注明出处:www.tangshuang.net 最接近原声【本文首发于唐霜的博客】 国内少有的专注语音厂商转载请注明出处:www.tangshuang.net 功能多,小而美【访问 www.tangshuang.net 获取更多精彩内容】 浏览器自带,不要钱,无成本未经授权,禁止复制转载。
缺点【关注微信公众号:wwwtangshuangnet】 效果一般【原创不易,请尊重版权】 效果一般本文作者:唐霜,转载请注明出处。 小众,不可商用【本文首发于唐霜的博客】 音色少【原创不易,请尊重版权】 没有克隆,不可商用【版权所有,侵权必究】 性能差,要求高(但可以用云服务)本文版权归作者所有,未经授权不得转载。 没有克隆,国内无法调用API【访问 www.tangshuang.net 获取更多精彩内容】 收费贵未经授权,禁止复制转载。 效果不好【访问 www.tangshuang.net 获取更多精彩内容】 不支持中文,贵本文作者:唐霜,转载请注明出处。 音色太拉,如果将来可以自己载入音色模型就本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net好了

就目前来说,我们很难推荐哪一款技术选型是【转载请注明来源】【版权所有,侵权必究】最合适的。我们可以根据自己的实际需求来进未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。行选择。

【本文受版权保护】本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】【访问 www.tangshuang.net 获取更多精彩内容】

总结而言:【转载请注明来源】

原创内容,盗版必究。原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net
  • 如果是为了长文本读小说,可以选择TTSM【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。aker或Azure的AI语音服务
  • 【版权所有,侵权必究】未经授权,禁止复制转载。【原创不易,请尊重版权】
  • 如果仅仅是为了能够发出声音进行阅读,为了【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net追求实时性,流式阅读,可以选择浏览器Sp未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。eechSynthesis
  • 【原创内容,转载请注明出处】【版权所有,侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】
  • 如果追求免费可商用自由度高,就选GPT-【原创内容,转载请注明出处】未经授权,禁止复制转载。SoVITS,MIT协议可以克隆,效果稳【作者:唐霜】【原创不易,请尊重版权】定,相似度虽然不够,但起码能用
  • 著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】【本文受版权保护】本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。
  • 如果追求克隆口语化,接近自然人声,就选C原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。osyVoice阿里云服务或Azure的【原创内容,转载请注明出处】【原创内容,转载请注明出处】AI语音服务
  • 著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net【本文受版权保护】【本文首发于唐霜的博客】未经授权,禁止复制转载。
  • 如果追求克隆音色相似度很高,可以尝试火山【作者:唐霜】原创内容,盗版必究。引擎的语音合成服务,贵就贵点
  • 【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】原创内容,盗版必究。原创内容,盗版必究。

至于chatTTS和Fish-Speec【未经授权禁止转载】【本文受版权保护】h,由于其协议问题,不建议采用。

【本文受版权保护】【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。

结语著作权归作者所有,禁止商业用途转载。

原创内容,盗版必究。【作者:唐霜】本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net

随着AI应用的发展,市面上会出现愈来越多【版权所有,侵权必究】【原创不易,请尊重版权】GPT-4o发布时演示的与智能体实时对话本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。的应用,这也是迈向机器人时代的重要一步。【未经授权禁止转载】【版权所有,侵权必究】然而就目前市面上的TTS产品而言,就目前【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。来说,都无法做到最好,特别是在口语化上,【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net无法做到极致的自然交流。当然,这或许也不【版权所有,侵权必究】【原创不易,请尊重版权】是一件坏事,毕竟我们有的时候还是需要区分原创内容,盗版必究。【本文首发于唐霜的博客】是自然人声还是机器声,特别是在诈骗横行的【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net当下。作为产品的开发者,我们在追求极致的【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】同时,也应该考虑到安全性,避免由此带来的【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】政策风险和将来的法律问题。

转载请注明出处:www.tangshuang.net原创内容,盗版必究。【作者:唐霜】未经授权,禁止复制转载。

2024-08-28 35546

为价值买单,打赏一杯咖啡

本文价值355.46RMB
已有9条评论
  1. nova 2024-12-28 12:44

    有没有比较一下微软的声音克隆功能?

  2. 化腾少了个啥 2024-11-08 11:50

    博主你好,最近出了一个F5-TTS,方便测评吗(前面打错了

    • 否子戈 2024-11-19 15:09

      已经关注了,尽快评测并加到文章末

    • 落山 2024-11-21 14:44

      它有个很蛋疼的问题,由于对齐得不好,会将输入音频中的某些短语插入到合成音频中。。。只能使用一些小trick尽量避免。另外我在测试时发现,会生成的音频有时会胡说八道(听不懂的外星语言),提了issue,作者不是很乐意解答。相对来说我更倾向于CosyVoice,阿里提供了钉钉群,群内有他们的技术可以交流

      • 否子戈 2024-11-29 00:16

        我现在的主力是cosyvoice和豆包,云上用着

  3. 腰马合一 2024-10-11 11:43

    非常好,果断赞一个,送杯咖啡

    • 否子戈 2024-10-11 20:41

      感谢支持

  4. 小鱼 2024-09-10 20:52

    非常棒的文章。感谢总结。我在用cosyvoice  自己搭建了实时推理服务,用在自己的产品中。目前来看,cosyvoice是最均衡的。没深入去看,不知道他的训练 部分是不是也开源了好像是。

  5. 蓉蓉 2024-09-07 20:34

    学习下测评结果