2024年TTS技术选型对比评测

广告位招租
扫码页面底部二维码联系

过去半年,随着大厂的加入,TTS领域有了【本文受版权保护】【版权所有】唐霜 www.tangshuang.net非常大的变化,在以前的文章中,我曾指出S【本文受版权保护】【本文首发于唐霜的博客】peech是AIGC领域非常重要的一环,著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。它将在众多AIGC领域不可或缺。TTS已【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。经从传统的机器合成音,发展到了自然音阶段【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。,当下的TTS项目,追求合成音的自然流畅【版权所有,侵权必究】未经授权,禁止复制转载。,口语化、语气、停顿、口头禅、情绪价值等未经授权,禁止复制转载。【本文受版权保护】重要因素。过去一段时间,我调研了GPT-【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.netSoVITS, ChatTTS, Cos未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。yVoice, Fish-Speech等【作者:唐霜】【原创不易,请尊重版权】项目,同时对国内大厂云上的语音合成服务进【转载请注明来源】【本文首发于唐霜的博客】行了了解,顺带对国外开放了合成接口的创业【原创内容,转载请注明出处】原创内容,盗版必究。项目进行了试用。本文将详细阐述我所接触到本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】的这些TTS项目,以及对它们在接入后是否本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】符合预期做对比评测,以为正在做TTS技术【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】选型的朋友提供参考。

【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】

TTS技术指标【关注微信公众号:wwwtangshuangnet】

本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。

在国内有一家叫做ttsmaker的网站,【原创不易,请尊重版权】【原创不易,请尊重版权】提供了非常多且免费的语音合成音色,是我认著作权归作者所有,禁止商业用途转载。【本文受版权保护】为国内目前最为优秀的传统TTS提供方。但【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。可能由于其内部政策的原因,目前已关闭AP【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。I服务,因此,我们无法将它作为技术备选。本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net在此,需要指出,本文要评测的,是可以作为本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。开发者可以常规接入,作为自己的TTS后端未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net的技术备选,可以是服务商提供基于acce本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】ss_token的API,可以是类似云服【本文首发于唐霜的博客】【作者:唐霜】务商提供的客户端SDK,也可以是开放源码【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net自己部署为本地服务的,简而言之,如果产品【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】虽好,但作为普通开发者无法接入的(如下文转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。提到的Seed-TTS),不再本文考虑范未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。围内。

著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。

我们进行TTS技术选型,一定是服务于我们【本文首发于唐霜的博客】【本文受版权保护】的应用场景,而不是纯粹追求指标的全面性。本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。从开发者角度,我认为我们要从以下指标去评【原创不易,请尊重版权】未经授权,禁止复制转载。估对应的备选是否满足我们的需求:

本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】【本文受版权保护】著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】
  • 接入的便捷性:如果接入很麻烦,意味着后续本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】的维护、升级都需要付出更多的工作
  • 【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。
  • 效果的出色度:就当下而言,合成语音越接近【未经授权禁止转载】【作者:唐霜】自然说话,效果越好
  • 未经授权,禁止复制转载。【作者:唐霜】【版权所有】唐霜 www.tangshuang.net
  • 合成的稳定性:每次输出的效果要具有稳定性转载请注明出处:www.tangshuang.net【转载请注明来源】,声音保持一致,断句、背景电流声、停顿时原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。长等都符合预期
  • 【版权所有,侵权必究】【本文受版权保护】【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】
  • 成本的低廉性【关注微信公众号:wwwtangshuangnet】
  • 本文版权归作者所有,未经授权不得转载。【转载请注明来源】转载请注明出处:www.tangshuang.net【本文受版权保护】

每一个方面,都会有更多的细节指标来支撑,【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】我会在最后的对比中,把这些细节指标列出来本文作者:唐霜,转载请注明出处。原创内容,盗版必究。,让读者可以一目了然。

【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net【本文受版权保护】【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。

音色【转载请注明来源】

【原创不易,请尊重版权】【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。

在所有指标中,音色是最重要的指标。不同的【关注微信公众号:wwwtangshuangnet】【作者:唐霜】模型,在生成效果上,对音色的依赖度都较大【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】。有的甚至直接靠音色来决定生成语音的语速【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。、风格和情感。音色可能成为当下的核心话题【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。,虽然从社会学层面,克隆会带来一些伦理问【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net题,但是从技术角度,想要获得具体的应用效本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。果,在克隆上下功夫,是目前大部分团队正在转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net努力的方向。

著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。

从技术控制的角度,除了音色外,我们希望自【原创不易,请尊重版权】【原创不易,请尊重版权】己控制情感、说话的风格(人物扮演的角色,著作权归作者所有,禁止商业用途转载。【本文受版权保护】例如同一个人,可以扮演家庭主妇、职场女强未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。人、商店老板娘等等)、停顿、口头禅、情感原创内容,盗版必究。未经授权,禁止复制转载。强度、音量、语速、语言、音调(低沉或尖叫转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net)等。只有在技术上我们可以完全独立控制这原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net些参数,我们才能在具体的场景中获得更好的【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】体验。例如在朗读小说时,不仅要为角色分配【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。音色,而且还要在不同的故事情节中,对角色【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】说的话进行情感、风格等的适配。当然,如果【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】这些参数我们完全可控,可以借助大模型来生本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】成朗读脚本。

未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】

TTS技术备选介绍【原创内容,转载请注明出处】

【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。

虽然本文试图收集更多技术备选方案,但过多【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】的选项反而可能带来困扰,因此,我只列出相【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net对知名的一些技术选项。

著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【未经授权禁止转载】原创内容,盗版必究。

开源TTS项目【原创不易,请尊重版权】

【本文首发于唐霜的博客】【本文受版权保护】【原创不易,请尊重版权】

OpenVoice【本文受版权保护】

本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】【未经授权禁止转载】

可以说,OpenVoice开创了准确克隆著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net人声的时代,它给技术界带来了新的思路。不【原创不易,请尊重版权】【作者:唐霜】过目前来看,OpenVoice的TTS效本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。果已经远远落后于后起之秀。尽管如此,它依【本文首发于唐霜的博客】【原创内容,转载请注明出处】然是伟大的开源项目。目前出现了了Chat【未经授权禁止转载】【转载请注明来源】TTS+OpenVoice的组合,Cha【未经授权禁止转载】【本文受版权保护】tTTS效果出色,但是克隆很逊,因此有这【转载请注明来源】本文版权归作者所有,未经授权不得转载。样的巧妙组合。

原创内容,盗版必究。未经授权,禁止复制转载。原创内容,盗版必究。【原创内容,转载请注明出处】【原创不易,请尊重版权】

GPT-SoVITS【作者:唐霜】

【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。

知名的声音克隆项目,【原创内容,转载请注明出处】GPT-SoVITS原创内容,盗版必究。可以克隆出音色与原声极为接近的种子,而且【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】所需的声音长度很短,克隆速度快,推理速度转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net也快,支持中英语言。不过,虽然GPT-S转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。oVITS在克隆上能够让输出的声音与原声【本文受版权保护】【转载请注明来源】更像,但是在推理时的自然度不够,能够比较原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net容易听出是AI的合成声。

本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】

近期,GPT-SoVITS发布了2.0版原创内容,盗版必究。【转载请注明来源】本,在1.0的基础上做了多项提升。但是据【作者:唐霜】本文作者:唐霜,转载请注明出处。社区小伙伴反馈,2.0之后,克隆的声音反【本文受版权保护】著作权归作者所有,禁止商业用途转载。而更不像原声了,但是稳定性获得了更好的保【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。证。从某种角度讲,我们不应该追求与原声的【版权所有,侵权必究】原创内容,盗版必究。相似,而应该追求稳定性。

转载请注明出处:www.tangshuang.net【未经授权禁止转载】本文作者:唐霜,转载请注明出处。【转载请注明来源】【本文首发于唐霜的博客】

Fish-Speech【原创内容,转载请注明出处】

【作者:唐霜】【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】

相对冷门的TTS开源项目,未经授权,禁止复制转载。Fish-Speech原创内容,盗版必究。附属于大项目Fish Audio,Fis本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】h Audio团队部分成员来自GPT-S【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】oVITS,技术上具有一脉相承的意味。

著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。【本文首发于唐霜的博客】

我在测试时,在其space demo中获【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。得的克隆效果不佳,但在其官网克隆则可以获【版权所有,侵权必究】【版权所有,侵权必究】得声音更相似的效果。

【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】【未经授权禁止转载】

MeloTTS【本文受版权保护】

本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net

MeloTTS本文版权归作者所有,未经授权不得转载。 是一个由 MyShell AI 开发的【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。开源、高质量、多语言的文本转语音项目,可著作权归作者所有,禁止商业用途转载。【转载请注明来源】以将文本转换成自然流畅的语音输出,并支持原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】英语、西班牙语、法语、中文、日语和韩语等转载请注明出处:www.tangshuang.net【本文受版权保护】多种语言。MeloTTS 特别支持 CP转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】U 环境下的实时语音合成,无需依赖 GP原创内容,盗版必究。转载请注明出处:www.tangshuang.netU。

未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】

从体验来讲,MeloTTS 的合成语音只【未经授权禁止转载】未经授权,禁止复制转载。有轻微的机器感,这在开源项目中算是非常优原创内容,盗版必究。【转载请注明来源】秀。并且文本中的中文、英文和数字都几乎能【作者:唐霜】【转载请注明来源】准确地识别与合成,要说缺点的话就是没有太【原创不易,请尊重版权】原创内容,盗版必究。多的 voice speaker 选项,本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】中文目前只找到了一个女声和一个男声。

【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。本文作者:唐霜,转载请注明出处。

另外值得一提的是,OpenVoice也是【本文受版权保护】【版权所有】唐霜 www.tangshuang.netMyShell AI的项目。

未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】

ChatTTS【原创内容,转载请注明出处】

【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net【作者:唐霜】

ChatTTS【关注微信公众号:wwwtangshuangnet】 也是一个开源的文本转语音项目,支持中文未经授权,禁止复制转载。未经授权,禁止复制转载。和英文。目前来说,是开源社区最活跃的TT【版权所有,侵权必究】转载请注明出处:www.tangshuang.netS项目,社区出现的ChatTTS For【本文首发于唐霜的博客】原创内容,盗版必究。ge项目在原项目等基础上做了很大的提升。原创内容,盗版必究。【未经授权禁止转载】其生成的效果非常接近真实人生。

原创内容,盗版必究。【本文首发于唐霜的博客】【作者:唐霜】【版权所有,侵权必究】

不过,其团队出于安全和商业的考虑,开源版【本文受版权保护】【版权所有,侵权必究】本的模型参数较小,且官方特意加入了噪声。

未经授权,禁止复制转载。未经授权,禁止复制转载。原创内容,盗版必究。

CosyVoice【版权所有,侵权必究】

【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。未经授权,禁止复制转载。

CosyVoice未经授权,禁止复制转载。是阿里发布的开源模型,附属于大项目Fun本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.netAudioLLM。从官方的demo来看,原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。其效果非常接近人声,其效果与ChatTT本文版权归作者所有,未经授权不得转载。【转载请注明来源】S类似,具有情感和口气。同时,其克隆效果未经授权,禁止复制转载。【本文受版权保护】也非常出色,是目前来说,国内最完整最优秀【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。的TTS开源项目。

【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】

同时,阿里云上也提供了CosyVoice未经授权,禁止复制转载。【转载请注明来源】的服务,因此,下方就不单独提阿里云服务部【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】分。

【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】【版权所有,侵权必究】【转载请注明来源】【版权所有】唐霜 www.tangshuang.net

闭源TTS服务本文作者:唐霜,转载请注明出处。

转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】【作者:唐霜】【原创内容,转载请注明出处】

微软Azure语音合成【作者:唐霜】

【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。【作者:唐霜】

从目前所有云服务公开的情况来看,Azur【原创内容,转载请注明出处】【未经授权禁止转载】e的语音合成是最优秀最稳定的选择,它提供【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】了非常多的配置选项,可以帮助开发者在不同未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net场景实现自己的效果。而且,网上有很多攻略著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。,可以白嫖其免费额度。

原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】转载请注明出处:www.tangshuang.net

TTSMaker【作者:唐霜】

【原创不易,请尊重版权】【转载请注明来源】【未经授权禁止转载】【转载请注明来源】【版权所有】唐霜 www.tangshuang.net

TTSMaker可能是基于Azure语音【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。合成服务进行二次开发后的产品,其效果和性【关注微信公众号:wwwtangshuangnet】【关注微信公众号:wwwtangshuangnet】能非常令人惊艳。它提供了非常多的音色,也【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。提供了长文本TTS,免费额度也足够普通用【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】户使用。它分为国内版和海外版,域名即cn【作者:唐霜】本文作者:唐霜,转载请注明出处。和com的区别,由于某些原因,com域名转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】不能在国内访问,而由于某些原因,cn站点【版权所有,侵权必究】【原创不易,请尊重版权】关闭了API服务。

【关注微信公众号:wwwtangshuangnet】【作者:唐霜】著作权归作者所有,禁止商业用途转载。

火山引擎megaTTS本文版权归作者所有,未经授权不得转载。

未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net【作者:唐霜】

豆包背后使用了Seed-TTS,但是Se【作者:唐霜】【未经授权禁止转载】ed-TTS并没有公开提供服务,字节在火本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。山引擎提供了megaTTS,我有真实体验【关注微信公众号:wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net,从克隆的效果来看,非常的优秀,与豆包的【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】克隆效果有的一比。不过megaTTS的收转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】费比较贵。

本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。【本文受版权保护】【原创不易,请尊重版权】

Reecho睿声【本文受版权保护】

【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net

国内较为专注语音相关的厂商,深圳的一家公本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。司,提供了AI语音社区,可以实现合成和克本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net隆,也开放了API。我自己试了一下克隆,【转载请注明来源】【版权所有】唐霜 www.tangshuang.net效果只能说一般,但是它提供的分角色功能我本文作者:唐霜,转载请注明出处。【未经授权禁止转载】觉得很有特点。

【未经授权禁止转载】转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】【版权所有,侵权必究】

其他云语音合成转载请注明出处:www.tangshuang.net

【转载请注明来源】【版权所有】唐霜 www.tangshuang.net【作者:唐霜】著作权归作者所有,禁止商业用途转载。

腾讯云、讯飞开放平台、有道智云都提供了语【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。音合成服务。我没有真正体验它们的效果,但转载请注明出处:www.tangshuang.net原创内容,盗版必究。是阅读了它们的开发文档,从文档来看,感觉本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。就不像是给普通开发者提供使用的。

未经授权,禁止复制转载。原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。

ElevenLabs(仅英文)转载请注明出处:www.tangshuang.net

【原创内容,转载请注明出处】【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】

ElevenLabs是国外的一家专注做A本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。I语音相关的厂商,它的操作台一眼就能看出【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】非常典型的国外小而美公司的特点。其TTS【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。效果非常的优秀,但是只支持英文,如果给中原创内容,盗版必究。本文作者:唐霜,转载请注明出处。文的话,会有非常重的外国人口音(有的情况【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。下这竟然是一种特色)。

【转载请注明来源】转载请注明出处:www.tangshuang.net【本文受版权保护】【版权所有,侵权必究】

它有开发API,付费为订阅制,总体而言,【转载请注明来源】本文作者:唐霜,转载请注明出处。虽然其功能很优秀,却不适合国内产品场景。

著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net

原生TTS功能【未经授权禁止转载】

【版权所有】唐霜 www.tangshuang.net【转载请注明来源】原创内容,盗版必究。原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】

浏览器自带SpeechSynthesis

【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】

我们的浏览器自带了【版权所有】唐霜 www.tangshuang.netSpeechSynthesis【作者:唐霜】接口,虽然这个接口是实验性的,但是其兼容【原创内容,转载请注明出处】原创内容,盗版必究。性还是非常不错的。基于该接口,我们可以直【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。接用javascript实现语音播报,特本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】别是结合一些浏览器自带的分词工具,我们可【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。以让SpeechSynthesis实现L【作者:唐霜】著作权归作者所有,禁止商业用途转载。LM边思考边说话的效果。

本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】

但是它的音色会由浏览器加载对应的声音模型著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。,而且其生成的声音距离自然的人声还是比较【原创内容,转载请注明出处】【关注微信公众号:wwwtangshuangnet】远。

【版权所有,侵权必究】【转载请注明来源】未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。

TTS技术选型对比评测【作者:唐霜】

未经授权,禁止复制转载。【转载请注明来源】【版权所有】唐霜 www.tangshuang.net

作为开发者,我们最终要根据当前的业务场景【原创不易,请尊重版权】【原创不易,请尊重版权】选择一项TTS技术来实现自己的功能。如果著作权归作者所有,禁止商业用途转载。【作者:唐霜】使用开源项目,则必须自己部署服务,并基于未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。服务开发业务接口,难度最大;基于云服务,【转载请注明来源】本文作者:唐霜,转载请注明出处。则不需要自己部署,虽然成本更高,但是稳定【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net性和效果有保障;基于原生TTS或第三方原著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】生库,成本低,难度低,但是语音效果不怎么【本文首发于唐霜的博客】【原创内容,转载请注明出处】好。

转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。【转载请注明来源】
OpenVoice【版权所有,侵权必究】 GPT-SoVITS转载请注明出处:www.tangshuang.net Fish-Speech【访问 www.tangshuang.net 获取更多精彩内容】 MeloTTS本文版权归作者所有,未经授权不得转载。 ChatTTS【版权所有】唐霜 www.tangshuang.net CosyVoice未经授权,禁止复制转载。 微软Azure语音合成【转载请注明来源】 TTSMaker转载请注明出处:www.tangshuang.net 火山引擎megaTTS转载请注明出处:www.tangshuang.net Reecho睿声【本文首发于唐霜的博客】 ElevenLabs【版权所有,侵权必究】 浏览器SpeechSynthesis本文版权归作者所有,未经授权不得转载。
合成效果【关注微信公众号:wwwtangshuangnet】 人声相似性【本文受版权保护】
稳定性【版权所有】唐霜 www.tangshuang.net 一般【原创不易,请尊重版权】 不错【本文首发于唐霜的博客】 不错转载请注明出处:www.tangshuang.net 稳定转载请注明出处:www.tangshuang.net 忽上忽下【访问 www.tangshuang.net 获取更多精彩内容】 很稳定【访问 www.tangshuang.net 获取更多精彩内容】 稳到飞起【版权所有】唐霜 www.tangshuang.net 稳到飞起未经授权,禁止复制转载。 稳到飞起【原创不易,请尊重版权】 还行【版权所有,侵权必究】 稳到飞起【转载请注明来源】
长文本原创内容,盗版必究。 【本文受版权保护】 未经授权,禁止复制转载。 【转载请注明来源】 【原创内容,转载请注明出处】 【版权所有】唐霜 www.tangshuang.net 【访问 www.tangshuang.net 获取更多精彩内容】 【原创不易,请尊重版权】 很好【原创不易,请尊重版权】 【版权所有】唐霜 www.tangshuang.net 差,但可以分角色【原创内容,转载请注明出处】 好的不得了原创内容,盗版必究。
情感、风格【版权所有,侵权必究】 几乎没有原创内容,盗版必究。 有一点【关注微信公众号:wwwtangshuangnet】 转载请注明出处:www.tangshuang.net 不错【本文首发于唐霜的博客】 很不错【作者:唐霜】 很不错【作者:唐霜】 可选【本文受版权保护】 几乎没有【访问 www.tangshuang.net 获取更多精彩内容】 可选原创内容,盗版必究。 未经授权,禁止复制转载。 转载请注明出处:www.tangshuang.net
中文+英文+数字【访问 www.tangshuang.net 获取更多精彩内容】 【访问 www.tangshuang.net 获取更多精彩内容】 【访问 www.tangshuang.net 获取更多精彩内容】 还行本文作者:唐霜,转载请注明出处。 还行著作权归作者所有,禁止商业用途转载。 未经授权,禁止复制转载。 【转载请注明来源】 转载请注明出处:www.tangshuang.net 数字不行【未经授权禁止转载】 还行原创内容,盗版必究。 【作者:唐霜】 本文作者:唐霜,转载请注明出处。
音色数量未经授权,禁止复制转载。 多到不行【作者:唐霜】 中文只有2个著作权归作者所有,禁止商业用途转载。 海量本文版权归作者所有,未经授权不得转载。 还行【原创不易,请尊重版权】 常用的都有【本文受版权保护】 常用的都有【未经授权禁止转载】 竟然还有方言【版权所有】唐霜 www.tangshuang.net 还行本文版权归作者所有,未经授权不得转载。 中文的不多,有粤语和台湾【版权所有,侵权必究】
口语化原创内容,盗版必究。 没有【版权所有,侵权必究】 没有【转载请注明来源】 没有【版权所有,侵权必究】 没有转载请注明出处:www.tangshuang.net 【作者:唐霜】 转载请注明出处:www.tangshuang.net 可选原创内容,盗版必究。 没有【原创内容,转载请注明出处】 没有未经授权,禁止复制转载。 没有【原创内容,转载请注明出处】 没有,机器音重到不行转载请注明出处:www.tangshuang.net
合成可选项【本文首发于唐霜的博客】 太少未经授权,禁止复制转载。 太少原创内容,盗版必究。 很少本文版权归作者所有,未经授权不得转载。 很少【原创不易,请尊重版权】 很少【原创内容,转载请注明出处】 很少【访问 www.tangshuang.net 获取更多精彩内容】 很多【原创内容,转载请注明出处】 本文作者:唐霜,转载请注明出处。 一般多原创内容,盗版必究。 太少未经授权,禁止复制转载。 几乎没有【本文首发于唐霜的博客】
克隆【原创不易,请尊重版权】 音色近似度本文版权归作者所有,未经授权不得转载。 有一定相似性【转载请注明来源】 比OpenVoice稍好本文作者:唐霜,转载请注明出处。 比OpenVoice好很多【原创不易,请尊重版权】 用SenseVoice克隆,效果比Ope【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。nVoice好非常多 非常接近原声【关注微信公众号:wwwtangshuangnet】 个人感觉一般【作者:唐霜】 付费功能没有试本文作者:唐霜,转载请注明出处。
语气情感【访问 www.tangshuang.net 获取更多精彩内容】 可加控制器控制【关注微信公众号:wwwtangshuangnet】 有一点点,但不多【原创不易,请尊重版权】 【转载请注明来源】 不错【原创不易,请尊重版权】 几乎没有著作权归作者所有,禁止商业用途转载。 几乎没有原创内容,盗版必究。 著作权归作者所有,禁止商业用途转载。
零样本【本文首发于唐霜的博客】 转载请注明出处:www.tangshuang.net 未经授权,禁止复制转载。 【访问 www.tangshuang.net 获取更多精彩内容】 【转载请注明来源】
源人声要求原创内容,盗版必究。 30s【原创内容,转载请注明出处】 5s【原创不易,请尊重版权】 30s原创内容,盗版必究。 3-10s本文作者:唐霜,转载请注明出处。
开发【未经授权禁止转载】 要自己部署转载请注明出处:www.tangshuang.net 【转载请注明来源】 【版权所有,侵权必究】 是,可使用API服务【访问 www.tangshuang.net 获取更多精彩内容】 未经授权,禁止复制转载。 【原创不易,请尊重版权】 是,可使用阿里云服务原创内容,盗版必究。
开发难度【访问 www.tangshuang.net 获取更多精彩内容】 转载请注明出处:www.tangshuang.net 本文版权归作者所有,未经授权不得转载。 【关注微信公众号:wwwtangshuangnet】 【未经授权禁止转载】 很难【原创不易,请尊重版权】 一般转载请注明出处:www.tangshuang.net 一般【未经授权禁止转载】 简单【转载请注明来源】 简单本文作者:唐霜,转载请注明出处。 简单【关注微信公众号:wwwtangshuangnet】 简单【原创内容,转载请注明出处】 简单未经授权,禁止复制转载。
自由度【原创内容,转载请注明出处】 本文作者:唐霜,转载请注明出处。 【本文受版权保护】 【转载请注明来源】 著作权归作者所有,禁止商业用途转载。 【版权所有,侵权必究】 未经授权,禁止复制转载。 未经授权,禁止复制转载。 【原创不易,请尊重版权】 转载请注明出处:www.tangshuang.net 一般著作权归作者所有,禁止商业用途转载。 极高【版权所有】唐霜 www.tangshuang.net
其他【本文首发于唐霜的博客】 项目地址原创内容,盗版必究。 https://github.com/m著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.netyshell-ai/OpenVoice https://github.com/R未经授权,禁止复制转载。【未经授权禁止转载】VC-Boss/GPT-SoVITS https://github.com/f【作者:唐霜】著作权归作者所有,禁止商业用途转载。ishaudio/fish-speech https://github.com/m【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】yshell-ai/MeloTTS https://github.com/2【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.netnoise/ChatTTS https://github.com/F本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.netunAudioLLM/CosyVoice
服务【未经授权禁止转载】 https://fish.audio/z【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。h-CN/ https://help.aliyun.【本文首发于唐霜的博客】【本文首发于唐霜的博客】com/zh/isi/developer【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net-reference/streaming【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。-speech-synthesis-tt【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.nets-documentation/ https://learn.micros本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。oft.com/zh-cn/azure/【原创不易,请尊重版权】未经授权,禁止复制转载。ai-services/speech-s【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。ervice/index-text-to本文作者:唐霜,转载请注明出处。【本文受版权保护】-speech https://ttsmaker.com本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】/ https://www.volcengi本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.netne.com/docs/6561/798【本文首发于唐霜的博客】未经授权,禁止复制转载。17 https://www.reecho.c【作者:唐霜】【原创不易,请尊重版权】n/ https://elevenlabs.i原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。o/app/speech-synthes【本文首发于唐霜的博客】原创内容,盗版必究。is/text-to-speech https://developer.mo【版权所有,侵权必究】【本文受版权保护】zilla.org/en-US/docs【版权所有】唐霜 www.tangshuang.net【本文受版权保护】/Web/API/SpeechSynth著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。esis
开源协议未经授权,禁止复制转载。 MIT【原创不易,请尊重版权】 MIT本文版权归作者所有,未经授权不得转载。 CC-BY-NC-SA 4.0 lice本文作者:唐霜,转载请注明出处。原创内容,盗版必究。nse MIT本文版权归作者所有,未经授权不得转载。 AGPL-3.0 license【原创内容,转载请注明出处】 Apache-2.0 license【作者:唐霜】
可商用【未经授权禁止转载】 【访问 www.tangshuang.net 获取更多精彩内容】 【版权所有,侵权必究】 不可,需授权【访问 www.tangshuang.net 获取更多精彩内容】 【关注微信公众号:wwwtangshuangnet】 不可,需购买私有版独立部署【转载请注明来源】 转载请注明出处:www.tangshuang.net 不可,需购买商业版【作者:唐霜】 【版权所有】唐霜 www.tangshuang.net
总结【版权所有】唐霜 www.tangshuang.net 优点【关注微信公众号:wwwtangshuangnet】 开源免费可商用【本文受版权保护】 开源免费可商用,稳定【本文首发于唐霜的博客】 人声相似【本文受版权保护】 开源免费可商用,稳定【版权所有】唐霜 www.tangshuang.net 口语化很棒本文作者:唐霜,转载请注明出处。 效果比chatTTS还ok【作者:唐霜】 无可挑剔【转载请注明来源】 音色多,长文本著作权归作者所有,禁止商业用途转载。 最接近原声【未经授权禁止转载】 国内少有的专注语音厂商未经授权,禁止复制转载。 功能多,小而美【本文首发于唐霜的博客】 浏览器自带,不要钱,无成本著作权归作者所有,禁止商业用途转载。
缺点【原创内容,转载请注明出处】 效果一般【原创不易,请尊重版权】 效果一般【本文首发于唐霜的博客】 小众,不可商用著作权归作者所有,禁止商业用途转载。 音色少本文版权归作者所有,未经授权不得转载。 没有克隆,不可商用【本文受版权保护】 性能差,要求高(但可以用云服务)【原创内容,转载请注明出处】 没有克隆,国内无法调用API【版权所有】唐霜 www.tangshuang.net 收费贵未经授权,禁止复制转载。 效果不好【未经授权禁止转载】 不支持中文,贵本文版权归作者所有,未经授权不得转载。 音色太拉,如果将来可以自己载入音色模型就【本文受版权保护】本文作者:唐霜,转载请注明出处。好了

就目前来说,我们很难推荐哪一款技术选型是著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。最合适的。我们可以根据自己的实际需求来进本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】行选择。

原创内容,盗版必究。本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。【本文首发于唐霜的博客】

总结而言:本文版权归作者所有,未经授权不得转载。

【转载请注明来源】【本文受版权保护】【关注微信公众号:wwwtangshuangnet】【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。
  • 如果是为了长文本读小说,可以选择TTSM【转载请注明来源】【本文首发于唐霜的博客】aker或Azure的AI语音服务
  • 【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】【版权所有,侵权必究】【本文受版权保护】
  • 如果仅仅是为了能够发出声音进行阅读,为了著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】追求实时性,流式阅读,可以选择浏览器Sp【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】eechSynthesis
  • 【原创内容,转载请注明出处】【作者:唐霜】【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】
  • 如果追求免费可商用自由度高,就选GPT-著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。SoVITS,MIT协议可以克隆,效果稳未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。定,相似度虽然不够,但起码能用
  • 本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】【关注微信公众号:wwwtangshuangnet】
  • 如果追求克隆口语化,接近自然人声,就选C本文作者:唐霜,转载请注明出处。【作者:唐霜】osyVoice阿里云服务或Azure的【转载请注明来源】【原创内容,转载请注明出处】AI语音服务
  • 【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net【版权所有,侵权必究】
  • 如果追求克隆音色相似度很高,可以尝试火山【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】引擎的语音合成服务,贵就贵点
  • 【本文受版权保护】著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。

至于chatTTS和Fish-Speec【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。h,由于其协议问题,不建议采用。

著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net【版权所有,侵权必究】

结语【作者:唐霜】

未经授权,禁止复制转载。【未经授权禁止转载】【转载请注明来源】

随着AI应用的发展,市面上会出现愈来越多未经授权,禁止复制转载。【未经授权禁止转载】GPT-4o发布时演示的与智能体实时对话【转载请注明来源】转载请注明出处:www.tangshuang.net的应用,这也是迈向机器人时代的重要一步。【作者:唐霜】著作权归作者所有,禁止商业用途转载。然而就目前市面上的TTS产品而言,就目前【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。来说,都无法做到最好,特别是在口语化上,著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。无法做到极致的自然交流。当然,这或许也不本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。是一件坏事,毕竟我们有的时候还是需要区分本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。是自然人声还是机器声,特别是在诈骗横行的转载请注明出处:www.tangshuang.net【作者:唐霜】当下。作为产品的开发者,我们在追求极致的转载请注明出处:www.tangshuang.net【未经授权禁止转载】同时,也应该考虑到安全性,避免由此带来的原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】政策风险和将来的法律问题。

【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。

2024-08-28 35547

为价值买单,打赏一杯咖啡

本文价值355.47RMB
已有9条评论
  1. nova 2024-12-28 12:44

    有没有比较一下微软的声音克隆功能?

  2. 化腾少了个啥 2024-11-08 11:50

    博主你好,最近出了一个F5-TTS,方便测评吗(前面打错了

    • 否子戈 2024-11-19 15:09

      已经关注了,尽快评测并加到文章末

    • 落山 2024-11-21 14:44

      它有个很蛋疼的问题,由于对齐得不好,会将输入音频中的某些短语插入到合成音频中。。。只能使用一些小trick尽量避免。另外我在测试时发现,会生成的音频有时会胡说八道(听不懂的外星语言),提了issue,作者不是很乐意解答。相对来说我更倾向于CosyVoice,阿里提供了钉钉群,群内有他们的技术可以交流

      • 否子戈 2024-11-29 00:16

        我现在的主力是cosyvoice和豆包,云上用着

  3. 腰马合一 2024-10-11 11:43

    非常好,果断赞一个,送杯咖啡

    • 否子戈 2024-10-11 20:41

      感谢支持

  4. 小鱼 2024-09-10 20:52

    非常棒的文章。感谢总结。我在用cosyvoice  自己搭建了实时推理服务,用在自己的产品中。目前来看,cosyvoice是最均衡的。没深入去看,不知道他的训练 部分是不是也开源了好像是。

  5. 蓉蓉 2024-09-07 20:34

    学习下测评结果