过去半年,随着大厂的加入,TTS领域有了本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】非常大的变化,在以前的文章中,我曾指出S【未经授权禁止转载】【作者:唐霜】peech是AIGC领域非常重要的一环,未经授权,禁止复制转载。【版权所有,侵权必究】它将在众多AIGC领域不可或缺。TTS已著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。经从传统的机器合成音,发展到了自然音阶段【转载请注明来源】著作权归作者所有,禁止商业用途转载。,当下的TTS项目,追求合成音的自然流畅未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。,口语化、语气、停顿、口头禅、情绪价值等【作者:唐霜】著作权归作者所有,禁止商业用途转载。重要因素。过去一段时间,我调研了GPT-【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】SoVITS, ChatTTS, Cos著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。yVoice, Fish-Speech等【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。项目,同时对国内大厂云上的语音合成服务进【本文受版权保护】【原创不易,请尊重版权】行了了解,顺带对国外开放了合成接口的创业转载请注明出处:www.tangshuang.net【本文受版权保护】项目进行了试用。本文将详细阐述我所接触到【版权所有,侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】的这些TTS项目,以及对它们在接入后是否【作者:唐霜】【关注微信公众号:wwwtangshuangnet】符合预期做对比评测,以为正在做TTS技术转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】选型的朋友提供参考。
本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】【未经授权禁止转载】TTS技术指标未经授权,禁止复制转载。
【关注微信公众号:wwwtangshuangnet】【作者:唐霜】本文版权归作者所有,未经授权不得转载。在国内有一家叫做ttsmaker的网站,【本文受版权保护】【版权所有】唐霜 www.tangshuang.net提供了非常多且免费的语音合成音色,是我认原创内容,盗版必究。转载请注明出处:www.tangshuang.net为国内目前最为优秀的传统TTS提供方。但【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。可能由于其内部政策的原因,目前已关闭AP【作者:唐霜】未经授权,禁止复制转载。I服务,因此,我们无法将它作为技术备选。【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。在此,需要指出,本文要评测的,是可以作为著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】开发者可以常规接入,作为自己的TTS后端【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】的技术备选,可以是服务商提供基于acce【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。ss_token的API,可以是类似云服本文版权归作者所有,未经授权不得转载。【本文受版权保护】务商提供的客户端SDK,也可以是开放源码原创内容,盗版必究。【本文首发于唐霜的博客】自己部署为本地服务的,简而言之,如果产品本文作者:唐霜,转载请注明出处。【转载请注明来源】虽好,但作为普通开发者无法接入的(如下文【本文受版权保护】著作权归作者所有,禁止商业用途转载。提到的Seed-TTS),不再本文考虑范【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】围内。
【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net我们进行TTS技术选型,一定是服务于我们转载请注明出处:www.tangshuang.net【本文受版权保护】的应用场景,而不是纯粹追求指标的全面性。原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】从开发者角度,我认为我们要从以下指标去评【作者:唐霜】【原创内容,转载请注明出处】估对应的备选是否满足我们的需求:
【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】- 接入的便捷性:如果接入很麻烦,意味着后续【未经授权禁止转载】【转载请注明来源】的维护、升级都需要付出更多的工作 著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。
- 效果的出色度:就当下而言,合成语音越接近【本文首发于唐霜的博客】【版权所有,侵权必究】自然说话,效果越好 【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】【转载请注明来源】转载请注明出处:www.tangshuang.net
- 合成的稳定性:每次输出的效果要具有稳定性本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。,声音保持一致,断句、背景电流声、停顿时【作者:唐霜】【本文首发于唐霜的博客】长等都符合预期 【转载请注明来源】【本文受版权保护】转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。
- 成本的低廉性【原创不易,请尊重版权】 转载请注明出处:www.tangshuang.net【本文受版权保护】本文作者:唐霜,转载请注明出处。
每一个方面,都会有更多的细节指标来支撑,【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net我会在最后的对比中,把这些细节指标列出来转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】,让读者可以一目了然。
【转载请注明来源】【原创不易,请尊重版权】原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】音色本文作者:唐霜,转载请注明出处。
转载请注明出处:www.tangshuang.net【本文受版权保护】原创内容,盗版必究。【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net在所有指标中,音色是最重要的指标。不同的著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。模型,在生成效果上,对音色的依赖度都较大【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。。有的甚至直接靠音色来决定生成语音的语速著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。、风格和情感。音色可能成为当下的核心话题【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。,虽然从社会学层面,克隆会带来一些伦理问著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】题,但是从技术角度,想要获得具体的应用效【作者:唐霜】本文版权归作者所有,未经授权不得转载。果,在克隆上下功夫,是目前大部分团队正在【本文受版权保护】本文版权归作者所有,未经授权不得转载。努力的方向。
转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。从技术控制的角度,除了音色外,我们希望自原创内容,盗版必究。【未经授权禁止转载】己控制情感、说话的风格(人物扮演的角色,【作者:唐霜】原创内容,盗版必究。例如同一个人,可以扮演家庭主妇、职场女强【未经授权禁止转载】【版权所有,侵权必究】人、商店老板娘等等)、停顿、口头禅、情感【原创内容,转载请注明出处】未经授权,禁止复制转载。强度、音量、语速、语言、音调(低沉或尖叫【原创不易,请尊重版权】【作者:唐霜】)等。只有在技术上我们可以完全独立控制这【作者:唐霜】【转载请注明来源】些参数,我们才能在具体的场景中获得更好的【作者:唐霜】【关注微信公众号:wwwtangshuangnet】体验。例如在朗读小说时,不仅要为角色分配【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】音色,而且还要在不同的故事情节中,对角色【作者:唐霜】【转载请注明来源】说的话进行情感、风格等的适配。当然,如果原创内容,盗版必究。【原创内容,转载请注明出处】这些参数我们完全可控,可以借助大模型来生本文作者:唐霜,转载请注明出处。【作者:唐霜】成朗读脚本。
本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】【未经授权禁止转载】TTS技术备选介绍【版权所有】唐霜 www.tangshuang.net
【未经授权禁止转载】未经授权,禁止复制转载。【原创不易,请尊重版权】虽然本文试图收集更多技术备选方案,但过多【原创不易,请尊重版权】【未经授权禁止转载】的选项反而可能带来困扰,因此,我只列出相著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net对知名的一些技术选项。
本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。开源TTS项目转载请注明出处:www.tangshuang.net
【作者:唐霜】【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】OpenVoice转载请注明出处:www.tangshuang.net
未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。可以说,OpenVoice开创了准确克隆【版权所有,侵权必究】转载请注明出处:www.tangshuang.net人声的时代,它给技术界带来了新的思路。不原创内容,盗版必究。原创内容,盗版必究。过目前来看,OpenVoice的TTS效【作者:唐霜】【版权所有,侵权必究】果已经远远落后于后起之秀。尽管如此,它依原创内容,盗版必究。原创内容,盗版必究。然是伟大的开源项目。目前出现了了Chat著作权归作者所有,禁止商业用途转载。【作者:唐霜】TTS+OpenVoice的组合,Cha【转载请注明来源】转载请注明出处:www.tangshuang.nettTTS效果出色,但是克隆很逊,因此有这【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。样的巧妙组合。
【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.netGPT-SoVITS【未经授权禁止转载】
本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。知名的声音克隆项目,【原创内容,转载请注明出处】GPT-SoVITS著作权归作者所有,禁止商业用途转载。可以克隆出音色与原声极为接近的种子,而且本文版权归作者所有,未经授权不得转载。【本文受版权保护】所需的声音长度很短,克隆速度快,推理速度未经授权,禁止复制转载。【未经授权禁止转载】也快,支持中英语言。不过,虽然GPT-S原创内容,盗版必究。【未经授权禁止转载】oVITS在克隆上能够让输出的声音与原声原创内容,盗版必究。【转载请注明来源】更像,但是在推理时的自然度不够,能够比较【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。容易听出是AI的合成声。
【未经授权禁止转载】本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】近期,GPT-SoVITS发布了2.0版【作者:唐霜】【未经授权禁止转载】本,在1.0的基础上做了多项提升。但是据【原创不易,请尊重版权】原创内容,盗版必究。社区小伙伴反馈,2.0之后,克隆的声音反本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】而更不像原声了,但是稳定性获得了更好的保【未经授权禁止转载】【原创内容,转载请注明出处】证。从某种角度讲,我们不应该追求与原声的【未经授权禁止转载】【原创内容,转载请注明出处】相似,而应该追求稳定性。
【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】Fish-Speech【版权所有,侵权必究】
【作者:唐霜】本文作者:唐霜,转载请注明出处。【未经授权禁止转载】本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】相对冷门的TTS开源项目,未经授权,禁止复制转载。Fish-Speech原创内容,盗版必究。附属于大项目Fish Audio,Fis【本文受版权保护】著作权归作者所有,禁止商业用途转载。h Audio团队部分成员来自GPT-S【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。oVITS,技术上具有一脉相承的意味。
【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。我在测试时,在其space demo中获未经授权,禁止复制转载。原创内容,盗版必究。得的克隆效果不佳,但在其官网克隆则可以获【版权所有,侵权必究】转载请注明出处:www.tangshuang.net得声音更相似的效果。
著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】MeloTTS【访问 www.tangshuang.net 获取更多精彩内容】
【原创内容,转载请注明出处】【作者:唐霜】【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.netMeloTTS未经授权,禁止复制转载。 是一个由 MyShell AI 开发的本文作者:唐霜,转载请注明出处。【未经授权禁止转载】开源、高质量、多语言的文本转语音项目,可著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】以将文本转换成自然流畅的语音输出,并支持【本文受版权保护】【原创不易,请尊重版权】英语、西班牙语、法语、中文、日语和韩语等原创内容,盗版必究。【原创内容,转载请注明出处】多种语言。MeloTTS 特别支持 CP【未经授权禁止转载】转载请注明出处:www.tangshuang.netU 环境下的实时语音合成,无需依赖 GP未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。U。
未经授权,禁止复制转载。【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。【原创内容,转载请注明出处】从体验来讲,MeloTTS 的合成语音只【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。有轻微的机器感,这在开源项目中算是非常优本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】秀。并且文本中的中文、英文和数字都几乎能转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】准确地识别与合成,要说缺点的话就是没有太转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】多的 voice speaker 选项,【转载请注明来源】原创内容,盗版必究。中文目前只找到了一个女声和一个男声。
【未经授权禁止转载】【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。【本文受版权保护】【关注微信公众号:wwwtangshuangnet】另外值得一提的是,OpenVoice也是著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。MyShell AI的项目。
【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。ChatTTS【未经授权禁止转载】
【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。ChatTTS著作权归作者所有,禁止商业用途转载。 也是一个开源的文本转语音项目,支持中文著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】和英文。目前来说,是开源社区最活跃的TT著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】S项目,社区出现的ChatTTS For【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.netge项目在原项目等基础上做了很大的提升。著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net其生成的效果非常接近真实人生。
【本文首发于唐霜的博客】原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处:www.tangshuang.net【本文受版权保护】不过,其团队出于安全和商业的考虑,开源版本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】本的模型参数较小,且官方特意加入了噪声。
【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。CosyVoice未经授权,禁止复制转载。
本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。【未经授权禁止转载】未经授权,禁止复制转载。CosyVoice【原创不易,请尊重版权】是阿里发布的开源模型,附属于大项目Fun【本文首发于唐霜的博客】【作者:唐霜】AudioLLM。从官方的demo来看,【原创内容,转载请注明出处】【作者:唐霜】其效果非常接近人声,其效果与ChatTT【作者:唐霜】【未经授权禁止转载】S类似,具有情感和口气。同时,其克隆效果转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。也非常出色,是目前来说,国内最完整最优秀【本文受版权保护】原创内容,盗版必究。的TTS开源项目。
原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。同时,阿里云上也提供了CosyVoice著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。的服务,因此,下方就不单独提阿里云服务部【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】分。
本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net【作者:唐霜】闭源TTS服务【版权所有】唐霜 www.tangshuang.net
【未经授权禁止转载】【作者:唐霜】本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。微软Azure语音合成未经授权,禁止复制转载。
本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】从目前所有云服务公开的情况来看,Azur【转载请注明来源】未经授权,禁止复制转载。e的语音合成是最优秀最稳定的选择,它提供【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。了非常多的配置选项,可以帮助开发者在不同【转载请注明来源】【作者:唐霜】场景实现自己的效果。而且,网上有很多攻略【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。,可以白嫖其免费额度。
【本文首发于唐霜的博客】【转载请注明来源】著作权归作者所有,禁止商业用途转载。TTSMaker本文作者:唐霜,转载请注明出处。
【转载请注明来源】【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。TTSMaker可能是基于Azure语音【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】合成服务进行二次开发后的产品,其效果和性转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。能非常令人惊艳。它提供了非常多的音色,也转载请注明出处:www.tangshuang.net原创内容,盗版必究。提供了长文本TTS,免费额度也足够普通用【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。户使用。它分为国内版和海外版,域名即cn本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。和com的区别,由于某些原因,com域名未经授权,禁止复制转载。【本文首发于唐霜的博客】不能在国内访问,而由于某些原因,cn站点【未经授权禁止转载】【本文受版权保护】关闭了API服务。
【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。【未经授权禁止转载】火山引擎megaTTS转载请注明出处:www.tangshuang.net
未经授权,禁止复制转载。原创内容,盗版必究。未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】豆包背后使用了Seed-TTS,但是Se【转载请注明来源】本文版权归作者所有,未经授权不得转载。ed-TTS并没有公开提供服务,字节在火著作权归作者所有,禁止商业用途转载。【转载请注明来源】山引擎提供了megaTTS,我有真实体验【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。,从克隆的效果来看,非常的优秀,与豆包的未经授权,禁止复制转载。原创内容,盗版必究。克隆效果有的一比。不过megaTTS的收【转载请注明来源】【作者:唐霜】费比较贵。
原创内容,盗版必究。【本文首发于唐霜的博客】【未经授权禁止转载】Reecho睿声未经授权,禁止复制转载。
著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】本文作者:唐霜,转载请注明出处。国内较为专注语音相关的厂商,深圳的一家公【转载请注明来源】未经授权,禁止复制转载。司,提供了AI语音社区,可以实现合成和克【作者:唐霜】【作者:唐霜】隆,也开放了API。我自己试了一下克隆,【未经授权禁止转载】【作者:唐霜】效果只能说一般,但是它提供的分角色功能我转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。觉得很有特点。
原创内容,盗版必究。【版权所有,侵权必究】【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。其他云语音合成著作权归作者所有,禁止商业用途转载。
本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net腾讯云、讯飞开放平台、有道智云都提供了语著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net音合成服务。我没有真正体验它们的效果,但【本文受版权保护】本文作者:唐霜,转载请注明出处。是阅读了它们的开发文档,从文档来看,感觉【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。就不像是给普通开发者提供使用的。
【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.netElevenLabs(仅英文)【关注微信公众号:wwwtangshuangnet】
【作者:唐霜】【未经授权禁止转载】【未经授权禁止转载】【本文首发于唐霜的博客】ElevenLabs是国外的一家专注做A【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。I语音相关的厂商,它的操作台一眼就能看出【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。非常典型的国外小而美公司的特点。其TTS【版权所有,侵权必究】【作者:唐霜】效果非常的优秀,但是只支持英文,如果给中【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net文的话,会有非常重的外国人口音(有的情况著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。下这竟然是一种特色)。
【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。【转载请注明来源】著作权归作者所有,禁止商业用途转载。它有开发API,付费为订阅制,总体而言,著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】虽然其功能很优秀,却不适合国内产品场景。
【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】【原创不易,请尊重版权】原生TTS功能转载请注明出处:www.tangshuang.net
【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】浏览器自带SpeechSynthesis
本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。我们的浏览器自带了未经授权,禁止复制转载。SpeechSynthesis【本文首发于唐霜的博客】接口,虽然这个接口是实验性的,但是其兼容【未经授权禁止转载】未经授权,禁止复制转载。性还是非常不错的。基于该接口,我们可以直【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net接用javascript实现语音播报,特【本文受版权保护】【原创内容,转载请注明出处】别是结合一些浏览器自带的分词工具,我们可【本文受版权保护】未经授权,禁止复制转载。以让SpeechSynthesis实现L本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】LM边思考边说话的效果。
【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。【原创不易,请尊重版权】但是它的音色会由浏览器加载对应的声音模型未经授权,禁止复制转载。【转载请注明来源】,而且其生成的声音距离自然的人声还是比较本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net远。
著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号:wwwtangshuangnet】TTS技术选型对比评测【未经授权禁止转载】
【原创不易,请尊重版权】【原创不易,请尊重版权】【原创内容,转载请注明出处】作为开发者,我们最终要根据当前的业务场景【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】选择一项TTS技术来实现自己的功能。如果原创内容,盗版必究。【原创不易,请尊重版权】使用开源项目,则必须自己部署服务,并基于本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net服务开发业务接口,难度最大;基于云服务,【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。则不需要自己部署,虽然成本更高,但是稳定【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。性和效果有保障;基于原生TTS或第三方原原创内容,盗版必究。【版权所有,侵权必究】生库,成本低,难度低,但是语音效果不怎么【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net好。
【原创内容,转载请注明出处】【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】【作者:唐霜】| OpenVoice本文版权归作者所有,未经授权不得转载。 | GPT-SoVITS本文版权归作者所有,未经授权不得转载。 | Fish-Speech著作权归作者所有,禁止商业用途转载。 | MeloTTS未经授权,禁止复制转载。 | ChatTTS著作权归作者所有,禁止商业用途转载。 | CosyVoice【访问 www.tangshuang.net 获取更多精彩内容】 | 微软Azure语音合成【转载请注明来源】 | TTSMaker本文作者:唐霜,转载请注明出处。 | 火山引擎megaTTS著作权归作者所有,禁止商业用途转载。 | Reecho睿声本文作者:唐霜,转载请注明出处。 | ElevenLabs【访问 www.tangshuang.net 获取更多精彩内容】 | 浏览器SpeechSynthesis【本文首发于唐霜的博客】 | ||
| 合成效果【版权所有】唐霜 www.tangshuang.net | 人声相似性【版权所有,侵权必究】 | ||||||||||||
| 稳定性【本文首发于唐霜的博客】 | 一般【作者:唐霜】 | 不错【本文受版权保护】 | 不错【版权所有】唐霜 www.tangshuang.net | 稳定本文版权归作者所有,未经授权不得转载。 | 忽上忽下著作权归作者所有,禁止商业用途转载。 | 很稳定转载请注明出处:www.tangshuang.net | 稳到飞起【原创内容,转载请注明出处】 | 稳到飞起著作权归作者所有,禁止商业用途转载。 | 稳到飞起著作权归作者所有,禁止商业用途转载。 | 还行本文作者:唐霜,转载请注明出处。 | 稳到飞起本文版权归作者所有,未经授权不得转载。 | ||
| 长文本著作权归作者所有,禁止商业用途转载。 | 差本文作者:唐霜,转载请注明出处。 | 差转载请注明出处:www.tangshuang.net | 差原创内容,盗版必究。 | 差【版权所有,侵权必究】 | 差【本文首发于唐霜的博客】 | 差著作权归作者所有,禁止商业用途转载。 | 好著作权归作者所有,禁止商业用途转载。 | 很好本文版权归作者所有,未经授权不得转载。 | 差【版权所有】唐霜 www.tangshuang.net | 差,但可以分角色【转载请注明来源】 | 好的不得了未经授权,禁止复制转载。 | ||
| 情感、风格【作者:唐霜】 | 几乎没有【作者:唐霜】 | 有一点【关注微信公众号:wwwtangshuangnet】 | 有【本文受版权保护】 | 不错【本文受版权保护】 | 很不错【版权所有】唐霜 www.tangshuang.net | 很不错【作者:唐霜】 | 可选【转载请注明来源】 | 几乎没有原创内容,盗版必究。 | 可选本文作者:唐霜,转载请注明出处。 | 有原创内容,盗版必究。 | 无原创内容,盗版必究。 | ||
| 中文+英文+数字未经授权,禁止复制转载。 | 差【原创不易,请尊重版权】 | 差【本文受版权保护】 | 还行【版权所有,侵权必究】 | 还行【本文首发于唐霜的博客】 | 好【版权所有】唐霜 www.tangshuang.net | 好【转载请注明来源】 | 好本文版权归作者所有,未经授权不得转载。 | 数字不行著作权归作者所有,禁止商业用途转载。 | 还行【本文受版权保护】 | 差本文版权归作者所有,未经授权不得转载。 | 好转载请注明出处:www.tangshuang.net | ||
| 音色数量原创内容,盗版必究。 | 多到不行本文作者:唐霜,转载请注明出处。 | 中文只有2个【访问 www.tangshuang.net 获取更多精彩内容】 | 海量本文版权归作者所有,未经授权不得转载。 | 还行【本文首发于唐霜的博客】 | 常用的都有【关注微信公众号:wwwtangshuangnet】 | 常用的都有本文版权归作者所有,未经授权不得转载。 | 竟然还有方言【本文受版权保护】 | 还行原创内容,盗版必究。 | 中文的不多,有粤语和台湾本文作者:唐霜,转载请注明出处。 | ||||
| 口语化【本文首发于唐霜的博客】 | 没有【转载请注明来源】 | 没有原创内容,盗版必究。 | 没有未经授权,禁止复制转载。 | 没有本文版权归作者所有,未经授权不得转载。 | 棒【未经授权禁止转载】 | 棒【原创不易,请尊重版权】 | 可选【关注微信公众号:wwwtangshuangnet】 | 没有【关注微信公众号:wwwtangshuangnet】 | 没有【本文首发于唐霜的博客】 | 没有【本文首发于唐霜的博客】 | 没有,机器音重到不行【访问 www.tangshuang.net 获取更多精彩内容】 | ||
| 合成可选项【版权所有,侵权必究】 | 太少【本文首发于唐霜的博客】 | 太少未经授权,禁止复制转载。 | 很少【作者:唐霜】 | 很少未经授权,禁止复制转载。 | 很少本文版权归作者所有,未经授权不得转载。 | 很少【本文首发于唐霜的博客】 | 很多转载请注明出处:www.tangshuang.net | 多转载请注明出处:www.tangshuang.net | 一般多【作者:唐霜】 | 太少著作权归作者所有,禁止商业用途转载。 | 几乎没有本文作者:唐霜,转载请注明出处。 | ||
| 克隆【版权所有】唐霜 www.tangshuang.net | 音色近似度【原创不易,请尊重版权】 | 有一定相似性著作权归作者所有,禁止商业用途转载。 | 比OpenVoice稍好原创内容,盗版必究。 | 比OpenVoice好很多【版权所有】唐霜 www.tangshuang.net | 用SenseVoice克隆,效果比Ope【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.netnVoice好非常多 | 非常接近原声本文作者:唐霜,转载请注明出处。 | 个人感觉一般本文作者:唐霜,转载请注明出处。 | 付费功能没有试转载请注明出处:www.tangshuang.net | |||||
| 语气情感【原创不易,请尊重版权】 | 可加控制器控制【版权所有,侵权必究】 | 有一点点,但不多【版权所有】唐霜 www.tangshuang.net | 有【版权所有,侵权必究】 | 不错【作者:唐霜】 | 几乎没有【本文首发于唐霜的博客】 | 几乎没有【版权所有】唐霜 www.tangshuang.net | –未经授权,禁止复制转载。 | ||||||
| 零样本转载请注明出处:www.tangshuang.net | 是未经授权,禁止复制转载。 | 是【版权所有,侵权必究】 | 是【转载请注明来源】 | 是【访问 www.tangshuang.net 获取更多精彩内容】 | |||||||||
| 源人声要求著作权归作者所有,禁止商业用途转载。 | 30s本文版权归作者所有,未经授权不得转载。 | 5s本文作者:唐霜,转载请注明出处。 | 30s本文作者:唐霜,转载请注明出处。 | 3-10s【访问 www.tangshuang.net 获取更多精彩内容】 | |||||||||
| 开发【本文首发于唐霜的博客】 | 要自己部署转载请注明出处:www.tangshuang.net | 是【访问 www.tangshuang.net 获取更多精彩内容】 | 是转载请注明出处:www.tangshuang.net | 是,可使用API服务【版权所有】唐霜 www.tangshuang.net | 是【关注微信公众号:wwwtangshuangnet】 | 是本文版权归作者所有,未经授权不得转载。 | 是,可使用阿里云服务【作者:唐霜】 | ||||||
| 开发难度著作权归作者所有,禁止商业用途转载。 | 难【本文首发于唐霜的博客】 | 难【版权所有,侵权必究】 | 难转载请注明出处:www.tangshuang.net | 难【原创不易,请尊重版权】 | 很难【版权所有,侵权必究】 | 一般【原创不易,请尊重版权】 | 一般【作者:唐霜】 | 简单【原创内容,转载请注明出处】 | 简单【访问 www.tangshuang.net 获取更多精彩内容】 | 简单本文版权归作者所有,未经授权不得转载。 | 简单转载请注明出处:www.tangshuang.net | 简单【转载请注明来源】 | |
| 自由度本文作者:唐霜,转载请注明出处。 | 高【原创内容,转载请注明出处】 | 高【作者:唐霜】 | 高【本文受版权保护】 | 高未经授权,禁止复制转载。 | 高【原创不易,请尊重版权】 | 中未经授权,禁止复制转载。 | 高本文作者:唐霜,转载请注明出处。 | 低【本文首发于唐霜的博客】 | 低本文版权归作者所有,未经授权不得转载。 | 一般本文版权归作者所有,未经授权不得转载。 | 极高本文作者:唐霜,转载请注明出处。 | ||
| 其他【原创不易,请尊重版权】 | 项目地址原创内容,盗版必究。 | https://github.com/m著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。yshell-ai/OpenVoice | https://github.com/R本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.netVC-Boss/GPT-SoVITS | https://github.com/f【转载请注明来源】【转载请注明来源】ishaudio/fish-speech | https://github.com/m原创内容,盗版必究。原创内容,盗版必究。yshell-ai/MeloTTS | https://github.com/2【原创内容,转载请注明出处】【原创内容,转载请注明出处】noise/ChatTTS | https://github.com/F原创内容,盗版必究。【原创不易,请尊重版权】unAudioLLM/CosyVoice | ||||||
| 服务【作者:唐霜】 | https://fish.audio/z本文版权归作者所有,未经授权不得转载。【转载请注明来源】h-CN/ | https://help.aliyun.著作权归作者所有,禁止商业用途转载。【本文受版权保护】com/zh/isi/developer原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】-reference/streaming本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。-speech-synthesis-tt本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。s-documentation/ | https://learn.micros【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.netoft.com/zh-cn/azure/本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。ai-services/speech-s【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】ervice/index-text-to【版权所有,侵权必究】【未经授权禁止转载】-speech | https://ttsmaker.com【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net/ | https://www.volcengi本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。ne.com/docs/6561/798【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。17 | https://www.reecho.c著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】n/ | https://elevenlabs.i【本文受版权保护】【关注微信公众号:wwwtangshuangnet】o/app/speech-synthes原创内容,盗版必究。未经授权,禁止复制转载。is/text-to-speech | https://developer.mo原创内容,盗版必究。转载请注明出处:www.tangshuang.netzilla.org/en-US/docs本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】/Web/API/SpeechSynth本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。esis | |||||
| 开源协议【版权所有】唐霜 www.tangshuang.net | MIT【原创内容,转载请注明出处】 | MIT【版权所有】唐霜 www.tangshuang.net | CC-BY-NC-SA 4.0 lice【关注微信公众号:wwwtangshuangnet】【本文受版权保护】nse | MIT未经授权,禁止复制转载。 | AGPL-3.0 license转载请注明出处:www.tangshuang.net | Apache-2.0 license【关注微信公众号:wwwtangshuangnet】 | |||||||
| 可商用转载请注明出处:www.tangshuang.net | 可【作者:唐霜】 | 可【版权所有,侵权必究】 | 不可,需授权本文版权归作者所有,未经授权不得转载。 | 可【版权所有】唐霜 www.tangshuang.net | 不可,需购买私有版独立部署【版权所有】唐霜 www.tangshuang.net | 可【原创内容,转载请注明出处】 | 不可,需购买商业版转载请注明出处:www.tangshuang.net | 可【版权所有,侵权必究】 | |||||
| 总结本文作者:唐霜,转载请注明出处。 | 优点【本文受版权保护】 | 开源免费可商用【版权所有】唐霜 www.tangshuang.net | 开源免费可商用,稳定【作者:唐霜】 | 人声相似【访问 www.tangshuang.net 获取更多精彩内容】 | 开源免费可商用,稳定转载请注明出处:www.tangshuang.net | 口语化很棒【关注微信公众号:wwwtangshuangnet】 | 效果比chatTTS还ok本文版权归作者所有,未经授权不得转载。 | 无可挑剔【本文受版权保护】 | 音色多,长文本【版权所有,侵权必究】 | 最接近原声著作权归作者所有,禁止商业用途转载。 | 国内少有的专注语音厂商【转载请注明来源】 | 功能多,小而美【版权所有】唐霜 www.tangshuang.net | 浏览器自带,不要钱,无成本著作权归作者所有,禁止商业用途转载。 |
| 缺点【版权所有】唐霜 www.tangshuang.net | 效果一般【访问 www.tangshuang.net 获取更多精彩内容】 | 效果一般【作者:唐霜】 | 小众,不可商用未经授权,禁止复制转载。 | 音色少【版权所有】唐霜 www.tangshuang.net | 没有克隆,不可商用原创内容,盗版必究。 | 性能差,要求高(但可以用云服务)本文作者:唐霜,转载请注明出处。 | 没有克隆,国内无法调用API本文作者:唐霜,转载请注明出处。 | 收费贵转载请注明出处:www.tangshuang.net | 效果不好【访问 www.tangshuang.net 获取更多精彩内容】 | 不支持中文,贵著作权归作者所有,禁止商业用途转载。 | 音色太拉,如果将来可以自己载入音色模型就【原创不易,请尊重版权】【本文受版权保护】好了 |
就目前来说,我们很难推荐哪一款技术选型是本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】最合适的。我们可以根据自己的实际需求来进【作者:唐霜】【作者:唐霜】行选择。
本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】总结而言:【原创不易,请尊重版权】
【本文受版权保护】本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。- 如果是为了长文本读小说,可以选择TTSM原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.netaker或Azure的AI语音服务 本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】
- 如果仅仅是为了能够发出声音进行阅读,为了转载请注明出处:www.tangshuang.net原创内容,盗版必究。追求实时性,流式阅读,可以选择浏览器Sp本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。eechSynthesis 转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net
- 如果追求免费可商用自由度高,就选GPT-转载请注明出处:www.tangshuang.net【作者:唐霜】SoVITS,MIT协议可以克隆,效果稳【原创不易,请尊重版权】【转载请注明来源】定,相似度虽然不够,但起码能用 转载请注明出处:www.tangshuang.net【未经授权禁止转载】转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】
- 如果追求克隆口语化,接近自然人声,就选C【版权所有,侵权必究】原创内容,盗版必究。osyVoice阿里云服务或Azure的本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】AI语音服务 【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】
- 如果追求克隆音色相似度很高,可以尝试火山原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。引擎的语音合成服务,贵就贵点 本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】
至于chatTTS和Fish-Speec【关注微信公众号:wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.neth,由于其协议问题,不建议采用。
【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】【转载请注明来源】结语【版权所有,侵权必究】
原创内容,盗版必究。【原创内容,转载请注明出处】【原创内容,转载请注明出处】随着AI应用的发展,市面上会出现愈来越多【作者:唐霜】著作权归作者所有,禁止商业用途转载。GPT-4o发布时演示的与智能体实时对话转载请注明出处:www.tangshuang.net原创内容,盗版必究。的应用,这也是迈向机器人时代的重要一步。【原创不易,请尊重版权】未经授权,禁止复制转载。然而就目前市面上的TTS产品而言,就目前本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net来说,都无法做到最好,特别是在口语化上,【作者:唐霜】未经授权,禁止复制转载。无法做到极致的自然交流。当然,这或许也不【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】是一件坏事,毕竟我们有的时候还是需要区分本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】是自然人声还是机器声,特别是在诈骗横行的本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。当下。作为产品的开发者,我们在追求极致的【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。同时,也应该考虑到安全性,避免由此带来的【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】政策风险和将来的法律问题。
转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。【作者:唐霜】未经授权,禁止复制转载。2024-08-28 35541



有没有比较一下微软的声音克隆功能?
博主你好,最近出了一个F5-TTS,方便测评吗(前面打错了
已经关注了,尽快评测并加到文章末
它有个很蛋疼的问题,由于对齐得不好,会将输入音频中的某些短语插入到合成音频中。。。只能使用一些小trick尽量避免。另外我在测试时发现,会生成的音频有时会胡说八道(听不懂的外星语言),提了issue,作者不是很乐意解答。相对来说我更倾向于CosyVoice,阿里提供了钉钉群,群内有他们的技术可以交流
我现在的主力是cosyvoice和豆包,云上用着
非常好,果断赞一个,送杯咖啡
感谢支持
非常棒的文章。感谢总结。我在用cosyvoice 自己搭建了实时推理服务,用在自己的产品中。目前来看,cosyvoice是最均衡的。没深入去看,不知道他的训练 部分是不是也开源了好像是。
学习下测评结果