2024年TTS技术选型对比评测-唐霜

过去半年，随着大厂的加入，TTS领域有了未经授权，禁止复制转载。【原创内容，转载请注明出处】非常大的变化，在以前的文章中，我曾指出S【转载请注明来源】原创内容，盗版必究。peech是AIGC领域非常重要的一环，未经授权，禁止复制转载。【原创内容，转载请注明出处】它将在众多AIGC领域不可或缺。TTS已【作者：唐霜】【关注微信公众号：wwwtangshuangnet】经从传统的机器合成音，发展到了自然音阶段著作权归作者所有，禁止商业用途转载。【本文受版权保护】，当下的TTS项目，追求合成音的自然流畅转载请注明出处：www.tangshuang.net本文作者：唐霜，转载请注明出处。，口语化、语气、停顿、口头禅、情绪价值等【原创内容，转载请注明出处】【原创内容，转载请注明出处】重要因素。过去一段时间，我调研了GPT-转载请注明出处：www.tangshuang.net转载请注明出处：www.tangshuang.netSoVITS, ChatTTS, Cos【作者：唐霜】转载请注明出处：www.tangshuang.netyVoice, Fish-Speech等【本文首发于唐霜的博客】【原创不易，请尊重版权】项目，同时对国内大厂云上的语音合成服务进【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net行了了解，顺带对国外开放了合成接口的创业转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。项目进行了试用。本文将详细阐述我所接触到本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net的这些TTS项目，以及对它们在接入后是否本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。符合预期做对比评测，以为正在做TTS技术【本文首发于唐霜的博客】【本文受版权保护】选型的朋友提供参考。

【关注微信公众号：wwwtangshua转载请注明出处：www.tangshuang.net本文版权归作者所有，未经授权不得转载。ngnet】未经授权，禁止复制转载。【原创不易，请尊重版权】

TTS技术指标

在国内有一家叫做ttsmaker的网站，【原创内容，转载请注明出处】【版权所有】唐霜 www.tangshuang.net提供了非常多且免费的语音合成音色，是我认著作权归作者所有，禁止商业用途转载。本文版权归作者所有，未经授权不得转载。为国内目前最为优秀的传统TTS提供方。但【关注微信公众号：wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】可能由于其内部政策的原因，目前已关闭AP【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。I服务，因此，我们无法将它作为技术备选。本文作者：唐霜，转载请注明出处。原创内容，盗版必究。在此，需要指出，本文要评测的，是可以作为未经授权，禁止复制转载。【转载请注明来源】开发者可以常规接入，作为自己的TTS后端本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。的技术备选，可以是服务商提供基于acce本文作者：唐霜，转载请注明出处。【未经授权禁止转载】ss_token的API，可以是类似云服原创内容，盗版必究。原创内容，盗版必究。务商提供的客户端SDK，也可以是开放源码本文版权归作者所有，未经授权不得转载。【原创不易，请尊重版权】自己部署为本地服务的，简而言之，如果产品【关注微信公众号：wwwtangshuangnet】【原创内容，转载请注明出处】虽好，但作为普通开发者无法接入的（如下文【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net提到的Seed-TTS），不再本文考虑范【关注微信公众号：wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】围内。

原创内容，盗版必究。【转载请注明来源】原创内容，盗版必究。转载请注明出处：www.tangshua【作者：唐霜】转载请注明出处：www.tangshuang.netng.net

【未经授权禁止转载】【原创不易，请尊重版权】

接入的便捷性：如果接入很麻烦，意味着后续【转载请注明来源】【关注微信公众号：wwwtangshuangnet】的维护、升级都需要付出更多的工作

原创内容，盗版必究。

本文作者：唐霜，转载请注明出处。

效果的出色度：就当下而言，合成语音越接近【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net自然说话，效果越好

【原创不易，请尊重版权】

【本文首发于唐霜的博客】

【转载请注明来源】

合成的稳定性：每次输出的效果要具有稳定性原创内容，盗版必究。未经授权，禁止复制转载。，声音保持一致，断句、背景电流声、停顿时本文版权归作者所有，未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】长等都符合预期

本文作者：唐霜，转载请注明出处。

【原创不易，请尊重版权】

【本文受版权保护】

【转载请注明来源】

成本的低廉性

【转载请注明来源】

【原创内容，转载请注明出处】

著作权归作者所有，禁止商业用途转载。

每一个方面，都会有更多的细节指标来支撑，未经授权，禁止复制转载。【本文首发于唐霜的博客】我会在最后的对比中，把这些细节指标列出来【访问 www.tangshuang.net 获取更多精彩内容】原创内容，盗版必究。，让读者可以一目了然。

音色

原创内容，盗版必究。转载请注明出处：www.tangshua【原创不易，请尊重版权】【作者：唐霜】ng.net【访问 www.tangshuang.n【本文首发于唐霜的博客】【原创不易，请尊重版权】et 获取更多精彩内容】【关注微信公众号：wwwtangshua【转载请注明来源】【本文受版权保护】ngnet】

在所有指标中，音色是最重要的指标。不同的本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。模型，在生成效果上，对音色的依赖度都较大【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】。有的甚至直接靠音色来决定生成语音的语速【版权所有，侵权必究】【原创不易，请尊重版权】、风格和情感。音色可能成为当下的核心话题【作者：唐霜】【原创不易，请尊重版权】，虽然从社会学层面，克隆会带来一些伦理问未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。题，但是从技术角度，想要获得具体的应用效【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。果，在克隆上下功夫，是目前大部分团队正在【作者：唐霜】【未经授权禁止转载】努力的方向。

著作权归作者所有，禁止商业用途转载。【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。

从技术控制的角度，除了音色外，我们希望自未经授权，禁止复制转载。【本文受版权保护】己控制情感、说话的风格（人物扮演的角色，【本文首发于唐霜的博客】【原创不易，请尊重版权】例如同一个人，可以扮演家庭主妇、职场女强【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net人、商店老板娘等等）、停顿、口头禅、情感【转载请注明来源】本文版权归作者所有，未经授权不得转载。强度、音量、语速、语言、音调（低沉或尖叫原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。）等。只有在技术上我们可以完全独立控制这原创内容，盗版必究。本文作者：唐霜，转载请注明出处。些参数，我们才能在具体的场景中获得更好的本文作者：唐霜，转载请注明出处。【本文受版权保护】体验。例如在朗读小说时，不仅要为角色分配【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】音色，而且还要在不同的故事情节中，对角色【版权所有，侵权必究】未经授权，禁止复制转载。说的话进行情感、风格等的适配。当然，如果本文作者：唐霜，转载请注明出处。本文版权归作者所有，未经授权不得转载。这些参数我们完全可控，可以借助大模型来生未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net成朗读脚本。

【本文受版权保护】本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。

TTS技术备选介绍

虽然本文试图收集更多技术备选方案，但过多转载请注明出处：www.tangshuang.net【原创内容，转载请注明出处】的选项反而可能带来困扰，因此，我只列出相【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处：www.tangshuang.net对知名的一些技术选项。

【本文受版权保护】未经授权，禁止复制转载。

开源TTS项目

OpenVoice

可以说，OpenVoice开创了准确克隆【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net人声的时代，它给技术界带来了新的思路。不【关注微信公众号：wwwtangshuangnet】【原创内容，转载请注明出处】过目前来看，OpenVoice的TTS效未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】果已经远远落后于后起之秀。尽管如此，它依【关注微信公众号：wwwtangshuangnet】【本文首发于唐霜的博客】然是伟大的开源项目。目前出现了了Chat原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】TTS+OpenVoice的组合，Cha【关注微信公众号：wwwtangshuangnet】本文作者：唐霜，转载请注明出处。tTTS效果出色，但是克隆很逊，因此有这【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。样的巧妙组合。

【本文受版权保护】【未经授权禁止转载】

GPT-SoVITS

知名的声音克隆项目，GPT-SoVITS可以克隆出音色与原声极为接近的种子，而且【原创内容，转载请注明出处】【关注微信公众号：wwwtangshuangnet】所需的声音长度很短，克隆速度快，推理速度【未经授权禁止转载】【原创内容，转载请注明出处】也快，支持中英语言。不过，虽然GPT-S原创内容，盗版必究。【本文首发于唐霜的博客】oVITS在克隆上能够让输出的声音与原声转载请注明出处：www.tangshuang.net【本文受版权保护】更像，但是在推理时的自然度不够，能够比较原创内容，盗版必究。【版权所有，侵权必究】容易听出是AI的合成声。

近期，GPT-SoVITS发布了2.0版本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】本，在1.0的基础上做了多项提升。但是据【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。社区小伙伴反馈，2.0之后，克隆的声音反本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】而更不像原声了，但是稳定性获得了更好的保【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号：wwwtangshuangnet】证。从某种角度讲，我们不应该追求与原声的【转载请注明来源】【本文受版权保护】相似，而应该追求稳定性。

本文版权归作者所有，未经授权不得转载。著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。

Fish-Speech

【转载请注明来源】本文作者：唐霜，转载请注明出处。

相对冷门的TTS开源项目，Fish-Speech附属于大项目Fish Audio，Fis【作者：唐霜】【原创不易，请尊重版权】h Audio团队部分成员来自GPT-S转载请注明出处：www.tangshuang.net【本文受版权保护】oVITS，技术上具有一脉相承的意味。

【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。

本文版权归作者所有，未经授权不得转载。转载请注明出处：www.tangshua【本文受版权保护】原创内容，盗版必究。ng.net

MeloTTS

【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。原创内容，盗版必究。【未经授权禁止转载】

MeloTTS 是一个由 MyShell AI 开发的【未经授权禁止转载】【未经授权禁止转载】开源、高质量、多语言的文本转语音项目，可原创内容，盗版必究。未经授权，禁止复制转载。以将文本转换成自然流畅的语音输出，并支持【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。英语、西班牙语、法语、中文、日语和韩语等本文作者：唐霜，转载请注明出处。【本文受版权保护】多种语言。MeloTTS 特别支持 CP原创内容，盗版必究。【转载请注明来源】U 环境下的实时语音合成，无需依赖 GP【转载请注明来源】转载请注明出处：www.tangshuang.netU。

从体验来讲，MeloTTS 的合成语音只【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net有轻微的机器感，这在开源项目中算是非常优【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】秀。并且文本中的中文、英文和数字都几乎能【转载请注明来源】原创内容，盗版必究。准确地识别与合成，要说缺点的话就是没有太【本文首发于唐霜的博客】【作者：唐霜】多的 voice speaker 选项，著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net中文目前只找到了一个女声和一个男声。

另外值得一提的是，OpenVoice也是【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有，未经授权不得转载。MyShell AI的项目。

未经授权，禁止复制转载。【原创不易，请尊重版权】

ChatTTS

ChatTTS 也是一个开源的文本转语音项目，支持中文原创内容，盗版必究。【版权所有，侵权必究】和英文。目前来说，是开源社区最活跃的TT【作者：唐霜】【版权所有】唐霜 www.tangshuang.netS项目，社区出现的ChatTTS For【作者：唐霜】【关注微信公众号：wwwtangshuangnet】ge项目在原项目等基础上做了很大的提升。【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处：www.tangshuang.net其生成的效果非常接近真实人生。

不过，其团队出于安全和商业的考虑，开源版本文版权归作者所有，未经授权不得转载。【本文受版权保护】本的模型参数较小，且官方特意加入了噪声。

本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。原创内容，盗版必究。【原创不易，请尊重版权】

CosyVoice

【访问 www.tangshuang.n未经授权，禁止复制转载。著作权归作者所有，禁止商业用途转载。et 获取更多精彩内容】【作者：唐霜】

CosyVoice是阿里发布的开源模型，附属于大项目Fun未经授权，禁止复制转载。未经授权，禁止复制转载。AudioLLM。从官方的demo来看，【原创内容，转载请注明出处】【转载请注明来源】其效果非常接近人声，其效果与ChatTT【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.netS类似，具有情感和口气。同时，其克隆效果【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有，未经授权不得转载。也非常出色，是目前来说，国内最完整最优秀【本文受版权保护】【版权所有，侵权必究】的TTS开源项目。

【原创不易，请尊重版权】【未经授权禁止转载】

同时，阿里云上也提供了CosyVoice【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处：www.tangshuang.net的服务，因此，下方就不单独提阿里云服务部【原创不易，请尊重版权】原创内容，盗版必究。分。

【转载请注明来源】【原创不易，请尊重版权】未经授权，禁止复制转载。转载请注明出处：www.tangshua未经授权，禁止复制转载。未经授权，禁止复制转载。ng.net

闭源TTS服务

微软Azure语音合成

【原创不易，请尊重版权】本文作者：唐霜，转载请注明出处。转载请注明出处：www.tangshua本文版权归作者所有，未经授权不得转载。【作者：唐霜】ng.net【关注微信公众号：wwwtangshua【原创不易，请尊重版权】【本文首发于唐霜的博客】ngnet】

从目前所有云服务公开的情况来看，Azur本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】e的语音合成是最优秀最稳定的选择，它提供【原创内容，转载请注明出处】【关注微信公众号：wwwtangshuangnet】了非常多的配置选项，可以帮助开发者在不同【原创不易，请尊重版权】【作者：唐霜】场景实现自己的效果。而且，网上有很多攻略著作权归作者所有，禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net，可以白嫖其免费额度。

【原创不易，请尊重版权】【原创内容，转载请注明出处】【原创不易，请尊重版权】

TTSMaker

TTSMaker可能是基于Azure语音【版权所有，侵权必究】【未经授权禁止转载】合成服务进行二次开发后的产品，其效果和性本文作者：唐霜，转载请注明出处。【本文受版权保护】能非常令人惊艳。它提供了非常多的音色，也【原创不易，请尊重版权】著作权归作者所有，禁止商业用途转载。提供了长文本TTS，免费额度也足够普通用【未经授权禁止转载】转载请注明出处：www.tangshuang.net户使用。它分为国内版和海外版，域名即cn【原创不易，请尊重版权】【转载请注明来源】和com的区别，由于某些原因，com域名著作权归作者所有，禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net不能在国内访问，而由于某些原因，cn站点未经授权，禁止复制转载。原创内容，盗版必究。关闭了API服务。

火山引擎megaTTS

【访问 www.tangshuang.n本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。et 获取更多精彩内容】【访问 www.tangshuang.n【转载请注明来源】未经授权，禁止复制转载。et 获取更多精彩内容】

豆包背后使用了Seed-TTS，但是Se未经授权，禁止复制转载。原创内容，盗版必究。ed-TTS并没有公开提供服务，字节在火原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】山引擎提供了megaTTS，我有真实体验转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。，从克隆的效果来看，非常的优秀，与豆包的【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。克隆效果有的一比。不过megaTTS的收转载请注明出处：www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】费比较贵。

Reecho睿声

著作权归作者所有，禁止商业用途转载。【访问 www.tangshuang.n著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。et 获取更多精彩内容】著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshua原创内容，盗版必究。【本文受版权保护】ng.net

国内较为专注语音相关的厂商，深圳的一家公未经授权，禁止复制转载。未经授权，禁止复制转载。司，提供了AI语音社区，可以实现合成和克本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。隆，也开放了API。我自己试了一下克隆，【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。效果只能说一般，但是它提供的分角色功能我本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】觉得很有特点。

【转载请注明来源】转载请注明出处：www.tangshua【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】ng.net原创内容，盗版必究。【转载请注明来源】

其他云语音合成

本文作者：唐霜，转载请注明出处。【未经授权禁止转载】

腾讯云、讯飞开放平台、有道智云都提供了语【关注微信公众号：wwwtangshuangnet】【作者：唐霜】音合成服务。我没有真正体验它们的效果，但原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】是阅读了它们的开发文档，从文档来看，感觉原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】就不像是给普通开发者提供使用的。

【原创内容，转载请注明出处】【本文受版权保护】

ElevenLabs（仅英文）

本文版权归作者所有，未经授权不得转载。原创内容，盗版必究。

ElevenLabs是国外的一家专注做A【本文受版权保护】本文版权归作者所有，未经授权不得转载。I语音相关的厂商，它的操作台一眼就能看出【原创内容，转载请注明出处】未经授权，禁止复制转载。非常典型的国外小而美公司的特点。其TTS本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net效果非常的优秀，但是只支持英文，如果给中【作者：唐霜】未经授权，禁止复制转载。文的话，会有非常重的外国人口音（有的情况本文作者：唐霜，转载请注明出处。原创内容，盗版必究。下这竟然是一种特色）。

【本文受版权保护】未经授权，禁止复制转载。【关注微信公众号：wwwtangshua本文作者：唐霜，转载请注明出处。【未经授权禁止转载】ngnet】

未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。【本文受版权保护】

原生TTS功能

浏览器自带SpeechSynthesis

【访问 www.tangshuang.n【本文受版权保护】【作者：唐霜】et 获取更多精彩内容】【关注微信公众号：wwwtangshua【访问 www.tangshuang.net 获取更多精彩内容】原创内容，盗版必究。ngnet】

我们的浏览器自带了SpeechSynthesis接口，虽然这个接口是实验性的，但是其兼容【作者：唐霜】著作权归作者所有，禁止商业用途转载。性还是非常不错的。基于该接口，我们可以直转载请注明出处：www.tangshuang.net【本文首发于唐霜的博客】接用javascript实现语音播报，特【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。别是结合一些浏览器自带的分词工具，我们可未经授权，禁止复制转载。【本文首发于唐霜的博客】以让SpeechSynthesis实现L本文作者：唐霜，转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】LM边思考边说话的效果。

著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。【本文首发于唐霜的博客】

TTS技术选型对比评测

作为开发者，我们最终要根据当前的业务场景【本文首发于唐霜的博客】原创内容，盗版必究。选择一项TTS技术来实现自己的功能。如果本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】使用开源项目，则必须自己部署服务，并基于【本文首发于唐霜的博客】原创内容，盗版必究。服务开发业务接口，难度最大；基于云服务，本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。则不需要自己部署，虽然成本更高，但是稳定【转载请注明来源】【原创内容，转载请注明出处】性和效果有保障；基于原生TTS或第三方原本文版权归作者所有，未经授权不得转载。【原创不易，请尊重版权】生库，成本低，难度低，但是语音效果不怎么未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。好。

【原创不易，请尊重版权】本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshua【本文受版权保护】转载请注明出处：www.tangshuang.netngnet】【关注微信公众号：wwwtangshua【作者：唐霜】【转载请注明来源】ngnet】

OpenVoice

GPT-SoVITS

Fish-Speech

MeloTTS

ChatTTS

CosyVoice

微软Azure语音合成

TTSMaker

火山引擎megaTTS

Reecho睿声

ElevenLabs

浏览器SpeechSynthesis

合成效果

人声相似性

稳定性

一般

不错

稳定

忽上忽下

很稳定

稳到飞起

还行

稳到飞起

长文本

差

好

很好

差

差，但可以分角色

好的不得了

情感、风格

几乎没有

有一点

有

不错

很不错

可选

几乎没有

可选

有

无

中文+英文+数字

差

还行

好

数字不行

还行

差

好

音色数量

多到不行

中文只有2个

海量

还行

常用的都有

竟然还有方言

还行

中文的不多，有粤语和台湾

口语化

没有

棒

可选

没有

没有，机器音重到不行

合成可选项

太少

很少

很多

多

一般多

太少

几乎没有

克隆

音色近似度

有一定相似性

比OpenVoice稍好

比OpenVoice好很多

用SenseVoice克隆，效果比OpenVoice好非常多

非常接近原声

个人感觉一般

付费功能没有试

语气情感

可加控制器控制

有一点点，但不多

有

不错

几乎没有

–

零样本

是

源人声要求

30s

3-10s

开发

要自己部署

是

是，可使用API服务

是

是，可使用阿里云服务

开发难度

难

很难

一般

简单

自由度

高

中

高

低

一般

极高

其他

项目地址

https://github.com/myshell-ai/OpenVoice

https://github.com/RVC-Boss/GPT-SoVITS

https://github.com/fishaudio/fish-speech

https://github.com/myshell-ai/MeloTTS

https://github.com/2noise/ChatTTS

https://github.com/FunAudioLLM/CosyVoice

服务

https://fish.audio/zh-CN/

https://help.aliyun.com/zh/isi/developer-reference/streaming-speech-synthesis-tts-documentation/

https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/index-text-to-speech

https://ttsmaker.com/

https://www.volcengine.com/docs/6561/79817

https://www.reecho.cn/

https://elevenlabs.io/app/speech-synthesis/text-to-speech

https://developer.mozilla.org/en-US/docs/Web/API/SpeechSynthesis

开源协议

MIT

CC-BY-NC-SA 4.0 license

MIT

AGPL-3.0 license

Apache-2.0 license

可商用

可

不可，需授权

可

不可，需购买私有版独立部署

可

不可，需购买商业版

可

总结

优点

开源免费可商用

开源免费可商用，稳定

人声相似

开源免费可商用，稳定

口语化很棒

效果比chatTTS还ok

无可挑剔

音色多，长文本

最接近原声

国内少有的专注语音厂商

功能多，小而美

浏览器自带，不要钱，无成本

缺点

效果一般

小众，不可商用

音色少

没有克隆，不可商用

性能差，要求高（但可以用云服务）

没有克隆，国内无法调用API

收费贵

效果不好

不支持中文，贵

音色太拉，如果将来可以自己载入音色模型就好了

【未经授权禁止转载】【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。

就目前来说，我们很难推荐哪一款技术选型是【转载请注明来源】【关注微信公众号：wwwtangshuangnet】最合适的。我们可以根据自己的实际需求来进【未经授权禁止转载】本文作者：唐霜，转载请注明出处。行选择。

总结而言：

转载请注明出处：www.tangshua原创内容，盗版必究。未经授权，禁止复制转载。ng.net未经授权，禁止复制转载。

如果是为了长文本读小说，可以选择TTSM【作者：唐霜】原创内容，盗版必究。aker或Azure的AI语音服务

【本文首发于唐霜的博客】

【未经授权禁止转载】

如果仅仅是为了能够发出声音进行阅读，为了【未经授权禁止转载】【作者：唐霜】追求实时性，流式阅读，可以选择浏览器Sp转载请注明出处：www.tangshuang.net【未经授权禁止转载】eechSynthesis

本文作者：唐霜，转载请注明出处。

【访问 www.tangshuang.n本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。et 获取更多精彩内容】

如果追求免费可商用自由度高，就选GPT-本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。SoVITS，MIT协议可以克隆，效果稳【访问 www.tangshuang.net 获取更多精彩内容】【原创不易，请尊重版权】定，相似度虽然不够，但起码能用

【访问 www.tangshuang.n本文作者：唐霜，转载请注明出处。【本文首发于唐霜的博客】et 获取更多精彩内容】

【访问 www.tangshuang.n本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。et 获取更多精彩内容】

【作者：唐霜】

【原创内容，转载请注明出处】

原创内容，盗版必究。

著作权归作者所有，禁止商业用途转载。

本文作者：唐霜，转载请注明出处。

如果追求克隆音色相似度很高，可以尝试火山【转载请注明来源】【本文首发于唐霜的博客】引擎的语音合成服务，贵就贵点

本文版权归作者所有，未经授权不得转载。

【转载请注明来源】

著作权归作者所有，禁止商业用途转载。

至于chatTTS和Fish-Speec著作权归作者所有，禁止商业用途转载。【原创内容，转载请注明出处】h，由于其协议问题，不建议采用。

结语

随着AI应用的发展，市面上会出现愈来越多【本文受版权保护】著作权归作者所有，禁止商业用途转载。GPT-4o发布时演示的与智能体实时对话【转载请注明来源】本文版权归作者所有，未经授权不得转载。的应用，这也是迈向机器人时代的重要一步。【版权所有，侵权必究】【转载请注明来源】然而就目前市面上的TTS产品而言，就目前本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。来说，都无法做到最好，特别是在口语化上，【未经授权禁止转载】未经授权，禁止复制转载。无法做到极致的自然交流。当然，这或许也不未经授权，禁止复制转载。【本文首发于唐霜的博客】是一件坏事，毕竟我们有的时候还是需要区分未经授权，禁止复制转载。【本文首发于唐霜的博客】是自然人声还是机器声，特别是在诈骗横行的【关注微信公众号：wwwtangshuangnet】【本文受版权保护】当下。作为产品的开发者，我们在追求极致的本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。同时，也应该考虑到安全性，避免由此带来的【转载请注明来源】【原创内容，转载请注明出处】政策风险和将来的法律问题。

【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。

【原创内容，转载请注明出处】【原创不易，请尊重版权】本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】未经授权，禁止复制转载。原创内容，盗版必究。转载请注明出处：www.tangshuang.net【本文受版权保护】本文作者：唐霜，转载请注明出处。本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】【作者：唐霜】【转载请注明来源】【转载请注明来源】【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】未经授权，禁止复制转载。著作权归作者所有，禁止商业用途转载。【未经授权禁止转载】【原创不易，请尊重版权】【未经授权禁止转载】本文作者：唐霜，转载请注明出处。【版权所有，侵权必究】【本文受版权保护】【版权所有，侵权必究】【版权所有】唐霜 www.tangshuang.net【作者：唐霜】【转载请注明来源】【转载请注明来源】本文版权归作者所有，未经授权不得转载。【本文受版权保护】本文作者：唐霜，转载请注明出处。本文版权归作者所有，未经授权不得转载。

2024-08-28 38777

已有9条评论

nova 2024-12-28 12:44

有没有比较一下微软的声音克隆功能？

回复
化腾少了个啥 2024-11-08 11:50

博主你好，最近出了一个F5-TTS，方便测评吗（前面打错了

回复
- 否子戈 2024-11-19 15:09
  
  已经关注了，尽快评测并加到文章末
  
  回复
- 落山 2024-11-21 14:44
  
  它有个很蛋疼的问题，由于对齐得不好，会将输入音频中的某些短语插入到合成音频中。。。只能使用一些小trick尽量避免。另外我在测试时发现，会生成的音频有时会胡说八道(听不懂的外星语言)，提了issue，作者不是很乐意解答。相对来说我更倾向于CosyVoice，阿里提供了钉钉群，群内有他们的技术可以交流
  
  回复
  - 否子戈 2024-11-29 00:16
    
    我现在的主力是cosyvoice和豆包，云上用着
    
    回复
腰马合一 2024-10-11 11:43

非常好，果断赞一个，送杯咖啡

回复
- 否子戈 2024-10-11 20:41
  
  感谢支持
  
  回复
小鱼 2024-09-10 20:52

非常棒的文章。感谢总结。我在用cosyvoice 自己搭建了实时推理服务，用在自己的产品中。目前来看，cosyvoice是最均衡的。没深入去看，不知道他的训练部分是不是也开源了好像是。

回复
蓉蓉 2024-09-07 20:34

学习下测评结果

回复

唐霜

2024年TTS技术选型对比评测

TTS技术指标

TTS技术备选介绍

开源TTS项目

闭源TTS服务

原生TTS功能

TTS技术选型对比评测

结语

为价值买单，打赏一杯咖啡

声明

关于

生态