跟着AI去旅行（一）让你的AI能听见会说话-唐霜

过去这段时间，我在研究一项让AI帮助普通转载请注明出处：www.tangshuang.net原创内容，盗版必究。人靠近诗和远方的应用实现，在这个项目中，【未经授权禁止转载】转载请注明出处：www.tangshuang.net我构想了一位AI伴侣，以视频聊天的形式，【版权所有，侵权必究】著作权归作者所有，禁止商业用途转载。向由于时间和金钱不足没法踏上旅程的青年，【原创不易，请尊重版权】【原创内容，转载请注明出处】展示了日本知名景区富士山的场景。实现一位【原创内容，转载请注明出处】原创内容，盗版必究。AI导游伴侣，不仅需要有能以自然人的身份【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号：wwwtangshuangnet】与用户交流的能力，还要有能学习景区资料、本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】旅游路线、酒店机票等等攻略的能力，更进一著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net步还要有通过生成视频全方位展示景区的能力【转载请注明来源】【原创内容，转载请注明出处】，并且作为旅游应用，它还需要在自然人和科原创内容，盗版必究。【原创内容，转载请注明出处】普视频两种身份之间做无缝切换。这是一项庞本文版权归作者所有，未经授权不得转载。【原创内容，转载请注明出处】大的工程，我的任务除了要在技术上实现它以著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。外，还要从成本的角度，在技术实现时以最低本文版权归作者所有，未经授权不得转载。【原创内容，转载请注明出处】的价格（或许要在某些方面退而求其次），让著作权归作者所有，禁止商业用途转载。【作者：唐霜】更多的人能够拥有它。一篇文章无法完全讲解原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】透彻，本文我将着重在AI的“听”和“说”著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。两个方面，从应用开发者进行技术选型追求便未经授权，禁止复制转载。原创内容，盗版必究。宜的角度，聊一聊我的一些经验。

LLM扮演“大脑”的角色

过去两年，我们见证了LLM的疯狂崛起。由著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。ChatGPT开启的大门，让普通人也能便【关注微信公众号：wwwtangshuangnet】本文版权归作者所有，未经授权不得转载。捷便宜的享用AI。LLM优秀的灵活的推理【版权所有，侵权必究】著作权归作者所有，禁止商业用途转载。能力，让我们可以在我们自己的大脑外，外挂【作者：唐霜】原创内容，盗版必究。一个“体外大脑”。随着LLM厂商们的迭代【原创不易，请尊重版权】【未经授权禁止转载】，这些“外挂大脑”的智商越来越高，甚至在未经授权，禁止复制转载。原创内容，盗版必究。某些具体方面超出了博士水平。这也就意味着【版权所有】唐霜 www.tangshuang.net【版权所有，侵权必究】，普通人可以借助AI，完成超出自己智商水【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。平的工作。这就像，我们可以借助外挂，在物本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net理上超越人类极限一样，用挖机移山，用吊车本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】盘石，用沙船填海……就像机械设备在体力上【版权所有，侵权必究】未经授权，禁止复制转载。无限放大人的能力一样，AI在脑力上极大的未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。突破了人的思考和认知极限。

学会使用LLM是未来学习、工作、生活的必著作权归作者所有，禁止商业用途转载。【本文受版权保护】备技能，因为一旦别人都会用，而你不会用，本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】在智力上就会被碾压。虽然，各大厂商们，特转载请注明出处：www.tangshuang.net【转载请注明来源】别是OpenAI正在尝试将AI的使用难道【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。降到最低，试图把AI演变为一个万能的聊天著作权归作者所有，禁止商业用途转载。本文版权归作者所有，未经授权不得转载。机器人，一个人工助理。然而，即使到了今天【本文受版权保护】本文版权归作者所有，未经授权不得转载。，AI似乎还是能力有限，使用方式也并不那【作者：唐霜】【访问 www.tangshuang.net 获取更多精彩内容】么自然。因此，现阶段，“使用LLM”这个【本文首发于唐霜的博客】原创内容，盗版必究。看上去很简单的事情，实际上却比较复杂，大未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。部分人都没有通过学习以掌握激发AI全部潜原创内容，盗版必究。转载请注明出处：www.tangshuang.net力的知识技能。类似Prompt工程这样的【原创内容，转载请注明出处】【未经授权禁止转载】学问显得尤为重要，因为它提供了激发AI潜【作者：唐霜】著作权归作者所有，禁止商业用途转载。力的成体系方法论，掌握该知识的人，在实际【未经授权禁止转载】【关注微信公众号：wwwtangshuangnet】工作中，将远超普通人。

【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net

虽然我们还无法不费吹灰之力地使用LLM，著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshuangnet】但是，在智力上，LLM仍然在快速成长，成转载请注明出处：www.tangshuang.net【版权所有，侵权必究】为超越普通人的智能资源，这意味着等到我们著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。遇到超出自己智力范围的需求时，可以现学现【关注微信公众号：wwwtangshuangnet】【版权所有，侵权必究】用或请教熟练使用LLM的人，以解决我们的【版权所有】唐霜 www.tangshuang.net【版权所有，侵权必究】核心问题。

转载请注明出处：www.tangshuang.net原创内容，盗版必究。

在开发所有产品时，我们都应该为该产品提供原创内容，盗版必究。原创内容，盗版必究。一个“大脑”，而毫无疑问，这个“大脑”的【未经授权禁止转载】【本文首发于唐霜的博客】角色由LLM来扮演。就当下的科技产品而言【作者：唐霜】转载请注明出处：www.tangshuang.net，缺乏“大脑”的产品显得枯燥，同时也无法【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。满足复杂多变的用户需求。过往，我们设计一转载请注明出处：www.tangshuang.net【转载请注明来源】款产品，制订好产品的使用规则，并“教育”【作者：唐霜】本文作者：唐霜，转载请注明出处。用户如何使用它。而现在，我们设计一款产品转载请注明出处：www.tangshuang.net【转载请注明来源】，有用户来决定如何使用，产品只在最后承接【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有，未经授权不得转载。用户的真正需求。这种转变，就像过去web【原创不易，请尊重版权】【转载请注明来源】1.0用户被动接受信息到web2.0用户【本文首发于唐霜的博客】转载请注明出处：www.tangshuang.net主动生产信息的转变一样，会在用户体验和人【作者：唐霜】【关注微信公众号：wwwtangshuangnet】机交互形式上，带来重大变革。作为技术产品【关注微信公众号：wwwtangshuangnet】未经授权，禁止复制转载。的创业者，我们更多的是思考，这种变革的目【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】的地形态，并为每一种想法提供产品以对该想原创内容，盗版必究。原创内容，盗版必究。法进行验证。

【原创不易，请尊重版权】【原创不易，请尊重版权】

另外，由于各家厂商的LLM的智力水平不同【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】，同时受到内容审查的影响，我们面临着LL【版权所有】唐霜 www.tangshuang.net【关注微信公众号：wwwtangshuangnet】M也分“三六九等”的问题。等级越高，能提原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】供的智力水平越高，当然，价格也就更贵。一【原创不易，请尊重版权】【关注微信公众号：wwwtangshuangnet】旦价格超出普通人的承受范围，那么这种高级【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net智力就会成为有钱人的专属，并最后形成智力【转载请注明来源】【本文受版权保护】特权，把真实的人也分“三六九等”。所以，【原创不易，请尊重版权】本文版权归作者所有，未经授权不得转载。无门槛的普惠性AI智能服务显得尤为重要，【版权所有】唐霜 www.tangshuang.net【原创不易，请尊重版权】当然，就商业本身而言，没有利润就无法生存【本文受版权保护】【原创内容，转载请注明出处】，这种矛盾需要在资本市场寻找创新来解决。【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net而作为整个链路中小小的一环节，我们作为创【原创内容，转载请注明出处】本文作者：唐霜，转载请注明出处。业者，尽可能的平价提供服务，以无愧于心。

未经授权，禁止复制转载。著作权归作者所有，禁止商业用途转载。【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】

任何一款产品，无论是以应用的形态，还是以【原创不易，请尊重版权】转载请注明出处：www.tangshuang.net服务的形态，还是以插件的形态，我们可以标【作者：唐霜】本文版权归作者所有，未经授权不得转载。榜它就是一款AI产品，也可以不标榜它的A本文版权归作者所有，未经授权不得转载。【原创内容，转载请注明出处】I属性，而是更垂直的解决用户需求，只不过【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net背后的技术解决方案是基于AI的。有了AI著作权归作者所有，禁止商业用途转载。本文版权归作者所有，未经授权不得转载。作为产品“大脑”，我们可以让产品更灵活，【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。更适配用户的需求。举个例子，以前用户只能【访问 www.tangshuang.net 获取更多精彩内容】【版权所有，侵权必究】提供结构化的数据来该一个绘图工具绘制图表【作者：唐霜】【转载请注明来源】，而现在，基于LLM，用户可以提供原始材【本文受版权保护】【转载请注明来源】料，并让AI制作出同一数据的不同图表，或【原创内容，转载请注明出处】【原创内容，转载请注明出处】者一次性给出多个图表，以前那种结构化数据【本文受版权保护】【原创内容，转载请注明出处】的产品形态，必须有开发人员提供特定界面来【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。控制用户输入的是结构化数据，在数据传输过【版权所有，侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】程中也要保持该数据结构，直至最终消费数据【转载请注明来源】【本文受版权保护】为固定的图表进行输出，但在新的技术方案中【版权所有，侵权必究】【本文首发于唐霜的博客】，用户可以输入任意的数据源，而输出也不局【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。限于单一的图表。

【作者：唐霜】【本文首发于唐霜的博客】未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net

也正是这种输入输出的灵活度，让我们的产品著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。形态可以发生变化，从以往呆板的必须按固定【本文受版权保护】原创内容，盗版必究。规则使用的产品形态，逐渐向随意的灵活的立原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。体的产品形态演进，这种演进不是在原来的形本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。态基础上做增益，而是突然来到一个新维度，【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。提供以往从未有过的形式。例如，以前的游戏【访问 www.tangshuang.net 获取更多精彩内容】本文作者：唐霜，转载请注明出处。地图、剧情、人物、主线是固定的，而在AI本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net的加持下，这些元素都可以是动态的，可以根【未经授权禁止转载】【转载请注明来源】据用户游玩游戏的过程，实时生成新地图、新【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。剧情等。这种影响，目前来说，主要集中在A【访问 www.tangshuang.net 获取更多精彩内容】【原创不易，请尊重版权】IGC领域，诸如影视创作、图书出版、漫画【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】、短视频等等，都将出现整体作品范式的演进未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】。

让AI开口说话

当我们尝试为用户提供更丰富的体验时，首先本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。我们要为AI增加嘴巴，因为只有让AI开口【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net说话，才能解放我们的眼睛，提供更多的感官【未经授权禁止转载】原创内容，盗版必究。刺激。虽然，视觉接受信息的速率和效率都远【版权所有】唐霜 www.tangshuang.net【转载请注明来源】高于听觉，然而听觉可以让用户的注意力更集中、提供比视觉本文版权归作者所有，未经授权不得转载。【转载请注明来源】更丰富的情感价值、提升用户的反馈比率，多著作权归作者所有，禁止商业用途转载。【原创内容，转载请注明出处】重感官的交互能加深用户的记忆，这也是为什么类似B站、抖音这样的视频应【转载请注明来源】本文作者：唐霜，转载请注明出处。用能如此受追捧的原因之一。

【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】

而最近两年，播客突然在数据上呈现出新风口原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。的趋势，作为fm形态的产品，已经存在30【关注微信公众号：wwwtangshuangnet】原创内容，盗版必究。来年，我在小学的时候，就可以通过网络点播【版权所有】唐霜 www.tangshuang.net【关注微信公众号：wwwtangshuangnet】独立播音节目，为何经久不衰呢？我想其中的转载请注明出处：www.tangshuang.net【转载请注明来源】原因比较复杂，除了社会压力越来越大人们需【未经授权禁止转载】【版权所有，侵权必究】要更广泛的娱乐形态之外，声音这种独特的信转载请注明出处：www.tangshuang.net【版权所有，侵权必究】息传播形式固有的魅力也是致其随时可能迎来【本文受版权保护】【本文首发于唐霜的博客】新增长的原因。当下，智能电车正在逐渐取代未经授权，禁止复制转载。【作者：唐霜】传统油车，而汽车的普及让越来越多的人越来【关注微信公众号：wwwtangshuangnet】【原创内容，转载请注明出处】越多的时间是在路途中度过，特别是单身人士【关注微信公众号：wwwtangshuangnet】【作者：唐霜】，在完全解放双手的全自动驾驶出现之前，在【作者：唐霜】【版权所有】唐霜 www.tangshuang.net这漫长的旅途中，声音形态的产品，则容易被【原创不易，请尊重版权】【版权所有，侵权必究】接纳。一旦这些产品可以提供足够的情绪价值原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。，那么，在行车之外的时间，它们也可以作为【作者：唐霜】【本文首发于唐霜的博客】个人独处时，不想或不方便接受视觉信息，就未经授权，禁止复制转载。【本文受版权保护】是最佳的选择。

未经授权，禁止复制转载。原创内容，盗版必究。【作者：唐霜】原创内容，盗版必究。

因此，单独以声音作为产品形态的产品，虽然【本文首发于唐霜的博客】本文作者：唐霜，转载请注明出处。不太可能像短视频平台一样，获得如此广泛的【原创内容，转载请注明出处】【未经授权禁止转载】用户量，但是，却仍然可以在独特的赛道上，本文作者：唐霜，转载请注明出处。【转载请注明来源】持续增长。当然，在增长时，高净值用户比比【版权所有，侵权必究】【原创内容，转载请注明出处】纯粹的用户量增长更有意义，这也是为什么我原创内容，盗版必究。未经授权，禁止复制转载。认为即使是声音产品，其本质还是内容为王，未经授权，禁止复制转载。【本文受版权保护】同时，内容为王的前提是内容免费+有效的盈著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net利渠道，比较鲜有为一段声音付费的用户，特未经授权，禁止复制转载。【本文首发于唐霜的博客】别是在这个AI时代，本身声音已经自由。

转载请注明出处：www.tangshuang.net【转载请注明来源】【本文首发于唐霜的博客】【原创不易，请尊重版权】

Meta最近发布了他们的新产品，基于ll【访问 www.tangshuang.net 获取更多精彩内容】【作者：唐霜】ama来做播客，他们通过agent技术，【版权所有，侵权必究】【关注微信公众号：wwwtangshuangnet】实现了剧本的创作->脚本的编写-&【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。gt;内容输出->文本到语言的输出原创内容，盗版必究。【未经授权禁止转载】->剪辑的全流程，只要你有一个好点【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】子，搭配有一个懂活的AI，就可以做出一节【原创内容，转载请注明出处】【版权所有】唐霜 www.tangshuang.net优质播客。随着AI对播客的入侵，未来播客本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】的粗制滥造也会越来越多，因此，我说播客本【作者：唐霜】本文作者：唐霜，转载请注明出处。质上还是一门关于内容的生意，只有优质的内著作权归作者所有，禁止商业用途转载。【转载请注明来源】容，才能真正吸引回头客。然而，作为小小创本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。业者，我现在多了一个认知，“苍蝇专叮有缝【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net的蛋”，“再小的肉它也是肉”，专做长尾，【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。以量取胜，虽然从健康生态的角度讲这种做法【作者：唐霜】【原创内容，转载请注明出处】并不可取，但是对于资源不足资金不裕的创业著作权归作者所有，禁止商业用途转载。【未经授权禁止转载】者而言，“我不入地狱谁入地狱”？

【访问 www.tangshuang.net 获取更多精彩内容】【作者：唐霜】【本文受版权保护】【原创内容，转载请注明出处】

给LLM的输出内容加语音，这听上去是件极【原创不易，请尊重版权】原创内容，盗版必究。其简单的事，因为TTS技术已经成熟一二十【作者：唐霜】未经授权，禁止复制转载。年了。然而，既然如此简单，为什么“语音通【转载请注明来源】本文版权归作者所有，未经授权不得转载。话”功能没有成为烂大街的功能呢？据我所知【本文首发于唐霜的博客】【转载请注明来源】，直到最近，国内各家LLM厂商，才开始陆未经授权，禁止复制转载。未经授权，禁止复制转载。续在自己的App中增加了这种能力，即使如【关注微信公众号：wwwtangshuangnet】【原创内容，转载请注明出处】此，这种交互的国内鼻祖“豆包”App，也【版权所有，侵权必究】原创内容，盗版必究。无法做到丝滑流畅纯自然。这里面还是有很多【版权所有】唐霜 www.tangshuang.net【本文受版权保护】技术细节有待进一步加强，LLM的toke著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。ns生成方式，迫使TTS无法实时的根据上本文作者：唐霜，转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】下文来理解，因此也就无法给出对应的情绪和原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.net语气，甚至连多音字都可能识别错误。这都还【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net是比较难解决的，即便是端对端实时语音输出【版权所有，侵权必究】原创内容，盗版必究。，我相信也能难倒一大堆程序员。因此，看上【作者：唐霜】本文版权归作者所有，未经授权不得转载。去稀松平常的一些能力，实际在背后有非常多【本文首发于唐霜的博客】【本文首发于唐霜的博客】技术的挑战和决策。作为过来人，在这种情况转载请注明出处：www.tangshuang.net【原创不易，请尊重版权】下，我往往觉得，我们显得很渺小，我们的目【本文首发于唐霜的博客】【本文首发于唐霜的博客】标总是星辰大海，但是总是在如何给漏气的轮原创内容，盗版必究。【本文受版权保护】胎补胎这样的小事上没有太多进展。我们希望本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】创造出充满科技感的AI产品，但是在跨出的【本文受版权保护】【版权所有】唐霜 www.tangshuang.net第一步，就遭遇技术上的滑铁卢，需要花大力原创内容，盗版必究。【未经授权禁止转载】气才能解决，此时，已经落后别人一万步。中【原创不易，请尊重版权】【转载请注明来源】国需要有更多的技术平台，为开发者提供简洁未经授权，禁止复制转载。【本文首发于唐霜的博客】的一步到位的技术支撑，让开发者可以忽略这本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。些初始的技术问题，可以直接做上母舰，先去【版权所有】唐霜 www.tangshuang.net转载请注明出处：www.tangshuang.net到星辰大海，再来点火起航。于是，我搞了一【转载请注明来源】【原创内容，转载请注明出处】个Developround社区，专门提供服务接口，让开发者可以在技【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net术上几乎无门槛的使用这些技术。

一旦有了可选择的服务，我们让LLM开口说本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net话就是技术集成的问题。到了这一步，我又开【作者：唐霜】【本文首发于唐霜的博客】始要讲我的另外一个观点，“凡是能白嫖的，本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。必须疯狂白嫖”。本质上，我们就是要用最便【本文首发于唐霜的博客】转载请注明出处：www.tangshuang.net宜的成本，实现还过得去的效果，除非我们对本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。效果的要求，超出用户的本质需求。作为技术未经授权，禁止复制转载。【转载请注明来源】出身的创业者，更加关注成本，比较我们的职【原创内容，转载请注明出处】【版权所有，侵权必究】业生涯中，没有一分钱是大风刮来的，都是用未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。头顶的猿毛一根根换来的，因此，在创业初期未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。，但凡能用免费的服务，我们都不需要多看收【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】费服务一秒钟；但凡能自己用技术解决的，我著作权归作者所有，禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net们都不会登录SaaS服务厂商网站一次。控原创内容，盗版必究。【作者：唐霜】制成本的背后逻辑，实际上是想为用户提供无【作者：唐霜】未经授权，禁止复制转载。限量无限制的使用，一旦功能有多余的成本，【转载请注明来源】【转载请注明来源】那么就必须考虑成本如何赚回来的问题，那么著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net就一定是用户有损的，而作为创业者，我们往【本文受版权保护】【转载请注明来源】往希望自己的产品是用户无损的，通过这种情【原创不易，请尊重版权】本文版权归作者所有，未经授权不得转载。感共鸣来让用户心甘情愿的为价值买单。

【本文首发于唐霜的博客】【关注微信公众号：wwwtangshuangnet】

让AI听懂听见

这里的标题，“听懂”在“听见”前面，意思【转载请注明来源】本文版权归作者所有，未经授权不得转载。是“听见”比“听懂”更难。

【未经授权禁止转载】【作者：唐霜】

做一款能听懂用户在说什么的AI产品，构想【原创不易，请尊重版权】【版权所有，侵权必究】起来并不复杂，即通过端侧录音用户的说话，未经授权，禁止复制转载。【原创内容，转载请注明出处】发送到后端进行ASR，将识别文本交给LL本文版权归作者所有，未经授权不得转载。【版权所有，侵权必究】M响应，再将响应的文本交给TTS生成语音著作权归作者所有，禁止商业用途转载。【未经授权禁止转载】，最后把语音发送给端侧播放给用户听，形成转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。表象上无文本的对话交互形式。但是，但凡有本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net点心智的朋友，都会发现这里面的大问题，就原创内容，盗版必究。【转载请注明来源】是响应速度，从用户说话到提交要时间，如果本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】用户说的久，则网络的传输也更久，在到后端转载请注明出处：www.tangshuang.net【版权所有】唐霜 www.tangshuang.net各种识别、响应、生成，再经过一次网络传输【转载请注明来源】【版权所有】唐霜 www.tangshuang.net，都是时间，响应时间越久，产品就显得越呆本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】滞，这种呆呆的效果，显得AI都不那么智能【本文受版权保护】著作权归作者所有，禁止商业用途转载。。

【转载请注明来源】转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。

解决这一问题的办法，成本最低的，就是“流本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。式”，声音的流式传输和流式生成，用户一边【原创内容，转载请注明出处】【版权所有】唐霜 www.tangshuang.net说话，一边传输，一边让LLM理解，一边生著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net成文本，一边生成语音，这一系列的技术方案本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。，每一道工序都能难住大部分程序员。比如，【本文受版权保护】著作权归作者所有，禁止商业用途转载。用户开启录音，实时的将声音片段上载，这里【转载请注明来源】未经授权，禁止复制转载。“实时”的上载往往是buffer，但是，【访问 www.tangshuang.net 获取更多精彩内容】原创内容，盗版必究。我们都知道，声音有采样率、声道等参数，还著作权归作者所有，禁止商业用途转载。【版权所有，侵权必究】有封装格式，每一种都可能带来解析失败。还未经授权，禁止复制转载。【原创内容，转载请注明出处】有就是，在网络协议上，到底是选择webs【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】ocket还是http stream，也转载请注明出处：www.tangshuang.net本文版权归作者所有，未经授权不得转载。是很纠结。总之，看似一马平川的方案，实则【版权所有，侵权必究】原创内容，盗版必究。满地都是坑坑洼洼。当然，还有一种从架构层【本文受版权保护】本文作者：唐霜，转载请注明出处。面去解决，把整个服务都搬到端侧上，或者调本文版权归作者所有，未经授权不得转载。原创内容，盗版必究。用手机本身的语言识别接口和TTS接口，在【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net应用内嵌入小模型。

本文作者：唐霜，转载请注明出处。【未经授权禁止转载】【本文受版权保护】【关注微信公众号：wwwtangshuangnet】

而OpenAI刚刚发布了最新模型gpt-【本文受版权保护】【未经授权禁止转载】4-audio，做到了端到端的语音理解和本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】生成，同时，它还可以做到实时的理解，甚至转载请注明出处：www.tangshuang.net原创内容，盗版必究。有打断说话人的效果（我理解这种效果本质上【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】是缺陷，消耗的资源也更大），也就是说，他著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net们从底层模型的角度解决这一问题，从而免去转载请注明出处：www.tangshuang.net【转载请注明来源】了ASR->LLM-TTS的流程，【版权所有】唐霜 www.tangshuang.net【转载请注明来源】再配合上端到端的流式音频传输，就可以极大未经授权，禁止复制转载。著作权归作者所有，禁止商业用途转载。的降低延迟，给大模型留出更多的思考时间。

除了听懂用户在说什么，“听见”有时也更温原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】馨。例如用户处于嘈杂的车流环境，如果AI【关注微信公众号：wwwtangshuangnet】【转载请注明来源】能听懂，那么就可以提供更贴切的情绪陪伴。

【作者：唐霜】【作者：唐霜】

另外，如果是一款垂类的产品，如何巧妙自然未经授权，禁止复制转载。【作者：唐霜】的将能说会道的AI嵌入到产品中，甚至整个【原创不易，请尊重版权】【原创内容，转载请注明出处】产品的逻辑都是围绕AI来展开，就是很难的【未经授权禁止转载】【未经授权禁止转载】事。本质上而言，上述过程只是一种体验上的本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。切换，它在信息的总量上与打字读字没有区别【未经授权禁止转载】著作权归作者所有，禁止商业用途转载。。既然如此，打字读字明显具有更低的成本，著作权归作者所有，禁止商业用途转载。【本文首发于唐霜的博客】除了跟风一定要强上语音对话能力，我找不出未经授权，禁止复制转载。【作者：唐霜】其他理由。因此，我想，在产品设计时，我们【原创不易，请尊重版权】原创内容，盗版必究。需要考虑的事，我们的产品是引入AI作为辅【作者：唐霜】【原创内容，转载请注明出处】助，还是围绕AI实现用户价值？如果是前者【本文受版权保护】【作者：唐霜】，我想确实是没有必要选择高成本的体验。但转载请注明出处：www.tangshuang.net【未经授权禁止转载】如果是围绕AI来实现用户价值，则情况完全【原创不易，请尊重版权】转载请注明出处：www.tangshuang.net不同，例如AI陪伴类的产品，不仅要有对话【未经授权禁止转载】本文作者：唐霜，转载请注明出处。的能力，而且在声音的训练上也要下足功夫，【关注微信公众号：wwwtangshuangnet】【本文首发于唐霜的博客】因为这种场景下，用户需要更多的是陪伴感，本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。追求的是产品的体验本身，而非内容的价值。

【原创不易，请尊重版权】原创内容，盗版必究。

结语

本文主要聊了聊我在AI类产品中加入语音对未经授权，禁止复制转载。未经授权，禁止复制转载。话能力的一些思考，认为这一能力看上去简单本文作者：唐霜，转载请注明出处。【版权所有，侵权必究】，实则在技术上有很多细节，成本比较大，对【版权所有，侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】于创业者而言，应该把成本作为一项重要考虑【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】因素。同时，作为在这类功能上有经验的技术【未经授权禁止转载】转载请注明出处：www.tangshuang.net人，我认为随着AI产品的发展，一些较为常【本文首发于唐霜的博客】【转载请注明来源】见的体验类功能，会慢慢成为基础功能，在所本文版权归作者所有，未经授权不得转载。【转载请注明来源】有产品中被集成。发现这点后，我也创建了自转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。己的developround平台。从未来未经授权，禁止复制转载。原创内容，盗版必究。AI的应用来看，AIGC只是其中的一个方【版权所有】唐霜 www.tangshuang.net【作者：唐霜】向，而且是向虚的，人们对内容的消费主要还【版权所有】唐霜 www.tangshuang.net转载请注明出处：www.tangshuang.net是娱乐的，而追求娱乐，必然存在更为吸引人【原创不易，请尊重版权】原创内容，盗版必究。的交互形态。我也将在这样的道路上不断探索原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。，如果你对本文的内容感兴趣，不妨在下方留著作权归作者所有，禁止商业用途转载。【版权所有，侵权必究】言，一起讨论。

转载请注明出处：www.tangshuang.net【原创不易，请尊重版权】原创内容，盗版必究。

转载请注明出处：www.tangshuang.net著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshuangnet】【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】【原创不易，请尊重版权】【关注微信公众号：wwwtangshuangnet】本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。【本文受版权保护】原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。【原创不易，请尊重版权】【本文首发于唐霜的博客】未经授权，禁止复制转载。【原创内容，转载请注明出处】【原创不易，请尊重版权】著作权归作者所有，禁止商业用途转载。【本文首发于唐霜的博客】【本文受版权保护】【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】

2024-11-02 2074 AIGC, AI产品

唐霜

跟着AI去旅行（一）让你的AI能听见会说话

LLM扮演“大脑”的角色

让AI开口说话

让AI听懂听见

结语

为价值买单，打赏一杯咖啡

声明

关于

生态