过去这段时间,我在研究一项让AI帮助普通【本文首发于唐霜的博客】【本文首发于唐霜的博客】人靠近诗和远方的应用实现,在这个项目中,本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。我构想了一位AI伴侣,以视频聊天的形式,【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。向由于时间和金钱不足没法踏上旅程的青年,本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。展示了日本知名景区富士山的场景。实现一位未经授权,禁止复制转载。【转载请注明来源】AI导游伴侣,不仅需要有能以自然人的身份【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。与用户交流的能力,还要有能学习景区资料、【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。旅游路线、酒店机票等等攻略的能力,更进一【转载请注明来源】【版权所有】唐霜 www.tangshuang.net步还要有通过生成视频全方位展示景区的能力【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net,并且作为旅游应用,它还需要在自然人和科原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。普视频两种身份之间做无缝切换。这是一项庞【原创不易,请尊重版权】【版权所有,侵权必究】大的工程,我的任务除了要在技术上实现它以本文版权归作者所有,未经授权不得转载。本文版权归作者所有,未经授权不得转载。外,还要从成本的角度,在技术实现时以最低【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】的价格(或许要在某些方面退而求其次),让【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net更多的人能够拥有它。一篇文章无法完全讲解未经授权,禁止复制转载。【本文受版权保护】透彻,本文我将着重在AI的“听”和“说”未经授权,禁止复制转载。未经授权,禁止复制转载。两个方面,从应用开发者进行技术选型追求便【版权所有】唐霜 www.tangshuang.net【本文受版权保护】宜的角度,聊一聊我的一些经验。
【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】【未经授权禁止转载】【本文首发于唐霜的博客】【原创不易,请尊重版权】LLM扮演“大脑”的角色【未经授权禁止转载】
本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net【原创不易,请尊重版权】过去两年,我们见证了LLM的疯狂崛起。由【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】ChatGPT开启的大门,让普通人也能便【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】捷便宜的享用AI。LLM优秀的灵活的推理著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】能力,让我们可以在我们自己的大脑外,外挂【作者:唐霜】【原创不易,请尊重版权】一个“体外大脑”。随着LLM厂商们的迭代原创内容,盗版必究。【原创不易,请尊重版权】,这些“外挂大脑”的智商越来越高,甚至在【转载请注明来源】【本文首发于唐霜的博客】某些具体方面超出了博士水平。这也就意味着【未经授权禁止转载】【转载请注明来源】,普通人可以借助AI,完成超出自己智商水本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】平的工作。这就像,我们可以借助外挂,在物【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。理上超越人类极限一样,用挖机移山,用吊车本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。盘石,用沙船填海……就像机械设备在体力上【原创内容,转载请注明出处】原创内容,盗版必究。无限放大人的能力一样,AI在脑力上极大的原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】突破了人的思考和认知极限。
【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】【作者:唐霜】学会使用LLM是未来学习、工作、生活的必【转载请注明来源】本文版权归作者所有,未经授权不得转载。备技能,因为一旦别人都会用,而你不会用,【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。在智力上就会被碾压。虽然,各大厂商们,特【转载请注明来源】原创内容,盗版必究。别是OpenAI正在尝试将AI的使用难道本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】降到最低,试图把AI演变为一个万能的聊天转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】机器人,一个人工助理。然而,即使到了今天【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】,AI似乎还是能力有限,使用方式也并不那【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】么自然。因此,现阶段,“使用LLM”这个【原创内容,转载请注明出处】未经授权,禁止复制转载。看上去很简单的事情,实际上却比较复杂,大著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。部分人都没有通过学习以掌握激发AI全部潜【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。力的知识技能。类似Prompt工程这样的【版权所有,侵权必究】【本文受版权保护】学问显得尤为重要,因为它提供了激发AI潜【作者:唐霜】【原创不易,请尊重版权】力的成体系方法论,掌握该知识的人,在实际著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。工作中,将远超普通人。
【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net虽然我们还无法不费吹灰之力地使用LLM,本文版权归作者所有,未经授权不得转载。【转载请注明来源】但是,在智力上,LLM仍然在快速成长,成未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。为超越普通人的智能资源,这意味着等到我们【本文受版权保护】原创内容,盗版必究。遇到超出自己智力范围的需求时,可以现学现【未经授权禁止转载】【作者:唐霜】用或请教熟练使用LLM的人,以解决我们的未经授权,禁止复制转载。【转载请注明来源】核心问题。
【本文受版权保护】原创内容,盗版必究。本文作者:唐霜,转载请注明出处。【作者:唐霜】【转载请注明来源】在开发所有产品时,我们都应该为该产品提供【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。一个“大脑”,而毫无疑问,这个“大脑”的【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。角色由LLM来扮演。就当下的科技产品而言著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。,缺乏“大脑”的产品显得枯燥,同时也无法著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】满足复杂多变的用户需求。过往,我们设计一未经授权,禁止复制转载。【作者:唐霜】款产品,制订好产品的使用规则,并“教育”本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net用户如何使用它。而现在,我们设计一款产品【转载请注明来源】【转载请注明来源】,有用户来决定如何使用,产品只在最后承接转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。用户的真正需求。这种转变,就像过去web【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net1.0用户被动接受信息到web2.0用户著作权归作者所有,禁止商业用途转载。【本文受版权保护】主动生产信息的转变一样,会在用户体验和人本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】机交互形式上,带来重大变革。作为技术产品未经授权,禁止复制转载。【原创内容,转载请注明出处】的创业者,我们更多的是思考,这种变革的目【版权所有,侵权必究】未经授权,禁止复制转载。的地形态,并为每一种想法提供产品以对该想【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。法进行验证。
【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net【作者:唐霜】另外,由于各家厂商的LLM的智力水平不同【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号:wwwtangshuangnet】,同时受到内容审查的影响,我们面临着LL【转载请注明来源】著作权归作者所有,禁止商业用途转载。M也分“三六九等”的问题。等级越高,能提【关注微信公众号:wwwtangshuangnet】【转载请注明来源】供的智力水平越高,当然,价格也就更贵。一【原创内容,转载请注明出处】未经授权,禁止复制转载。旦价格超出普通人的承受范围,那么这种高级【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。智力就会成为有钱人的专属,并最后形成智力原创内容,盗版必究。【本文受版权保护】特权,把真实的人也分“三六九等”。所以,【本文受版权保护】未经授权,禁止复制转载。无门槛的普惠性AI智能服务显得尤为重要,未经授权,禁止复制转载。【原创不易,请尊重版权】当然,就商业本身而言,没有利润就无法生存【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net,这种矛盾需要在资本市场寻找创新来解决。转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。而作为整个链路中小小的一环节,我们作为创【作者:唐霜】本文作者:唐霜,转载请注明出处。业者,尽可能的平价提供服务,以无愧于心。
著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。【本文首发于唐霜的博客】任何一款产品,无论是以应用的形态,还是以【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。服务的形态,还是以插件的形态,我们可以标著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net榜它就是一款AI产品,也可以不标榜它的A著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】I属性,而是更垂直的解决用户需求,只不过本文版权归作者所有,未经授权不得转载。【转载请注明来源】背后的技术解决方案是基于AI的。有了AI【转载请注明来源】【关注微信公众号:wwwtangshuangnet】作为产品“大脑”,我们可以让产品更灵活,本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。更适配用户的需求。举个例子,以前用户只能未经授权,禁止复制转载。【作者:唐霜】提供结构化的数据来该一个绘图工具绘制图表【本文首发于唐霜的博客】【未经授权禁止转载】,而现在,基于LLM,用户可以提供原始材【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】料,并让AI制作出同一数据的不同图表,或【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】者一次性给出多个图表,以前那种结构化数据【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net的产品形态,必须有开发人员提供特定界面来未经授权,禁止复制转载。【本文首发于唐霜的博客】控制用户输入的是结构化数据,在数据传输过【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】程中也要保持该数据结构,直至最终消费数据原创内容,盗版必究。未经授权,禁止复制转载。为固定的图表进行输出,但在新的技术方案中【转载请注明来源】本文作者:唐霜,转载请注明出处。,用户可以输入任意的数据源,而输出也不局著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。限于单一的图表。
【作者:唐霜】【作者:唐霜】【原创不易,请尊重版权】【本文受版权保护】也正是这种输入输出的灵活度,让我们的产品转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】形态可以发生变化,从以往呆板的必须按固定著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。规则使用的产品形态,逐渐向随意的灵活的立【作者:唐霜】【未经授权禁止转载】体的产品形态演进,这种演进不是在原来的形本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。态基础上做增益,而是突然来到一个新维度,原创内容,盗版必究。【本文首发于唐霜的博客】提供以往从未有过的形式。例如,以前的游戏本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】地图、剧情、人物、主线是固定的,而在AI【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net的加持下,这些元素都可以是动态的,可以根【未经授权禁止转载】未经授权,禁止复制转载。据用户游玩游戏的过程,实时生成新地图、新著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】剧情等。这种影响,目前来说,主要集中在A【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。IGC领域,诸如影视创作、图书出版、漫画著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。、短视频等等,都将出现整体作品范式的演进【本文首发于唐霜的博客】【本文首发于唐霜的博客】。
【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。让AI开口说话【访问 www.tangshuang.net 获取更多精彩内容】
转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】【原创内容,转载请注明出处】当我们尝试为用户提供更丰富的体验时,首先【作者:唐霜】【未经授权禁止转载】我们要为AI增加嘴巴,因为只有让AI开口【访问 www.tangshuang.net 获取更多精彩内容】【版权所有,侵权必究】说话,才能解放我们的眼睛,提供更多的感官【本文受版权保护】原创内容,盗版必究。刺激。虽然,视觉接受信息的速率和效率都远著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】高于听觉,然而听觉可以让用户的注意力更集中、提供比视觉本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。更丰富的情感价值、提升用户的反馈比率,多【本文首发于唐霜的博客】【原创内容,转载请注明出处】重感官的交互能加深用户的记忆,这也是为什么类似B站、抖音这样的视频应【本文受版权保护】著作权归作者所有,禁止商业用途转载。用能如此受追捧的原因之一。
本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。【未经授权禁止转载】原创内容,盗版必究。而最近两年,播客突然在数据上呈现出新风口【本文受版权保护】【本文首发于唐霜的博客】的趋势,作为fm形态的产品,已经存在30【原创不易,请尊重版权】【作者:唐霜】来年,我在小学的时候,就可以通过网络点播【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net独立播音节目,为何经久不衰呢?我想其中的【本文受版权保护】未经授权,禁止复制转载。原因比较复杂,除了社会压力越来越大人们需转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】要更广泛的娱乐形态之外,声音这种独特的信【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。息传播形式固有的魅力也是致其随时可能迎来未经授权,禁止复制转载。原创内容,盗版必究。新增长的原因。当下,智能电车正在逐渐取代原创内容,盗版必究。未经授权,禁止复制转载。传统油车,而汽车的普及让越来越多的人越来【版权所有】唐霜 www.tangshuang.net【转载请注明来源】越多的时间是在路途中度过,特别是单身人士【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net,在完全解放双手的全自动驾驶出现之前,在【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。这漫长的旅途中,声音形态的产品,则容易被【关注微信公众号:wwwtangshuangnet】【作者:唐霜】接纳。一旦这些产品可以提供足够的情绪价值未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net,那么,在行车之外的时间,它们也可以作为著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。个人独处时,不想或不方便接受视觉信息,就转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net是最佳的选择。
【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。【转载请注明来源】因此,单独以声音作为产品形态的产品,虽然本文作者:唐霜,转载请注明出处。【作者:唐霜】不太可能像短视频平台一样,获得如此广泛的原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】用户量,但是,却仍然可以在独特的赛道上,本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】持续增长。当然,在增长时,高净值用户比比【关注微信公众号:wwwtangshuangnet】【作者:唐霜】纯粹的用户量增长更有意义,这也是为什么我【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。认为即使是声音产品,其本质还是内容为王,【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】同时,内容为王的前提是内容免费+有效的盈本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net利渠道,比较鲜有为一段声音付费的用户,特转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net别是在这个AI时代,本身声音已经自由。
原创内容,盗版必究。【本文首发于唐霜的博客】【转载请注明来源】Meta最近发布了他们的新产品,基于ll【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。ama来做播客,他们通过agent技术,【本文首发于唐霜的博客】原创内容,盗版必究。实现了剧本的创作->脚本的编写-&未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.netgt;内容输出->文本到语言的输出【作者:唐霜】原创内容,盗版必究。->剪辑的全流程,只要你有一个好点未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】子,搭配有一个懂活的AI,就可以做出一节【作者:唐霜】【本文受版权保护】优质播客。随着AI对播客的入侵,未来播客【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。的粗制滥造也会越来越多,因此,我说播客本未经授权,禁止复制转载。【本文受版权保护】质上还是一门关于内容的生意,只有优质的内本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。容,才能真正吸引回头客。然而,作为小小创【作者:唐霜】【版权所有】唐霜 www.tangshuang.net业者,我现在多了一个认知,“苍蝇专叮有缝【本文首发于唐霜的博客】【转载请注明来源】的蛋”,“再小的肉它也是肉”,专做长尾,原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。以量取胜,虽然从健康生态的角度讲这种做法【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。并不可取,但是对于资源不足资金不裕的创业未经授权,禁止复制转载。【未经授权禁止转载】者而言,“我不入地狱谁入地狱”?
【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。给LLM的输出内容加语音,这听上去是件极【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】其简单的事,因为TTS技术已经成熟一二十【原创内容,转载请注明出处】【原创不易,请尊重版权】年了。然而,既然如此简单,为什么“语音通【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net话”功能没有成为烂大街的功能呢?据我所知转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】,直到最近,国内各家LLM厂商,才开始陆原创内容,盗版必究。【原创内容,转载请注明出处】续在自己的App中增加了这种能力,即使如【原创不易,请尊重版权】【原创内容,转载请注明出处】此,这种交互的国内鼻祖“豆包”App,也著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net无法做到丝滑流畅纯自然。这里面还是有很多原创内容,盗版必究。【版权所有,侵权必究】技术细节有待进一步加强,LLM的toke未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.netns生成方式,迫使TTS无法实时的根据上【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net下文来理解,因此也就无法给出对应的情绪和【关注微信公众号:wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net语气,甚至连多音字都可能识别错误。这都还原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net是比较难解决的,即便是端对端实时语音输出原创内容,盗版必究。转载请注明出处:www.tangshuang.net,我相信也能难倒一大堆程序员。因此,看上【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。去稀松平常的一些能力,实际在背后有非常多【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net技术的挑战和决策。作为过来人,在这种情况转载请注明出处:www.tangshuang.net【转载请注明来源】下,我往往觉得,我们显得很渺小,我们的目【本文首发于唐霜的博客】【原创内容,转载请注明出处】标总是星辰大海,但是总是在如何给漏气的轮【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】胎补胎这样的小事上没有太多进展。我们希望【作者:唐霜】【原创内容,转载请注明出处】创造出充满科技感的AI产品,但是在跨出的本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】第一步,就遭遇技术上的滑铁卢,需要花大力本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。气才能解决,此时,已经落后别人一万步。中原创内容,盗版必究。【原创不易,请尊重版权】国需要有更多的技术平台,为开发者提供简洁【原创内容,转载请注明出处】【原创内容,转载请注明出处】的一步到位的技术支撑,让开发者可以忽略这转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。些初始的技术问题,可以直接做上母舰,先去著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。到星辰大海,再来点火起航。于是,我搞了一【转载请注明来源】原创内容,盗版必究。个Developround【转载请注明来源】社区,专门提供服务接口,让开发者可以在技【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】术上几乎无门槛的使用这些技术。
【版权所有,侵权必究】【本文受版权保护】【访问 www.tangshuang.net 获取更多精彩内容】一旦有了可选择的服务,我们让LLM开口说【版权所有】唐霜 www.tangshuang.net【本文受版权保护】话就是技术集成的问题。到了这一步,我又开【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。始要讲我的另外一个观点,“凡是能白嫖的,【未经授权禁止转载】转载请注明出处:www.tangshuang.net必须疯狂白嫖”。本质上,我们就是要用最便【本文受版权保护】【作者:唐霜】宜的成本,实现还过得去的效果,除非我们对【原创不易,请尊重版权】本文版权归作者所有,未经授权不得转载。效果的要求,超出用户的本质需求。作为技术著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net出身的创业者,更加关注成本,比较我们的职未经授权,禁止复制转载。未经授权,禁止复制转载。业生涯中,没有一分钱是大风刮来的,都是用本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net头顶的猿毛一根根换来的,因此,在创业初期【原创不易,请尊重版权】【转载请注明来源】,但凡能用免费的服务,我们都不需要多看收【作者:唐霜】转载请注明出处:www.tangshuang.net费服务一秒钟;但凡能自己用技术解决的,我【本文受版权保护】【原创内容,转载请注明出处】们都不会登录SaaS服务厂商网站一次。控本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。制成本的背后逻辑,实际上是想为用户提供无本文版权归作者所有,未经授权不得转载。【转载请注明来源】限量无限制的使用,一旦功能有多余的成本,【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】那么就必须考虑成本如何赚回来的问题,那么本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】就一定是用户有损的,而作为创业者,我们往【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。往希望自己的产品是用户无损的,通过这种情【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】感共鸣来让用户心甘情愿的为价值买单。
【作者:唐霜】【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。【本文首发于唐霜的博客】【转载请注明来源】让AI听懂听见未经授权,禁止复制转载。
【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】这里的标题,“听懂”在“听见”前面,意思著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】是“听见”比“听懂”更难。
【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net【转载请注明来源】原创内容,盗版必究。做一款能听懂用户在说什么的AI产品,构想本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。起来并不复杂,即通过端侧录音用户的说话,【关注微信公众号:wwwtangshuangnet】【本文受版权保护】发送到后端进行ASR,将识别文本交给LL【转载请注明来源】【本文受版权保护】M响应,再将响应的文本交给TTS生成语音未经授权,禁止复制转载。未经授权,禁止复制转载。,最后把语音发送给端侧播放给用户听,形成【关注微信公众号:wwwtangshuangnet】【本文受版权保护】表象上无文本的对话交互形式。但是,但凡有【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。点心智的朋友,都会发现这里面的大问题,就【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。是响应速度,从用户说话到提交要时间,如果原创内容,盗版必究。转载请注明出处:www.tangshuang.net用户说的久,则网络的传输也更久,在到后端【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】各种识别、响应、生成,再经过一次网络传输【版权所有,侵权必究】原创内容,盗版必究。,都是时间,响应时间越久,产品就显得越呆转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。滞,这种呆呆的效果,显得AI都不那么智能本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。。
【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。解决这一问题的办法,成本最低的,就是“流【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】式”,声音的流式传输和流式生成,用户一边著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】说话,一边传输,一边让LLM理解,一边生【本文受版权保护】本文版权归作者所有,未经授权不得转载。成文本,一边生成语音,这一系列的技术方案本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net,每一道工序都能难住大部分程序员。比如,【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net用户开启录音,实时的将声音片段上载,这里【转载请注明来源】【未经授权禁止转载】“实时”的上载往往是buffer,但是,【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。我们都知道,声音有采样率、声道等参数,还本文作者:唐霜,转载请注明出处。【转载请注明来源】有封装格式,每一种都可能带来解析失败。还【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。有就是,在网络协议上,到底是选择webs【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。ocket还是http stream,也【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。是很纠结。总之,看似一马平川的方案,实则著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】满地都是坑坑洼洼。当然,还有一种从架构层【本文受版权保护】【原创不易,请尊重版权】面去解决,把整个服务都搬到端侧上,或者调【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net用手机本身的语言识别接口和TTS接口,在本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】应用内嵌入小模型。
著作权归作者所有,禁止商业用途转载。【作者:唐霜】【未经授权禁止转载】【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。而OpenAI刚刚发布了最新模型gpt-【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。4-audio,做到了端到端的语音理解和【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有,未经授权不得转载。生成,同时,它还可以做到实时的理解,甚至【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】有打断说话人的效果(我理解这种效果本质上【作者:唐霜】本文作者:唐霜,转载请注明出处。是缺陷,消耗的资源也更大),也就是说,他本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。们从底层模型的角度解决这一问题,从而免去【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】了ASR->LLM-TTS的流程,原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。再配合上端到端的流式音频传输,就可以极大【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。的降低延迟,给大模型留出更多的思考时间。
【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。除了听懂用户在说什么,“听见”有时也更温未经授权,禁止复制转载。【原创不易,请尊重版权】馨。例如用户处于嘈杂的车流环境,如果AI原创内容,盗版必究。【原创不易,请尊重版权】能听懂,那么就可以提供更贴切的情绪陪伴。
本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。另外,如果是一款垂类的产品,如何巧妙自然【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处:www.tangshuang.net的将能说会道的AI嵌入到产品中,甚至整个本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。产品的逻辑都是围绕AI来展开,就是很难的本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】事。本质上而言,上述过程只是一种体验上的【原创不易,请尊重版权】【本文首发于唐霜的博客】切换,它在信息的总量上与打字读字没有区别【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。。既然如此,打字读字明显具有更低的成本,未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】除了跟风一定要强上语音对话能力,我找不出未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net其他理由。因此,我想,在产品设计时,我们本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。需要考虑的事,我们的产品是引入AI作为辅未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。助,还是围绕AI实现用户价值?如果是前者【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。,我想确实是没有必要选择高成本的体验。但本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net如果是围绕AI来实现用户价值,则情况完全【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。不同,例如AI陪伴类的产品,不仅要有对话【关注微信公众号:wwwtangshuangnet】【作者:唐霜】的能力,而且在声音的训练上也要下足功夫,【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net因为这种场景下,用户需要更多的是陪伴感,著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net追求的是产品的体验本身,而非内容的价值。
本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。结语著作权归作者所有,禁止商业用途转载。
【版权所有,侵权必究】未经授权,禁止复制转载。原创内容,盗版必究。【作者:唐霜】未经授权,禁止复制转载。本文主要聊了聊我在AI类产品中加入语音对未经授权,禁止复制转载。【作者:唐霜】话能力的一些思考,认为这一能力看上去简单转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。,实则在技术上有很多细节,成本比较大,对著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。于创业者而言,应该把成本作为一项重要考虑转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】因素。同时,作为在这类功能上有经验的技术【访问 www.tangshuang.net 获取更多精彩内容】【版权所有,侵权必究】人,我认为随着AI产品的发展,一些较为常【本文首发于唐霜的博客】【未经授权禁止转载】见的体验类功能,会慢慢成为基础功能,在所本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】有产品中被集成。发现这点后,我也创建了自转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】己的developround平台。从未来著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。AI的应用来看,AIGC只是其中的一个方【原创内容,转载请注明出处】【转载请注明来源】向,而且是向虚的,人们对内容的消费主要还转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】是娱乐的,而追求娱乐,必然存在更为吸引人【转载请注明来源】【作者:唐霜】的交互形态。我也将在这样的道路上不断探索【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。,如果你对本文的内容感兴趣,不妨在下方留著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。言,一起讨论。
【本文首发于唐霜的博客】未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net

