国内AI应用场景技术需求分析与现有产品简评

广告位招租
扫码页面底部二维码联系

自腾讯离职至今,2个多月时间,我在公众号【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】似乎消失了,这段时间,承担着奶爸的角色,【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。照顾家庭,带着孩子去了几个地方旅游。但我【版权所有,侵权必究】未经授权,禁止复制转载。并没有闲着,随时关注AI领域的发展,特别未经授权,禁止复制转载。【转载请注明来源】是AIGC各个应用场景,同时我作为技术背本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】景的从业者,对其背后的技术需求也有自己的【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net认知。今天的博文,我会带着自己的理解,聊【本文受版权保护】【版权所有】唐霜 www.tangshuang.net一聊我对当前足以支持应用场景的AI技术方【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。向的看法。

本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。

LLM基本成熟,Agent应用以B端为主

【本文首发于唐霜的博客】【原创内容,转载请注明出处】【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net

从2022年末ChatGPT进入大众视野本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。开始,到现在LLM已经基本定型,技术路线【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】虽然还在创新,例如moe架构,但基座模型【原创不易,请尊重版权】未经授权,禁止复制转载。基本上不会有大的变化,包括GPT本身,总【版权所有,侵权必究】【关注微信公众号:wwwtangshuangnet】是在藏着掖着有一个qstar版本,但实际【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。上,无论哪家大模型,其底层思维逻辑不变,【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net已成定局。也正是因为技术路线的固化,入局【原创不易,请尊重版权】【原创不易,请尊重版权】LLM基本变成了拼算力,也就是买显卡的m【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。oney够不够多,只要资金雄厚,可以隔一转载请注明出处:www.tangshuang.net【作者:唐霜】段时间公布一个参数逆天的大模型,但是本质著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】上,技术没有任何大的颠覆。

著作权归作者所有,禁止商业用途转载。【作者:唐霜】原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。

目前,在民用市场,openai的GPT并本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】没有形成统治,特别是在中国,openai本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】甚至自断双臂。而国内的大模型服务商也基本【原创内容,转载请注明出处】原创内容,盗版必究。放弃了基座模型的研发,在把成本降下来之后【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处:www.tangshuang.net,还纷纷向市场提供了价格更低的服务。

【转载请注明来源】原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】

除了通用大模型之外,在工业(机控)、医疗未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。、教育、法律等领域,国内也有发布过不同的【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。模型,有的是基于llama架构自己做语料【转载请注明来源】【原创内容,转载请注明出处】来训练,有的是在开源的高分模型上进行微调【作者:唐霜】著作权归作者所有,禁止商业用途转载。,但是都无法在商业上取得非常大的突破。从本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】两方面看,在商业上,专业大模型无法达到客【访问 www.tangshuang.net 获取更多精彩内容】【版权所有,侵权必究】户的预期,例如现在很多企业想用bot替代本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】掉客服,理论上这看上去是非常简单容易的,【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net但是到了具体场景下,企业希望客服基于自身【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】企业的知识来回答用户,但是现在的AI实际【作者:唐霜】未经授权,禁止复制转载。上都做不到企业客户的期望水平;另一方面,【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】LLM本质上还是倾向于通用模型,就是要大【原创不易,请尊重版权】【本文首发于唐霜的博客】而充分的训练语料,可想而之,要在企业中落未经授权,禁止复制转载。【作者:唐霜】地,语料的生产和训练的成本,都是非常高的【转载请注明来源】著作权归作者所有,禁止商业用途转载。,再加上研发周期和人力成本,很难讲企业能未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】够接受这种转变。

著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】【原创不易,请尊重版权】未经授权,禁止复制转载。【原创内容,转载请注明出处】

现在Agent基本都是面向B端去建立生态【转载请注明来源】原创内容,盗版必究。,因为在B端有足够多的场景需要用到智能化著作权归作者所有,禁止商业用途转载。【转载请注明来源】,需要让AI去决策,从而解放一些轻松的重【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。复性大的工作。Agent服务商往往也把目未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。光聚焦在为企业降本增效上,这些场景下,A【原创不易,请尊重版权】【原创不易,请尊重版权】I决策的容错率较高,即使某些失误发生,也【原创内容,转载请注明出处】【未经授权禁止转载】能通过企业管理进行弥补和挽回。但如果想让【版权所有,侵权必究】【关注微信公众号:wwwtangshuangnet】Agent服务商为目标企业提供面向C端产【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。品的服务,则目前来看,还有很长的路要走。【本文首发于唐霜的博客】【原创不易,请尊重版权】举一个例子,我们都知道,AI智能化的生活【本文首发于唐霜的博客】【原创不易,请尊重版权】场景中,缺少不了“预订”环节,而该环节则【原创内容,转载请注明出处】【本文受版权保护】是一个决策性非常强的场景,因为要涉及到下【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】单、支付、物流等,而Agent服务商们可本文版权归作者所有,未经授权不得转载。【作者:唐霜】承担不起由于AI决策失误,给企业带来的损著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】失,因此,在企业的C端领域,目前还几乎很著作权归作者所有,禁止商业用途转载。【作者:唐霜】少有商业化的Agent。

转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。【本文首发于唐霜的博客】

在C端,LLM也并没有提供更为强劲的产品【未经授权禁止转载】转载请注明出处:www.tangshuang.net。虽然在抖音等平台上,我们看到各种AI搜本文版权归作者所有,未经授权不得转载。【本文受版权保护】索、视频快速总结知识点、智能化做PPT、未经授权,禁止复制转载。【本文受版权保护】智能化做报表等,处理文本对LLM来说是比本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】较强的领域,但是就C端而言,其实对文本处【本文首发于唐霜的博客】【未经授权禁止转载】理的需求并不强,在大部分宣传中,都是把产【本文受版权保护】【未经授权禁止转载】品定义成“生产力工具”,也就是在工作上能本文版权归作者所有,未经授权不得转载。【转载请注明来源】够帮普通人处理文本、数据等。但是这里有一著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net个矛盾,如果LLM能帮普通人处理,也就能【版权所有,侵权必究】未经授权,禁止复制转载。帮老板处理,老板为什么要聘用一个人,而非【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。一个AI呢?因此,实际上,在C端,现在,【作者:唐霜】【原创内容,转载请注明出处】很多人对ChatGPT等聊天应用已经不感原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】冒了。即使现在已经有了非常多Agent,【作者:唐霜】【未经授权禁止转载】包括搭建Agent的平台,但是实际上,真未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】正在C端市场出现一款热门的Agent的情【原创不易,请尊重版权】【本文首发于唐霜的博客】况基本不存在。我想,其根源在于,C端主要【原创不易,请尊重版权】【本文受版权保护】讲究的是消费,而当今的消费模式是短平快,著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】甚至无脑消费,而且还需要带点情绪价值,从转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】抖音、小红书等平台的发展就可以看出。在这【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】种消费场景下,普通用户很难为纯LLM买单【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。,Agent领域,也鲜有可以做出消费级的著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。应用。

转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net

对于普通玩家,除非我们有强烈的兴趣,或者【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】有丰厚的在线资源,否则我们尽可能去选择国【版权所有】唐霜 www.tangshuang.net【作者:唐霜】内的低成本LLM服务。现在提供LLM服务本文作者:唐霜,转载请注明出处。【转载请注明来源】的优秀厂商包括阿里的千问(开源qwen)【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。、百度的文心、腾讯的混元、字节的云雀、智【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。普的清言(开源chatglm)、零一万物【版权所有,侵权必究】【作者:唐霜】的Yi系列(开源Yi)、讯飞的星火、白川转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。智能的白川(开源Baichuan)、深度未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。求索的DeepSeek(开源deepse【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】ek)、稀宇科技的Minimax、月之暗【作者:唐霜】【本文首发于唐霜的博客】面的Moonshot、复旦大学香港中文大【作者:唐霜】【原创不易,请尊重版权】学等多家机构合作的书生浦语(开源Inte【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】rnML)……目前,我的主力模型来自ch【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处:www.tangshuang.netatglm和deepseek,deeps【作者:唐霜】【本文首发于唐霜的博客】eek价格低性能快,因此被作为备选。

【转载请注明来源】【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。

AI图像,疯狂地攻城略地原创内容,盗版必究。

未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net

2023年,我在腾讯的时候,很早就开始在著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net宣讲用AI来实现设计提效,但讽刺的是,作【本文首发于唐霜的博客】【未经授权禁止转载】为公司核心设计部门,迎来了不好的结局,这未经授权,禁止复制转载。【原创不易,请尊重版权】可能与AI无关,只是碰巧赶上了。在我离职【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net前一段时间,我开始关注这个领域,并认为,【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】图像将占据消费市场的巨大空间,因为图像的【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net背后还有视频作为延伸。之后我也开始在这个【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】领域进入研究,并开发和发布了Visor这【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】款软件。

未经授权,禁止复制转载。原创内容,盗版必究。【原创内容,转载请注明出处】

Stable Diffusion作为设计著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】师们的核心工具,已经形成了庞大的生态。除【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。了企业内的设计师,还有原本是摄影行业的影本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】楼,或者专门做图像处理的工作室,另外还有【转载请注明来源】本文作者:唐霜,转载请注明出处。建筑设计、室内设计从业者,此外还有图片处【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。理软件公司、服装设计师、电商网店、UP主著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。等等角色们,都在这个生态中按需索取。最近转载请注明出处:www.tangshuang.net【未经授权禁止转载】很火的项目,修复老照片/破损照片->著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】;黑白照片上色->让老照片动起来,【作者:唐霜】转载请注明出处:www.tangshuang.net3个环节每个环节都能让很多人赚很多钱。而【原创内容,转载请注明出处】【本文首发于唐霜的博客】这些发烧友,还集合到了liblib、op【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.netenart等社区,这些社区提供了各种模型本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】和方案。各种各样的创业公司都在尝试面向C【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】端提供收费的图片处理服务,而当字节这样的本文版权归作者所有,未经授权不得转载。【转载请注明来源】大厂下次,推出dreamina、星绘等产【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。品时,stability上线自己的api著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。服务时,这些独立的创业团队往往都面临痛苦【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号:wwwtangshuangnet】的抉择。

【作者:唐霜】【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。

不同的场景下,对AI图像的技术深度要求不本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net同。以生图为目的的创作者们,有的只需要从未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】AI处获得灵感,一次性生成10张图片,再原创内容,盗版必究。【本文受版权保护】获得灵感后由人工完成创作,因此,只要一台【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】能在本地跑SD webui的电脑即可。也未经授权,禁止复制转载。未经授权,禁止复制转载。有的是以实现图像处理为目标,例如一些影楼【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。或工作室,他们并不单纯服务与企业或个人,未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】但凡是图像处理的需求,可以来者不惧,一个【原创内容,转载请注明出处】【转载请注明来源】团队几个人到10几个人,通过comfyu著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】i构建出可复用的工作流,遇到相同目标的需【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】求时,无需再过多处理,就可以把钱赚到手,著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。这样的创业团队,甚至都不需要人手一台猛卡本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。电脑,整个团队有一台类似中心服务器的,就【本文首发于唐霜的博客】本文作者:唐霜,转载请注明出处。可以让整个团队疯狂输出。而有的公司则需要【本文首发于唐霜的博客】【原创内容,转载请注明出处】自己训练模型,以向自己的客户提供独特的服本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net务,但是为了养活自己,他们往往在网站上提【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】供一次性处理图片的能力,并按次收费或按月未经授权,禁止复制转载。未经授权,禁止复制转载。订阅收费。只有到了头部大厂,才有足够的资【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。源,既做模型训练,又向其他第三方买训练好【转载请注明来源】【版权所有】唐霜 www.tangshuang.net的服务,然后再自己做应用,这里面字节冲的著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】特别猛,不仅自己训练训的猛,而且还通过c原创内容,盗版必究。转载请注明出处:www.tangshuang.netoze免费提供服务给开发者,在剪印中作为【原创不易,请尊重版权】【本文受版权保护】独立功能对C端提供产品还不过瘾,还要独立【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】做产品。除了字节,通义千问、文心一言等a转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。pp上,也夹杂了AI图像。传统图片处理厂未经授权,禁止复制转载。原创内容,盗版必究。商美图秀秀也在冲,快手也在用快影冲。老牌【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。图像处理天花板photoshop发布了b转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。eta版本,其中融合了AI功能,在原来的【原创内容,转载请注明出处】未经授权,禁止复制转载。选区、修补等工具基础上,以小搏大,用强劲【原创不易,请尊重版权】原创内容,盗版必究。的AI图像能力实现图片处理,真的是让人很转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。开眼,可惜由于数据管控的原因,目前在国内转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】我们无法使用这部分AI功能。

转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。【原创不易,请尊重版权】【本文受版权保护】

AI图像分为生图和修图两个方面。目前,A【原创内容,转载请注明出处】【转载请注明来源】I图像好的方面是生图,无论是midjou【转载请注明来源】【本文受版权保护】rney还是sd,甚至字节家的app,只【本文受版权保护】原创内容,盗版必究。要用户稍微上心一点,都能得到非常漂亮的效转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】果,这是因为目前阶段已经是v3阶段了,各【本文受版权保护】【版权所有】唐霜 www.tangshuang.net家大模型已经训练的可以对用户的promp【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】t做非常非常聪明的响应。虽然但是,生图中本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。,很多细节仍然经不起推敲,一旦往细节去看【关注微信公众号:wwwtangshuangnet】【未经授权禁止转载】,往往会遇到细思极恐的地方。因此,现在但【未经授权禁止转载】原创内容,盗版必究。凡想要得到一张好的图,我们不太可能通过p著作权归作者所有,禁止商业用途转载。【转载请注明来源】rompt直接获得,往往需要做细节修图。【转载请注明来源】【本文首发于唐霜的博客】这时,虽然ps还是首选,但是毕竟会有软件【原创内容,转载请注明出处】【转载请注明来源】的跳跃感,因此,基于AI的修图也被越来越【原创不易,请尊重版权】【版权所有,侵权必究】重视。现在几乎所有的厂商,都在生图后提供【原创内容,转载请注明出处】【本文首发于唐霜的博客】给用户修图的选项,根据图片的需求,有的时未经授权,禁止复制转载。【原创不易,请尊重版权】候,只需要用AI稍加处理,就可以获得满意本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】的结果。Visor也是在这种现状下设计的【未经授权禁止转载】【版权所有,侵权必究】,它希望用户利用AI在生图、修图、出图上未经授权,禁止复制转载。【本文受版权保护】一气呵成,集成类似粘土化、换脸、老照片修本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】复等这种工程化的目标功能。但是,就目前来转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】说,我认为修图效果最好的,还是ps的AI转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。能力,毕竟老牌设计品牌。

未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。【转载请注明来源】原创内容,盗版必究。

作为普通用户,如果希望实现创作,我们往往【版权所有,侵权必究】【版权所有,侵权必究】需要下载多款app,在不同的app之间使转载请注明出处:www.tangshuang.net原创内容,盗版必究。用不同的功能来实现想要的效果。从想通过A【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】I图像领域赚钱的个人或团队而言,则需要抓本文版权归作者所有,未经授权不得转载。【原创不易,请尊重版权】住热点,结合掌握的技术,快速制作能够实现【版权所有,侵权必究】原创内容,盗版必究。热点图像效果的短视频,在抖音等平台上推广【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】自己。

【版权所有,侵权必究】【本文首发于唐霜的博客】【未经授权禁止转载】

总而言之,AI图像领域有着非常宽泛的空间未经授权,禁止复制转载。【原创内容,转载请注明出处】,可以容纳不同类型的人群在这个领域利用A本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。I完成自己的图像目标,无论是以AI为工具【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net实现自己的设计目标,还是想通过AI赚外快【本文首发于唐霜的博客】本文版权归作者所有,未经授权不得转载。,AI图像领域都是一个可以包容的、且略带著作权归作者所有,禁止商业用途转载。【转载请注明来源】疯狂的领域。

【本文受版权保护】【作者:唐霜】本文版权归作者所有,未经授权不得转载。

AI声音,悄无声息的越来越强大【本文受版权保护】

【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。【作者:唐霜】【版权所有,侵权必究】

容易被人忽视的声音领域,实际上在应用中,【本文首发于唐霜的博客】【原创不易,请尊重版权】占据着非常大的比重。不过,从应用上讲,除原创内容,盗版必究。原创内容,盗版必究。了针对盲人,声音更多的是一种辅助手段,往【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。往并不能成为核心角色,因此才那么容易被忽原创内容,盗版必究。【作者:唐霜】视。但是,现在不同了,因为AI声音已经越【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】来越强大了。新一轮的AI,让我们可以完全【转载请注明来源】转载请注明出处:www.tangshuang.net克隆一个人的声音,更让人惊喜的时,还能为【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】声音实现情感、情绪、实时反应和停顿的控制【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。,接下来的阶段,技术上的主要目标是实现低本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】廉的高性能的实时生成声音流,从而能够让A著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。I声音成为能与人自然交流的机器对象。另外【作者:唐霜】【版权所有】唐霜 www.tangshuang.net,这里面还有一个分支,就是AI唱歌,现在【关注微信公众号:wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net基于so-vits-svc技术,已经可以【作者:唐霜】转载请注明出处:www.tangshuang.net把AI唱歌做的非常好,你看suno的发展【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】,音乐创作者们高声痛哭要失业。

转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。

从应用角度看,AI声音将会是数字人、影视【转载请注明来源】本文版权归作者所有,未经授权不得转载。制作、游戏NPC、机器人等一系列场景下的本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】必备条件。但是从现实的角度讲,普通用户对【本文首发于唐霜的博客】未经授权,禁止复制转载。声音的需求程度到底有多大是一个问号,就现未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】在的生硬的TTS对于大部分普通用户而言,转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。也未尝不能接受,只有在特定领域,特别是沉【未经授权禁止转载】【原创内容,转载请注明出处】浸式体验的场景中,才会对声音的要求比较大著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net

【版权所有】唐霜 www.tangshuang.net【转载请注明来源】【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。【关注微信公众号:wwwtangshuangnet】

在GPT-4o发布的时候,AI声音展现了本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。其独特的魅力。而未来,每一台通用智能机器本文作者:唐霜,转载请注明出处。【本文受版权保护】人都将具备自己的音色,甚至,用户可以根据转载请注明出处:www.tangshuang.net【版权所有,侵权必究】自己的喜好,定制音色。

未经授权,禁止复制转载。【未经授权禁止转载】【原创内容,转载请注明出处】

AI声音包含两个重要的方面,“听”和“说【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。”。首先是声音的训练,其中克隆声音是一个【本文受版权保护】【版权所有】唐霜 www.tangshuang.net大题目,在数字人领域,能够具备与宿主一模【原创不易,请尊重版权】【作者:唐霜】一样的声音是核心诉求。其次是基于文本的声本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。音的生成,通过文本来控制声音的速度、音调【本文首发于唐霜的博客】未经授权,禁止复制转载。、情绪、感叹、口音等等,并且性能要足够优【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】秀,目前来说,这是一个挑战。我尝试了最近【未经授权禁止转载】【原创不易,请尊重版权】较火的chatTTS, fish-aud【作者:唐霜】本文版权归作者所有,未经授权不得转载。io, cosyvoice,发现单一技术【未经授权禁止转载】本文作者:唐霜,转载请注明出处。即使在某些点上做的很好,但是整个技术体系未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。在实现目标上,各有各的缺陷,有的无法完成【作者:唐霜】【版权所有,侵权必究】出色的克隆,有的克隆优秀但是生成性能很差转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。,总之,虽然我们所拥有的工具越来越好,但著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。还不够非常好。

未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】

AI视频,期望越大失望越大原创内容,盗版必究。

原创内容,盗版必究。转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。

今年年初,openai完成了sora的P原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。PT式发布会,此后,AI视频成为全部人翘本文版权归作者所有,未经授权不得转载。【转载请注明来源】首以待的重量级AI应用领域。之前的pik【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。a迅速陨落,runway和国产之星pix【原创内容,转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】verse还在反抗。sora之后,所有的【作者:唐霜】著作权归作者所有,禁止商业用途转载。AI视频技术路线被统一,快手旗下的快影a【版权所有】唐霜 www.tangshuang.net【原创不易,请尊重版权】pp发布了AI视频内测功能(基于可灵大模原创内容,盗版必究。【转载请注明来源】型),由于其优秀的实际效果,在Gen-3转载请注明出处:www.tangshuang.net【版权所有,侵权必究】, Genmo, dreamina等一众【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】AI视频生成应用中,杀出重围,后来居上,【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。成为在实际应用中(消费级)获得最高评分。【版权所有,侵权必究】【本文受版权保护】最近很火的老照片动起来视频,很多都是由可【转载请注明来源】原创内容,盗版必究。灵完成。

【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】

对于AI生成视频而言,从消费者的角度讲,【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。有几条最基本的要求,一是画面的稳定与连贯【原创内容,转载请注明出处】【原创不易,请尊重版权】,人物一致,那种明显的AI诡异画面是不可【作者:唐霜】转载请注明出处:www.tangshuang.net忍受的;二是对信息的理解准确,不要漏掉或转载请注明出处:www.tangshuang.net【未经授权禁止转载】错误安排关键信息;三是能够以正常的速度呈【作者:唐霜】原创内容,盗版必究。现画面,并且运动效果稳定;四是时长越长越【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】好,像素越高越好。

【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】【原创内容,转载请注明出处】【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。

从技术上讲,现在的AI视频生成模型,都是【转载请注明来源】【版权所有,侵权必究】sora的技术路线,即由视频数据的训练,【转载请注明来源】本文作者:唐霜,转载请注明出处。视频的生成方式有prompt生成和基于图【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net片的生成。在之前一段时间,由于我的乐观,【未经授权禁止转载】【版权所有,侵权必究】认为这是最优的一条技术路线,而且当时“世著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。界模型”这个概念被疯狂炒作,让我对技术本未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net身产生了误判。就人物一致性问题而言,基于著作权归作者所有,禁止商业用途转载。【本文受版权保护】该技术路线就令人担忧,如果不能保证人物的【作者:唐霜】【版权所有】唐霜 www.tangshuang.net一致性,那么很多情况下,这个视频都是不可【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】用的,仅是PPT视频而言。我认为,还是回著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。到“补间”路线才是最后的解法。就像最近很转载请注明出处:www.tangshuang.net【原创不易,请尊重版权】火的老照片动起来的视频,虽然只有一张图,【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。但视频的本质就是将图片作为帧,以连贯的方未经授权,禁止复制转载。【未经授权禁止转载】式播放它们,所以在生成帧时,通过原始图片【作者:唐霜】【作者:唐霜】做细微的人物处理,在很大程度上可以避免基著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】于prompt式的AI意识流视频来的更好【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。。实际上,这一路线在之前很多将短视频跳舞【版权所有,侵权必究】【本文受版权保护】转为卡通风格上,获得了验证,或者替换视频转载请注明出处:www.tangshuang.net【版权所有,侵权必究】人脸的视频等等,都是基于这种看上去很笨,【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。却非常有效的技术路线。

【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。原创内容,盗版必究。

当然,如果在生成视频时,能够做到sora【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net演示效果那样的高清真实效果,确实可以在影未经授权,禁止复制转载。【本文首发于唐霜的博客】视制作、游戏等领域给我们带来更棒的体验。【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net例如我们在制作一些科普短视频时,由于缺乏【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】素材,如果可以通过AI将其补充,这对我们本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net提供更加优质的科普内容,更有帮助。再如我【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。之前为小孩制作动画,如果可以通过AI,直【作者:唐霜】转载请注明出处:www.tangshuang.net接基于故事内容,生成人物一致的连环画式视【作者:唐霜】未经授权,禁止复制转载。频,对亲子教育或许也有不错的帮助。虽然我转载请注明出处:www.tangshuang.net【原创内容,转载请注明出处】们在短视频平台可以看到很多将网文直接输出【原创内容,转载请注明出处】【作者:唐霜】为短视频的,但是可以很明显感觉那些画面过【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net于糙,而且画面与画面之间没有逻辑,感觉就【作者:唐霜】【未经授权禁止转载】是纯粹的配个图而已。

【作者:唐霜】【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。

无论是prompt生成视频、图片生成视频【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。,目前来说,效果都并不理想,距离我们在生【本文受版权保护】【转载请注明来源】产中用AI视频完成内容输出,或许还有点距【本文受版权保护】原创内容,盗版必究。离。

本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】

多模态大模型,重要却进展缓慢本文版权归作者所有,未经授权不得转载。

【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。

多模态的本质,在AI领域,就是“眼睛”的未经授权,禁止复制转载。原创内容,盗版必究。作用。多模态大模型的成功是打开AI心灵的【访问 www.tangshuang.net 获取更多精彩内容】【版权所有,侵权必究】窗户。但是,目前的多模态大模型发展并不乐原创内容,盗版必究。【原创不易,请尊重版权】观,从google最早发布gemini视【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。频造假,到现在GPT-4o收费且调用次数本文作者:唐霜,转载请注明出处。原创内容,盗版必究。限制,多模态大模型的发展一直不那么顺利。未经授权,禁止复制转载。【原创内容,转载请注明出处】在多模态之下有一个分支,就是vision【原创不易,请尊重版权】【访问 www.tangshuang.net 获取更多精彩内容】(视觉)模型,这个分支倒是发展的不错,微本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。软发布的phi3-vision已经来到了本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net128k参数量,可以说在硬件上门槛被降到【转载请注明来源】著作权归作者所有,禁止商业用途转载。很低。但是通用多模态大模型的发展缓慢,或著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net许是因为之前在LLM上过多投入,期望在接【作者:唐霜】【原创内容,转载请注明出处】下来的这个阶段,各大厂商在多模态上,可以【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。把价格打下来性能抬上去,在这一点上,国内著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。的厂商们,有没有一家可以上去硬刚呀。

【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。【作者:唐霜】原创内容,盗版必究。【关注微信公众号:wwwtangshuangnet】

多模态大模型,是实现GPT-4o发布会上【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net,拿着手机摄像头与AI对话的前提,没有多【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net模态,一切基于视觉对话的场景都免谈。虽然【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net视觉模型可以解决部分问题,但是视觉模型只原创内容,盗版必究。转载请注明出处:www.tangshuang.net能处理图片,不能处理视频,没有办法动态分【转载请注明来源】原创内容,盗版必究。析内容,因此也就没有办法真正解决多模态要【转载请注明来源】【原创内容,转载请注明出处】解决的场景问题。

本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net原创内容,盗版必究。

在应用场景中,多模态可用于机器人、自动驾未经授权,禁止复制转载。【本文首发于唐霜的博客】驶、教育教学、各类知识的实时解答和分析等【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。等。例如对于盲人而言,或许只需要在头顶安【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】装一枚摄像头;对于聋哑人,只需要佩戴一副【版权所有】唐霜 www.tangshuang.net【转载请注明来源】实时字幕的眼镜。在这些应用场景中,我们其著作权归作者所有,禁止商业用途转载。【转载请注明来源】实可以通过Agent架构来调用不同工具实著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。现,但是,要对序列化内容进行分析,可能还【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net是需要多模态才能做到最好。

【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】

通用机器人,未来的唯一方向未经授权,禁止复制转载。

【版权所有,侵权必究】【本文受版权保护】未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。

前面的所有,都还只是在软件层面,当我们把本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】视野拉大,AI人工智能的终极,一定是让A转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。I控制硬件。现在,已经很多工业车间的机器【本文首发于唐霜的博客】未经授权,禁止复制转载。人,也有智能汽车,酒店商场等也有一些服务【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】性的机器人,但是,这些机器人距离通用机器【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net人,就像草履虫到人类之间的差距一样。通用【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。机器人,就是我们电影中看到的robot,本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】它们提供通用的服务,例如家庭、餐厅、酒店【转载请注明来源】【关注微信公众号:wwwtangshuangnet】、写字楼等,它们可以代替人类完成服务性质【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。的工作,如家务、清洁、配送、修理等等,当原创内容,盗版必究。【版权所有,侵权必究】然,对于某些力量来说,它们还会被配置到战【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net场上。

本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。

随着机器人领域的开源生态越来越大,3D打转载请注明出处:www.tangshuang.net原创内容,盗版必究。印的成本逐渐降低,在硬件领域,实际上制作著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net通用机器人的技术工程难度已经很低了,核心未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。问题在于如何设计可量产的、设计感强的、功未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。能可迭代的硬件体系,更重要的是如何让硬件【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。体系获得灵魂。从目前来看,openai投【本文首发于唐霜的博客】【原创内容,转载请注明出处】资的机器人公司figure已经具有雏形,【版权所有,侵权必究】原创内容,盗版必究。目前来说,核心的问题还是在算力(性能)上原创内容,盗版必究。【原创不易,请尊重版权】

【关注微信公众号:wwwtangshuangnet】【本文首发于唐霜的博客】【作者:唐霜】【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】

国内也有研究机器人的公司,包括优必选、小未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】米等,产业链上还有绿的谐波、柯力传感这样本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。的公司,但是总体而言,整个行业还是比较散【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】,没有形成规模,产业链不够完善。而从这点【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。来看,在AI领域,本文提到的所有方向,国转载请注明出处:www.tangshuang.net【版权所有,侵权必究】内的发展都不容乐观。

原创内容,盗版必究。转载请注明出处:www.tangshuang.net【本文受版权保护】未经授权,禁止复制转载。

结语【访问 www.tangshuang.net 获取更多精彩内容】

【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】

本文挑选了我认为是AI领域,当前发展最重【版权所有,侵权必究】【作者:唐霜】要的几个方向进行了阐述,呈现国内发展现状著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。,以让更多的读者朋友了解当前AI领域发展【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。趋势。2024年是AI应用的爆发年,作为著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】应用强国,我们在基础研究和产品设计上都有本文版权归作者所有,未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】一定的优势,然而在创业环境和产业链上都存【原创内容,转载请注明出处】【本文受版权保护】在着明显的竞争不足。未来5-10年必然是【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。AI统治应用领域的开始阶段,在国际大背景【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。下,这一竞争领域显得更加重要。作为从业者【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。,我们应该认识到国内外的差距,同时,也正原创内容,盗版必究。本文作者:唐霜,转载请注明出处。因认识到国内外产业链上的现状,才有信心一本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。点一点的去补齐不同环节上的不足。竞争永远【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net是残酷的,在关键领域,不存在开放市场,如【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。果没有掌握主动权,未来或许我们不得不向境【原创不易,请尊重版权】【未经授权禁止转载】外公司购买通用机器人,并因此带来更严重的【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。数据危机。个人在时代的浪潮中更加渺小,我【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。过去10来年积累了很多应用开发的经验,如未经授权,禁止复制转载。【本文受版权保护】今在AI领域中继续投入,希望能为这个时代【访问 www.tangshuang.net 获取更多精彩内容】【版权所有,侵权必究】贡献自己的微薄力量吧。

【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。

2024-07-09 3695

为价值买单,打赏一杯咖啡

本文价值36.95RMB