国内AI应用场景技术需求分析与现有产品简评-唐霜

自腾讯离职至今，2个多月时间，我在公众号转载请注明出处：www.tangshuang.net原创内容，盗版必究。似乎消失了，这段时间，承担着奶爸的角色，【转载请注明来源】【本文首发于唐霜的博客】照顾家庭，带着孩子去了几个地方旅游。但我【原创内容，转载请注明出处】原创内容，盗版必究。并没有闲着，随时关注AI领域的发展，特别著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net是AIGC各个应用场景，同时我作为技术背未经授权，禁止复制转载。未经授权，禁止复制转载。景的从业者，对其背后的技术需求也有自己的著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。认知。今天的博文，我会带着自己的理解，聊【原创内容，转载请注明出处】【作者：唐霜】一聊我对当前足以支持应用场景的AI技术方著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net向的看法。

著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。【转载请注明来源】

LLM基本成熟，Agent应用以B端为主

从2022年末ChatGPT进入大众视野【关注微信公众号：wwwtangshuangnet】未经授权，禁止复制转载。开始，到现在LLM已经基本定型，技术路线本文作者：唐霜，转载请注明出处。【原创不易，请尊重版权】虽然还在创新，例如moe架构，但基座模型转载请注明出处：www.tangshuang.net本文作者：唐霜，转载请注明出处。基本上不会有大的变化，包括GPT本身，总【未经授权禁止转载】【本文受版权保护】是在藏着掖着有一个qstar版本，但实际【原创不易，请尊重版权】【本文首发于唐霜的博客】上，无论哪家大模型，其底层思维逻辑不变，未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】已成定局。也正是因为技术路线的固化，入局原创内容，盗版必究。【版权所有，侵权必究】LLM基本变成了拼算力，也就是买显卡的m【作者：唐霜】本文版权归作者所有，未经授权不得转载。oney够不够多，只要资金雄厚，可以隔一【作者：唐霜】本文作者：唐霜，转载请注明出处。段时间公布一个参数逆天的大模型，但是本质本文作者：唐霜，转载请注明出处。原创内容，盗版必究。上，技术没有任何大的颠覆。

目前，在民用市场，openai的GPT并【转载请注明来源】著作权归作者所有，禁止商业用途转载。没有形成统治，特别是在中国，openai未经授权，禁止复制转载。未经授权，禁止复制转载。甚至自断双臂。而国内的大模型服务商也基本原创内容，盗版必究。原创内容，盗版必究。放弃了基座模型的研发，在把成本降下来之后【关注微信公众号：wwwtangshuangnet】本文作者：唐霜，转载请注明出处。，还纷纷向市场提供了价格更低的服务。

除了通用大模型之外，在工业（机控）、医疗未经授权，禁止复制转载。【本文首发于唐霜的博客】、教育、法律等领域，国内也有发布过不同的【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】模型，有的是基于llama架构自己做语料著作权归作者所有，禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net来训练，有的是在开源的高分模型上进行微调转载请注明出处：www.tangshuang.net原创内容，盗版必究。，但是都无法在商业上取得非常大的突破。从原创内容，盗版必究。原创内容，盗版必究。两方面看，在商业上，专业大模型无法达到客【本文受版权保护】本文作者：唐霜，转载请注明出处。户的预期，例如现在很多企业想用bot替代著作权归作者所有，禁止商业用途转载。【本文受版权保护】掉客服，理论上这看上去是非常简单容易的，原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】但是到了具体场景下，企业希望客服基于自身原创内容，盗版必究。【转载请注明来源】企业的知识来回答用户，但是现在的AI实际本文版权归作者所有，未经授权不得转载。【作者：唐霜】上都做不到企业客户的期望水平；另一方面，本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。LLM本质上还是倾向于通用模型，就是要大【版权所有，侵权必究】转载请注明出处：www.tangshuang.net而充分的训练语料，可想而之，要在企业中落【转载请注明来源】【版权所有，侵权必究】地，语料的生产和训练的成本，都是非常高的【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net，再加上研发周期和人力成本，很难讲企业能【作者：唐霜】【未经授权禁止转载】够接受这种转变。

现在Agent基本都是面向B端去建立生态【原创内容，转载请注明出处】【转载请注明来源】，因为在B端有足够多的场景需要用到智能化本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。，需要让AI去决策，从而解放一些轻松的重本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】复性大的工作。Agent服务商往往也把目【本文受版权保护】本文版权归作者所有，未经授权不得转载。光聚焦在为企业降本增效上，这些场景下，A著作权归作者所有，禁止商业用途转载。【转载请注明来源】I决策的容错率较高，即使某些失误发生，也【关注微信公众号：wwwtangshuangnet】原创内容，盗版必究。能通过企业管理进行弥补和挽回。但如果想让本文版权归作者所有，未经授权不得转载。原创内容，盗版必究。Agent服务商为目标企业提供面向C端产本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】品的服务，则目前来看，还有很长的路要走。本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】举一个例子，我们都知道，AI智能化的生活【转载请注明来源】原创内容，盗版必究。场景中，缺少不了“预订”环节，而该环节则本文版权归作者所有，未经授权不得转载。著作权归作者所有，禁止商业用途转载。是一个决策性非常强的场景，因为要涉及到下【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。单、支付、物流等，而Agent服务商们可著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。承担不起由于AI决策失误，给企业带来的损本文版权归作者所有，未经授权不得转载。转载请注明出处：www.tangshuang.net失，因此，在企业的C端领域，目前还几乎很【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有，未经授权不得转载。少有商业化的Agent。

在C端，LLM也并没有提供更为强劲的产品【转载请注明来源】【原创内容，转载请注明出处】。虽然在抖音等平台上，我们看到各种AI搜本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net索、视频快速总结知识点、智能化做PPT、【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。智能化做报表等，处理文本对LLM来说是比未经授权，禁止复制转载。未经授权，禁止复制转载。较强的领域，但是就C端而言，其实对文本处著作权归作者所有，禁止商业用途转载。【本文首发于唐霜的博客】理的需求并不强，在大部分宣传中，都是把产【关注微信公众号：wwwtangshuangnet】本文版权归作者所有，未经授权不得转载。品定义成“生产力工具”，也就是在工作上能【版权所有】唐霜 www.tangshuang.net【本文受版权保护】够帮普通人处理文本、数据等。但是这里有一【转载请注明来源】原创内容，盗版必究。个矛盾，如果LLM能帮普通人处理，也就能本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。帮老板处理，老板为什么要聘用一个人，而非未经授权，禁止复制转载。【版权所有，侵权必究】一个AI呢？因此，实际上，在C端，现在，未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net很多人对ChatGPT等聊天应用已经不感未经授权，禁止复制转载。【本文受版权保护】冒了。即使现在已经有了非常多Agent，【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。包括搭建Agent的平台，但是实际上，真原创内容，盗版必究。【原创内容，转载请注明出处】正在C端市场出现一款热门的Agent的情【原创内容，转载请注明出处】【原创不易，请尊重版权】况基本不存在。我想，其根源在于，C端主要【访问 www.tangshuang.net 获取更多精彩内容】本文作者：唐霜，转载请注明出处。讲究的是消费，而当今的消费模式是短平快，【版权所有，侵权必究】著作权归作者所有，禁止商业用途转载。甚至无脑消费，而且还需要带点情绪价值，从本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】抖音、小红书等平台的发展就可以看出。在这【作者：唐霜】【版权所有】唐霜 www.tangshuang.net种消费场景下，普通用户很难为纯LLM买单【原创不易，请尊重版权】【版权所有，侵权必究】，Agent领域，也鲜有可以做出消费级的【原创内容，转载请注明出处】【版权所有】唐霜 www.tangshuang.net应用。

对于普通玩家，除非我们有强烈的兴趣，或者未经授权，禁止复制转载。【作者：唐霜】有丰厚的在线资源，否则我们尽可能去选择国著作权归作者所有，禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net内的低成本LLM服务。现在提供LLM服务转载请注明出处：www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】的优秀厂商包括阿里的千问（开源qwen）本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。、百度的文心、腾讯的混元、字节的云雀、智转载请注明出处：www.tangshuang.net【本文首发于唐霜的博客】普的清言（开源chatglm）、零一万物【本文受版权保护】【本文受版权保护】的Yi系列（开源Yi）、讯飞的星火、白川原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】智能的白川（开源Baichuan）、深度【转载请注明来源】【版权所有，侵权必究】求索的DeepSeek（开源deepse著作权归作者所有，禁止商业用途转载。【本文受版权保护】ek）、稀宇科技的Minimax、月之暗原创内容，盗版必究。【原创不易，请尊重版权】面的Moonshot、复旦大学香港中文大未经授权，禁止复制转载。【作者：唐霜】学等多家机构合作的书生浦语（开源Inte【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.netrnML）……目前，我的主力模型来自ch【版权所有，侵权必究】著作权归作者所有，禁止商业用途转载。atglm和deepseek，deeps【关注微信公众号：wwwtangshuangnet】本文版权归作者所有，未经授权不得转载。eek价格低性能快，因此被作为备选。

本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】

AI图像，疯狂地攻城略地

2023年，我在腾讯的时候，很早就开始在原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】宣讲用AI来实现设计提效，但讽刺的是，作【本文受版权保护】原创内容，盗版必究。为公司核心设计部门，迎来了不好的结局，这未经授权，禁止复制转载。未经授权，禁止复制转载。可能与AI无关，只是碰巧赶上了。在我离职【版权所有】唐霜 www.tangshuang.net【版权所有，侵权必究】前一段时间，我开始关注这个领域，并认为，著作权归作者所有，禁止商业用途转载。【版权所有，侵权必究】图像将占据消费市场的巨大空间，因为图像的本文版权归作者所有，未经授权不得转载。【作者：唐霜】背后还有视频作为延伸。之后我也开始在这个未经授权，禁止复制转载。未经授权，禁止复制转载。领域进入研究，并开发和发布了Visor这【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】款软件。

Stable Diffusion作为设计【版权所有，侵权必究】【版权所有】唐霜 www.tangshuang.net师们的核心工具，已经形成了庞大的生态。除本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。了企业内的设计师，还有原本是摄影行业的影【访问 www.tangshuang.net 获取更多精彩内容】未经授权，禁止复制转载。楼，或者专门做图像处理的工作室，另外还有【未经授权禁止转载】【关注微信公众号：wwwtangshuangnet】建筑设计、室内设计从业者，此外还有图片处原创内容，盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】理软件公司、服装设计师、电商网店、UP主转载请注明出处：www.tangshuang.net【关注微信公众号：wwwtangshuangnet】等等角色们，都在这个生态中按需索取。最近著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。很火的项目，修复老照片/破损照片->本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】;黑白照片上色->让老照片动起来，【未经授权禁止转载】【未经授权禁止转载】3个环节每个环节都能让很多人赚很多钱。而【版权所有，侵权必究】【版权所有】唐霜 www.tangshuang.net这些发烧友，还集合到了liblib、op未经授权，禁止复制转载。【关注微信公众号：wwwtangshuangnet】enart等社区，这些社区提供了各种模型【原创不易，请尊重版权】转载请注明出处：www.tangshuang.net和方案。各种各样的创业公司都在尝试面向C【作者：唐霜】本文作者：唐霜，转载请注明出处。端提供收费的图片处理服务，而当字节这样的【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。大厂下次，推出dreamina、星绘等产【版权所有，侵权必究】【关注微信公众号：wwwtangshuangnet】品时，stability上线自己的api【版权所有，侵权必究】【未经授权禁止转载】服务时，这些独立的创业团队往往都面临痛苦【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】的抉择。

原创内容，盗版必究。【原创不易，请尊重版权】【原创内容，转载请注明出处】原创内容，盗版必究。

不同的场景下，对AI图像的技术深度要求不【原创不易，请尊重版权】【版权所有，侵权必究】同。以生图为目的的创作者们，有的只需要从【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】AI处获得灵感，一次性生成10张图片，再原创内容，盗版必究。【原创内容，转载请注明出处】获得灵感后由人工完成创作，因此，只要一台【关注微信公众号：wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net能在本地跑SD webui的电脑即可。也【作者：唐霜】【作者：唐霜】有的是以实现图像处理为目标，例如一些影楼【未经授权禁止转载】原创内容，盗版必究。或工作室，他们并不单纯服务与企业或个人，原创内容，盗版必究。【未经授权禁止转载】但凡是图像处理的需求，可以来者不惧，一个【原创不易，请尊重版权】【作者：唐霜】团队几个人到10几个人，通过comfyu【未经授权禁止转载】【未经授权禁止转载】i构建出可复用的工作流，遇到相同目标的需【版权所有】唐霜 www.tangshuang.net未经授权，禁止复制转载。求时，无需再过多处理，就可以把钱赚到手，未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。这样的创业团队，甚至都不需要人手一台猛卡【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。电脑，整个团队有一台类似中心服务器的，就【关注微信公众号：wwwtangshuangnet】未经授权，禁止复制转载。可以让整个团队疯狂输出。而有的公司则需要【访问 www.tangshuang.net 获取更多精彩内容】转载请注明出处：www.tangshuang.net自己训练模型，以向自己的客户提供独特的服【关注微信公众号：wwwtangshuangnet】【作者：唐霜】务，但是为了养活自己，他们往往在网站上提原创内容，盗版必究。【本文首发于唐霜的博客】供一次性处理图片的能力，并按次收费或按月【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。订阅收费。只有到了头部大厂，才有足够的资【版权所有】唐霜 www.tangshuang.net【原创不易，请尊重版权】源，既做模型训练，又向其他第三方买训练好【关注微信公众号：wwwtangshuangnet】本文版权归作者所有，未经授权不得转载。的服务，然后再自己做应用，这里面字节冲的原创内容，盗版必究。【作者：唐霜】特别猛，不仅自己训练训的猛，而且还通过c转载请注明出处：www.tangshuang.net【关注微信公众号：wwwtangshuangnet】oze免费提供服务给开发者，在剪印中作为未经授权，禁止复制转载。【版权所有】唐霜 www.tangshuang.net独立功能对C端提供产品还不过瘾，还要独立未经授权，禁止复制转载。【本文首发于唐霜的博客】做产品。除了字节，通义千问、文心一言等a【本文受版权保护】【版权所有，侵权必究】pp上，也夹杂了AI图像。传统图片处理厂【版权所有】唐霜 www.tangshuang.net原创内容，盗版必究。商美图秀秀也在冲，快手也在用快影冲。老牌【版权所有】唐霜 www.tangshuang.net【原创不易，请尊重版权】图像处理天花板photoshop发布了b著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。eta版本，其中融合了AI功能，在原来的原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】选区、修补等工具基础上，以小搏大，用强劲【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net的AI图像能力实现图片处理，真的是让人很【版权所有，侵权必究】本文版权归作者所有，未经授权不得转载。开眼，可惜由于数据管控的原因，目前在国内【访问 www.tangshuang.net 获取更多精彩内容】本文版权归作者所有，未经授权不得转载。我们无法使用这部分AI功能。

AI图像分为生图和修图两个方面。目前，A本文作者：唐霜，转载请注明出处。【转载请注明来源】I图像好的方面是生图，无论是midjou转载请注明出处：www.tangshuang.net本文作者：唐霜，转载请注明出处。rney还是sd，甚至字节家的app，只【本文首发于唐霜的博客】原创内容，盗版必究。要用户稍微上心一点，都能得到非常漂亮的效原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。果，这是因为目前阶段已经是v3阶段了，各转载请注明出处：www.tangshuang.net【版权所有，侵权必究】家大模型已经训练的可以对用户的promp本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】t做非常非常聪明的响应。虽然但是，生图中【版权所有，侵权必究】【关注微信公众号：wwwtangshuangnet】，很多细节仍然经不起推敲，一旦往细节去看本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net，往往会遇到细思极恐的地方。因此，现在但转载请注明出处：www.tangshuang.net【转载请注明来源】凡想要得到一张好的图，我们不太可能通过p【本文受版权保护】【本文受版权保护】rompt直接获得，往往需要做细节修图。本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。这时，虽然ps还是首选，但是毕竟会有软件【作者：唐霜】【本文受版权保护】的跳跃感，因此，基于AI的修图也被越来越【版权所有，侵权必究】【关注微信公众号：wwwtangshuangnet】重视。现在几乎所有的厂商，都在生图后提供本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net给用户修图的选项，根据图片的需求，有的时【原创不易，请尊重版权】【作者：唐霜】候，只需要用AI稍加处理，就可以获得满意转载请注明出处：www.tangshuang.net【未经授权禁止转载】的结果。Visor也是在这种现状下设计的【本文受版权保护】本文作者：唐霜，转载请注明出处。，它希望用户利用AI在生图、修图、出图上著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。一气呵成，集成类似粘土化、换脸、老照片修【本文首发于唐霜的博客】转载请注明出处：www.tangshuang.net复等这种工程化的目标功能。但是，就目前来著作权归作者所有，禁止商业用途转载。【原创不易，请尊重版权】说，我认为修图效果最好的，还是ps的AI【版权所有，侵权必究】【版权所有，侵权必究】能力，毕竟老牌设计品牌。

【作者：唐霜】【未经授权禁止转载】

作为普通用户，如果希望实现创作，我们往往【版权所有，侵权必究】转载请注明出处：www.tangshuang.net需要下载多款app，在不同的app之间使本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。用不同的功能来实现想要的效果。从想通过A原创内容，盗版必究。本文版权归作者所有，未经授权不得转载。I图像领域赚钱的个人或团队而言，则需要抓【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】住热点，结合掌握的技术，快速制作能够实现【版权所有】唐霜 www.tangshuang.net转载请注明出处：www.tangshuang.net热点图像效果的短视频，在抖音等平台上推广【转载请注明来源】【转载请注明来源】自己。

【关注微信公众号：wwwtangshuangnet】原创内容，盗版必究。

总而言之，AI图像领域有着非常宽泛的空间【原创内容，转载请注明出处】本文作者：唐霜，转载请注明出处。，可以容纳不同类型的人群在这个领域利用A著作权归作者所有，禁止商业用途转载。【原创内容，转载请注明出处】I完成自己的图像目标，无论是以AI为工具【本文受版权保护】【原创内容，转载请注明出处】实现自己的设计目标，还是想通过AI赚外快【作者：唐霜】【作者：唐霜】，AI图像领域都是一个可以包容的、且略带本文作者：唐霜，转载请注明出处。【原创内容，转载请注明出处】疯狂的领域。

【转载请注明来源】著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net

AI声音，悄无声息的越来越强大

容易被人忽视的声音领域，实际上在应用中，【转载请注明来源】【本文受版权保护】占据着非常大的比重。不过，从应用上讲，除著作权归作者所有，禁止商业用途转载。【版权所有，侵权必究】了针对盲人，声音更多的是一种辅助手段，往【未经授权禁止转载】【本文受版权保护】往并不能成为核心角色，因此才那么容易被忽原创内容，盗版必究。【本文首发于唐霜的博客】视。但是，现在不同了，因为AI声音已经越【原创内容，转载请注明出处】【访问 www.tangshuang.net 获取更多精彩内容】来越强大了。新一轮的AI，让我们可以完全【关注微信公众号：wwwtangshuangnet】【转载请注明来源】克隆一个人的声音，更让人惊喜的时，还能为未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。声音实现情感、情绪、实时反应和停顿的控制【关注微信公众号：wwwtangshuangnet】【未经授权禁止转载】，接下来的阶段，技术上的主要目标是实现低【作者：唐霜】转载请注明出处：www.tangshuang.net廉的高性能的实时生成声音流，从而能够让A转载请注明出处：www.tangshuang.net【未经授权禁止转载】I声音成为能与人自然交流的机器对象。另外未经授权，禁止复制转载。【未经授权禁止转载】，这里面还有一个分支，就是AI唱歌，现在【原创内容，转载请注明出处】转载请注明出处：www.tangshuang.net基于so-vits-svc技术，已经可以本文版权归作者所有，未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】把AI唱歌做的非常好，你看suno的发展【本文首发于唐霜的博客】未经授权，禁止复制转载。，音乐创作者们高声痛哭要失业。

【转载请注明来源】未经授权，禁止复制转载。

从应用角度看，AI声音将会是数字人、影视转载请注明出处：www.tangshuang.net本文作者：唐霜，转载请注明出处。制作、游戏NPC、机器人等一系列场景下的【关注微信公众号：wwwtangshuangnet】原创内容，盗版必究。必备条件。但是从现实的角度讲，普通用户对【访问 www.tangshuang.net 获取更多精彩内容】本文作者：唐霜，转载请注明出处。声音的需求程度到底有多大是一个问号，就现转载请注明出处：www.tangshuang.net【版权所有，侵权必究】在的生硬的TTS对于大部分普通用户而言，【转载请注明来源】【关注微信公众号：wwwtangshuangnet】也未尝不能接受，只有在特定领域，特别是沉著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。浸式体验的场景中，才会对声音的要求比较大【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net。

未经授权，禁止复制转载。原创内容，盗版必究。

在GPT-4o发布的时候，AI声音展现了转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。其独特的魅力。而未来，每一台通用智能机器原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】人都将具备自己的音色，甚至，用户可以根据转载请注明出处：www.tangshuang.net【原创不易，请尊重版权】自己的喜好，定制音色。

AI声音包含两个重要的方面，“听”和“说未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net”。首先是声音的训练，其中克隆声音是一个本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net大题目，在数字人领域，能够具备与宿主一模【原创内容，转载请注明出处】著作权归作者所有，禁止商业用途转载。一样的声音是核心诉求。其次是基于文本的声转载请注明出处：www.tangshuang.net【转载请注明来源】音的生成，通过文本来控制声音的速度、音调【转载请注明来源】本文作者：唐霜，转载请注明出处。、情绪、感叹、口音等等，并且性能要足够优【原创内容，转载请注明出处】本文作者：唐霜，转载请注明出处。秀，目前来说，这是一个挑战。我尝试了最近【原创不易，请尊重版权】【版权所有】唐霜 www.tangshuang.net较火的chatTTS, fish-aud原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。io, cosyvoice，发现单一技术转载请注明出处：www.tangshuang.net【原创内容，转载请注明出处】即使在某些点上做的很好，但是整个技术体系原创内容，盗版必究。【原创不易，请尊重版权】在实现目标上，各有各的缺陷，有的无法完成本文版权归作者所有，未经授权不得转载。【未经授权禁止转载】出色的克隆，有的克隆优秀但是生成性能很差未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。，总之，虽然我们所拥有的工具越来越好，但本文版权归作者所有，未经授权不得转载。【访问 www.tangshuang.net 获取更多精彩内容】还不够非常好。

AI视频，期望越大失望越大

今年年初，openai完成了sora的P【版权所有】唐霜 www.tangshuang.net未经授权，禁止复制转载。PT式发布会，此后，AI视频成为全部人翘【关注微信公众号：wwwtangshuangnet】【原创内容，转载请注明出处】首以待的重量级AI应用领域。之前的pik本文版权归作者所有，未经授权不得转载。【转载请注明来源】a迅速陨落，runway和国产之星pix【作者：唐霜】【转载请注明来源】verse还在反抗。sora之后，所有的著作权归作者所有，禁止商业用途转载。【版权所有】唐霜 www.tangshuang.netAI视频技术路线被统一，快手旗下的快影a【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】pp发布了AI视频内测功能（基于可灵大模【本文受版权保护】【本文受版权保护】型），由于其优秀的实际效果，在Gen-3【本文首发于唐霜的博客】未经授权，禁止复制转载。, Genmo, dreamina等一众【版权所有】唐霜 www.tangshuang.net【原创内容，转载请注明出处】AI视频生成应用中，杀出重围，后来居上，原创内容，盗版必究。未经授权，禁止复制转载。成为在实际应用中（消费级）获得最高评分。【本文首发于唐霜的博客】【本文受版权保护】最近很火的老照片动起来视频，很多都是由可本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。灵完成。

对于AI生成视频而言，从消费者的角度讲，【版权所有】唐霜 www.tangshuang.net转载请注明出处：www.tangshuang.net有几条最基本的要求，一是画面的稳定与连贯【原创内容，转载请注明出处】【本文首发于唐霜的博客】，人物一致，那种明显的AI诡异画面是不可原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】忍受的；二是对信息的理解准确，不要漏掉或转载请注明出处：www.tangshuang.net【版权所有】唐霜 www.tangshuang.net错误安排关键信息；三是能够以正常的速度呈【本文受版权保护】【原创内容，转载请注明出处】现画面，并且运动效果稳定；四是时长越长越【关注微信公众号：wwwtangshuangnet】著作权归作者所有，禁止商业用途转载。好，像素越高越好。

从技术上讲，现在的AI视频生成模型，都是【原创不易，请尊重版权】【本文首发于唐霜的博客】sora的技术路线，即由视频数据的训练，本文版权归作者所有，未经授权不得转载。著作权归作者所有，禁止商业用途转载。视频的生成方式有prompt生成和基于图【本文受版权保护】未经授权，禁止复制转载。片的生成。在之前一段时间，由于我的乐观，【作者：唐霜】【未经授权禁止转载】认为这是最优的一条技术路线，而且当时“世【转载请注明来源】【关注微信公众号：wwwtangshuangnet】界模型”这个概念被疯狂炒作，让我对技术本【未经授权禁止转载】著作权归作者所有，禁止商业用途转载。身产生了误判。就人物一致性问题而言，基于【未经授权禁止转载】本文作者：唐霜，转载请注明出处。该技术路线就令人担忧，如果不能保证人物的【原创不易，请尊重版权】【版权所有，侵权必究】一致性，那么很多情况下，这个视频都是不可【关注微信公众号：wwwtangshuangnet】【本文首发于唐霜的博客】用的，仅是PPT视频而言。我认为，还是回【未经授权禁止转载】【转载请注明来源】到“补间”路线才是最后的解法。就像最近很【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】火的老照片动起来的视频，虽然只有一张图，著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net但视频的本质就是将图片作为帧，以连贯的方【本文受版权保护】转载请注明出处：www.tangshuang.net式播放它们，所以在生成帧时，通过原始图片【版权所有】唐霜 www.tangshuang.net本文作者：唐霜，转载请注明出处。做细微的人物处理，在很大程度上可以避免基【未经授权禁止转载】【原创不易，请尊重版权】于prompt式的AI意识流视频来的更好【关注微信公众号：wwwtangshuangnet】【原创不易，请尊重版权】。实际上，这一路线在之前很多将短视频跳舞未经授权，禁止复制转载。本文作者：唐霜，转载请注明出处。转为卡通风格上，获得了验证，或者替换视频【版权所有，侵权必究】著作权归作者所有，禁止商业用途转载。人脸的视频等等，都是基于这种看上去很笨，本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。却非常有效的技术路线。

【作者：唐霜】【原创不易，请尊重版权】

当然，如果在生成视频时，能够做到sora本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net演示效果那样的高清真实效果，确实可以在影本文作者：唐霜，转载请注明出处。【关注微信公众号：wwwtangshuangnet】视制作、游戏等领域给我们带来更棒的体验。【版权所有】唐霜 www.tangshuang.net原创内容，盗版必究。例如我们在制作一些科普短视频时，由于缺乏本文版权归作者所有，未经授权不得转载。著作权归作者所有，禁止商业用途转载。素材，如果可以通过AI将其补充，这对我们本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】提供更加优质的科普内容，更有帮助。再如我本文作者：唐霜，转载请注明出处。【本文受版权保护】之前为小孩制作动画，如果可以通过AI，直【转载请注明来源】本文版权归作者所有，未经授权不得转载。接基于故事内容，生成人物一致的连环画式视本文版权归作者所有，未经授权不得转载。本文作者：唐霜，转载请注明出处。频，对亲子教育或许也有不错的帮助。虽然我【原创不易，请尊重版权】【访问 www.tangshuang.net 获取更多精彩内容】们在短视频平台可以看到很多将网文直接输出【作者：唐霜】【原创内容，转载请注明出处】为短视频的，但是可以很明显感觉那些画面过【关注微信公众号：wwwtangshuangnet】【作者：唐霜】于糙，而且画面与画面之间没有逻辑，感觉就原创内容，盗版必究。【本文受版权保护】是纯粹的配个图而已。

原创内容，盗版必究。本文作者：唐霜，转载请注明出处。

转载请注明出处：www.tangshuang.net【作者：唐霜】【本文首发于唐霜的博客】【原创内容，转载请注明出处】

多模态大模型，重要却进展缓慢

多模态的本质，在AI领域，就是“眼睛”的未经授权，禁止复制转载。【原创不易，请尊重版权】作用。多模态大模型的成功是打开AI心灵的转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。窗户。但是，目前的多模态大模型发展并不乐【版权所有】唐霜 www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】观，从google最早发布gemini视本文作者：唐霜，转载请注明出处。【版权所有】唐霜 www.tangshuang.net频造假，到现在GPT-4o收费且调用次数【原创不易，请尊重版权】【本文首发于唐霜的博客】限制，多模态大模型的发展一直不那么顺利。未经授权，禁止复制转载。【本文受版权保护】在多模态之下有一个分支，就是vision未经授权，禁止复制转载。【转载请注明来源】（视觉）模型，这个分支倒是发展的不错，微原创内容，盗版必究。未经授权，禁止复制转载。软发布的phi3-vision已经来到了原创内容，盗版必究。【未经授权禁止转载】128k参数量，可以说在硬件上门槛被降到【原创不易，请尊重版权】原创内容，盗版必究。很低。但是通用多模态大模型的发展缓慢，或【未经授权禁止转载】【作者：唐霜】许是因为之前在LLM上过多投入，期望在接原创内容，盗版必究。【原创不易，请尊重版权】下来的这个阶段，各大厂商在多模态上，可以著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net把价格打下来性能抬上去，在这一点上，国内未经授权，禁止复制转载。【本文受版权保护】的厂商们，有没有一家可以上去硬刚呀。

多模态大模型，是实现GPT-4o发布会上转载请注明出处：www.tangshuang.net本文作者：唐霜，转载请注明出处。，拿着手机摄像头与AI对话的前提，没有多【版权所有，侵权必究】未经授权，禁止复制转载。模态，一切基于视觉对话的场景都免谈。虽然【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。视觉模型可以解决部分问题，但是视觉模型只【版权所有】唐霜 www.tangshuang.net原创内容，盗版必究。能处理图片，不能处理视频，没有办法动态分原创内容，盗版必究。转载请注明出处：www.tangshuang.net析内容，因此也就没有办法真正解决多模态要【未经授权禁止转载】【原创不易，请尊重版权】解决的场景问题。

原创内容，盗版必究。【本文首发于唐霜的博客】【未经授权禁止转载】转载请注明出处：www.tangshuang.net

在应用场景中，多模态可用于机器人、自动驾【作者：唐霜】【版权所有】唐霜 www.tangshuang.net驶、教育教学、各类知识的实时解答和分析等【版权所有，侵权必究】【作者：唐霜】等。例如对于盲人而言，或许只需要在头顶安本文版权归作者所有，未经授权不得转载。【关注微信公众号：wwwtangshuangnet】装一枚摄像头；对于聋哑人，只需要佩戴一副【转载请注明来源】【关注微信公众号：wwwtangshuangnet】实时字幕的眼镜。在这些应用场景中，我们其【原创不易，请尊重版权】【转载请注明来源】实可以通过Agent架构来调用不同工具实【本文受版权保护】著作权归作者所有，禁止商业用途转载。现，但是，要对序列化内容进行分析，可能还【转载请注明来源】【版权所有】唐霜 www.tangshuang.net是需要多模态才能做到最好。

【作者：唐霜】转载请注明出处：www.tangshuang.net

通用机器人，未来的唯一方向

前面的所有，都还只是在软件层面，当我们把未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net视野拉大，AI人工智能的终极，一定是让A【版权所有，侵权必究】【本文首发于唐霜的博客】I控制硬件。现在，已经很多工业车间的机器【作者：唐霜】【版权所有】唐霜 www.tangshuang.net人，也有智能汽车，酒店商场等也有一些服务【版权所有】唐霜 www.tangshuang.net【作者：唐霜】性的机器人，但是，这些机器人距离通用机器【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。人，就像草履虫到人类之间的差距一样。通用著作权归作者所有，禁止商业用途转载。【原创不易，请尊重版权】机器人，就是我们电影中看到的robot，【本文受版权保护】著作权归作者所有，禁止商业用途转载。它们提供通用的服务，例如家庭、餐厅、酒店【关注微信公众号：wwwtangshuangnet】【转载请注明来源】、写字楼等，它们可以代替人类完成服务性质原创内容，盗版必究。【作者：唐霜】的工作，如家务、清洁、配送、修理等等，当【本文首发于唐霜的博客】【作者：唐霜】然，对于某些力量来说，它们还会被配置到战未经授权，禁止复制转载。著作权归作者所有，禁止商业用途转载。场上。

【本文受版权保护】【原创不易，请尊重版权】【访问 www.tangshuang.net 获取更多精彩内容】

随着机器人领域的开源生态越来越大，3D打原创内容，盗版必究。本文作者：唐霜，转载请注明出处。印的成本逐渐降低，在硬件领域，实际上制作【转载请注明来源】【原创内容，转载请注明出处】通用机器人的技术工程难度已经很低了，核心【关注微信公众号：wwwtangshuangnet】【本文受版权保护】问题在于如何设计可量产的、设计感强的、功【转载请注明来源】著作权归作者所有，禁止商业用途转载。能可迭代的硬件体系，更重要的是如何让硬件著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。体系获得灵魂。从目前来看，openai投本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】资的机器人公司figure已经具有雏形，【版权所有，侵权必究】【本文首发于唐霜的博客】目前来说，核心的问题还是在算力（性能）上原创内容，盗版必究。未经授权，禁止复制转载。。

国内也有研究机器人的公司，包括优必选、小【作者：唐霜】本文作者：唐霜，转载请注明出处。米等，产业链上还有绿的谐波、柯力传感这样【关注微信公众号：wwwtangshuangnet】著作权归作者所有，禁止商业用途转载。的公司，但是总体而言，整个行业还是比较散原创内容，盗版必究。未经授权，禁止复制转载。，没有形成规模，产业链不够完善。而从这点【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。来看，在AI领域，本文提到的所有方向，国未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】内的发展都不容乐观。

结语

本文挑选了我认为是AI领域，当前发展最重著作权归作者所有，禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】要的几个方向进行了阐述，呈现国内发展现状本文版权归作者所有，未经授权不得转载。本文版权归作者所有，未经授权不得转载。，以让更多的读者朋友了解当前AI领域发展【关注微信公众号：wwwtangshuangnet】【版权所有，侵权必究】趋势。2024年是AI应用的爆发年，作为【版权所有】唐霜 www.tangshuang.net【关注微信公众号：wwwtangshuangnet】应用强国，我们在基础研究和产品设计上都有本文版权归作者所有，未经授权不得转载。著作权归作者所有，禁止商业用途转载。一定的优势，然而在创业环境和产业链上都存【转载请注明来源】【版权所有】唐霜 www.tangshuang.net在着明显的竞争不足。未来5-10年必然是【未经授权禁止转载】【本文受版权保护】AI统治应用领域的开始阶段，在国际大背景本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。下，这一竞争领域显得更加重要。作为从业者原创内容，盗版必究。【关注微信公众号：wwwtangshuangnet】，我们应该认识到国内外的差距，同时，也正【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。因认识到国内外产业链上的现状，才有信心一【本文受版权保护】转载请注明出处：www.tangshuang.net点一点的去补齐不同环节上的不足。竞争永远【原创不易，请尊重版权】【本文首发于唐霜的博客】是残酷的，在关键领域，不存在开放市场，如【本文受版权保护】【原创不易，请尊重版权】果没有掌握主动权，未来或许我们不得不向境【原创不易，请尊重版权】转载请注明出处：www.tangshuang.net外公司购买通用机器人，并因此带来更严重的原创内容，盗版必究。【原创不易，请尊重版权】数据危机。个人在时代的浪潮中更加渺小，我【原创内容，转载请注明出处】【关注微信公众号：wwwtangshuangnet】过去10来年积累了很多应用开发的经验，如本文作者：唐霜，转载请注明出处。本文版权归作者所有，未经授权不得转载。今在AI领域中继续投入，希望能为这个时代本文版权归作者所有，未经授权不得转载。转载请注明出处：www.tangshuang.net贡献自己的微薄力量吧。

转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。著作权归作者所有，禁止商业用途转载。

【本文首发于唐霜的博客】本文作者：唐霜，转载请注明出处。【作者：唐霜】【版权所有】唐霜 www.tangshuang.net转载请注明出处：www.tangshuang.net【作者：唐霜】本文作者：唐霜，转载请注明出处。原创内容，盗版必究。本文作者：唐霜，转载请注明出处。著作权归作者所有，禁止商业用途转载。【版权所有，侵权必究】【本文受版权保护】著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。【本文受版权保护】【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。【版权所有，侵权必究】【版权所有】唐霜 www.tangshuang.net【作者：唐霜】【版权所有】唐霜 www.tangshuang.net原创内容，盗版必究。【原创内容，转载请注明出处】【原创内容，转载请注明出处】本文版权归作者所有，未经授权不得转载。【作者：唐霜】未经授权，禁止复制转载。【本文首发于唐霜的博客】【本文首发于唐霜的博客】

2024-07-09 4142

唐霜

国内AI应用场景技术需求分析与现有产品简评