“什么是Agent”的终极解释
2025年的今天,我们终于可以给出Agent的终极定义,即“智能化自动化的应用程序或服务”。
首先,Agent是应用或服务,而非AI。虽然,我们现在默认AI是驱动Agent的基础,但是,Agent不只意味着AI,那些对AI(特别是LLM)简单套壳的应用不是Agent。Agent本身依赖AI,但不必须依赖特定AI,AI只是它的一个组件,且可以随时切换为更高智能的AI。Agent本质上是应用,就像Java程序以来数据库服务一样,Agent依赖AI,但不参与AI本身的开发。
其次,Agent具有自主性,即无需人工干预自主实现目标。与以往应用程序需要程序员撰写精确逻辑的代码不同,Agent应用中,程序员不实现业务逻辑本身,而是实现逻辑的调度,通过这个调度让程序自动选择业务逻辑节点去执行,如果在Agent框架的加持下,程序员甚至不需要实现这个调度,而只需要实现业务逻辑的节点,应用启动后,每个业务节点在什么时候被执行,完全是由Agent根据用户的输入和当前的状态来决定。
最后,Agent具有单一通识能力,即一个Agent就可以帮用户解决所有问题,包括不同专业领域、不同业务场景、不同目标需求。比如,用户既可以让Agent为自己下一个外卖单(生活场景),也可以让它帮自己完成数据统计(工作场景)。虽然目前来说,市面上的Agent大部分还是倾向于专业能力,例如cursor专注于编程,但是这主要是发展程度不够决定的,未来,cursor这样的工具一定会被淘汰。
历经2个月,我的第一款真正意义上的AI产品上线
大家好,这两个月我完成了一款产品——Videa。虽然过去一年,我做了很多东西,但是部分是套壳,部分是把别人的想法做出来,真正我一直想做的,其实是一款借助AI创作短视频的产品。现在,我把它做出来了。

下面,我将聊一聊我做这款产品的想法。
生成模型不是产品
我们现在已经有很多图片、视频的生成模型,图片领域有最早的SD、Flux,现在又有了recraft、ideogram等,而且国产的kolors等也获得好评,这几天flux kontext的发布再次震撼了业界;视频生成领域除了最早的Gen2、Pika、PixVerse,到Sora、Voe3,以及国内的混元、可灵、海螺、通义,都已经非常成熟。在如此激烈的生成模型竞争中,我发现,创作者要完成自己的短视频制作,仍然很难。
视频生成模型的厂商们在自家App中提供的视频生成功能,虽然在它们的演示中表现的非常抢眼,然而在实际使用中,普通用户很难一次性得到符合预期的结果。更重要的是,创作这件事本身,是有非常复杂的程序和时间因素的。而生成模型只能创建短时间的随机的视频,通过prompt是无法真正做到按预期生成视频的。
市面上出现了一些Agent模式的产品,例如skyreels,通过Agent来规划和制作长视频。然而其随机性大大增加,如果没有正确识别用户的创作意图,工具甚至会产出与用户意图背道而驰的作品。
总而言之,生成模型虽然好,但是只能解决从0到1的问题,而无法解决1到100的问题。模型本身很难直接成为产品,作为底层的支撑,在模型之上构建真正符合实际使用场景的产品,则是我的想法。
讲好故事而非视觉艺术
在得知AI生成视频的能力已经非常强的时候,我们跃跃欲试的心终于按捺不住,开始尝试将自己积压已久的想法制作成短视频。然而,很快我们就会发现,我们把事情想得过于简单,而工具们又把问题想得太复杂。实际上,我们的核心痛点,是想将我们内心的“故事”用短视频的形式表达出来,这种欲而不得的焦虑,促使我们对现有的AI工具产生质疑。
制作视频本身是一项技术的工作,优秀的视频剪辑,让视频非常出彩,专业的视频制作让一个博主、品牌具有强烈的人设。但是,作为普通人,很难在不以视频为自身主业的情况下,制作出令人称赞的视觉效果。那么,我们能否退而求其次,用朴素的视频,也可以传递我们想要表达的内容呢?
我的理解是,对于绝大多数有此冲动的人们而言,
短视频的本质是讲好一个故事,而非纷繁复杂的视觉艺术。
制作视频来讲述我们内心的故事,并不一定要让我们的视频具有多么高级的视觉艺术,我们都不是导演,拍不出电影级的视觉盛宴。我们的短视频,只是一个普普通通讲故事的人。这是一种表达欲的延伸,是互联网原始的初衷,是网络冲浪中敢于表达自身的内在需求。
在过去很长很长一段时间,文字或更高级的图文内容,充分展示了人们的内心世界。但在多媒体时代,这种表达,被媒体制作的技术要求所约束,以至于让网络平台成为某些人独有的话语权。
我们这个世界需要故事,而现在普通人通过AI,讲好自己的故事已经成为可能。我们绝大部分情况下,不会尝试去制作电影级的视觉效果,我们会用最朴素的节奏和配音,来把我们脑海中的故事,一点点的揉捏出视频的形。这个故事,可以是关于一个天真孩子看到神奇现象时脑海中的奇妙历险,可以是一个经过生活打磨后的中年打工人对年轻人的寄语,可以是科幻爱好者对未来星际旅行的人类空间城的设想,可以是策划人寻找与用户情感共鸣的广告设计,可以是文人们对历史回音里的控诉的无声传递。我们本质上想要短视频把90%的力量用在讲好故事,剩下的10%留给视觉和技巧带来的吸引力。
创作者们的工作流
在生成模型的基础上,创作者们构建了一套行之有效的工作流。总体而言,可以总结为如下:

在抛开需要在视频出现人物,并且保持人物一致性的情况下,这套工作流让创作者们可以利用AI工具,创作尽可能还原自身意图的短视频。而且,这套工作流的厉害之处在于,如果有足够的毅力,甚至可以制作出一部几十分钟的中长片,甚至电影级时长也不是没可能,毕竟即使电影的后期,也需要几个月的制作时间。
而对于AI工具的选择,则不同的创作者倾向不同,文生图有直接在本地部署Flux的,也有在即梦充会员的,音乐生成有网易云和qq音乐的对应平台,也可以去国外的suno等。总之,不同的工具选择,并不影响这一套工作流的具体实施。而这种灵活的组织模式,也可以让创作者们在实现创作的同时,尽可能压缩自己的成本。
化无形为有形
如何做出一款产品,将已知的概念,落地为切实的存在呢?我只抓住一个点,即前文所说的“短视频的本质是讲好一个故事”。从技术层面,短视频的制作中有一个非常重要的要素,就是“时间”,即视频这种形式与其它载体形式的最大区别就是在时间延续上的连贯性,画面的连贯性、声音的连贯性、意境情绪的连贯性。让“故事”在“时间”上行游,就是Vdiea这款产品的原始创意。
说的人话些,Videa的界面第一眼看上去就像一个视频编辑器。它由多个区域组成,其中最占视野的就是中间的视频画布区域和底下的轨道控制区域,轨道控制区域与几乎所有的视频编辑器大致相同。不同的地方在于:
- Videa没有其它视频编辑器所拥有的素材控制
- 没有其它视频编辑器的特效和转场
- 没有其它视频编辑器的超强剪辑能力
它不是一个编辑工具,不是一个编辑工具,不是一个编辑工具!在我看来,它本质上是一个管理工具,你可以直接在Videa中完成上述工作流的全部内容,包括但不限于:
- 与AI对话来进行故事创作、脚本制作等
- 通过文生图、文生视频、图转视频等来获得画面素材
- 通过语音合成来创建配音
- 无需分镜管理,因为它主动提供了“分镜”类型的轨道
- 集成了“剧本”类型轨道来获得连续的文案和配音
对于“讲故事”的创作者们而言,视频编辑器上的众多特效特技我们用不上,这种时间轴轨道的形式,仅仅是为了以“时间”的维度来管理我们的分镜和素材,我们会更多的将精力放在我们的故事创作上,用故事的内核(而非视频外在)打动我们的读者/观众,用朴素的方式,传递我们内心的声音。
结束语
从故事出发,一点一点地构砌那个属于我们自己的讲述,一帧一帧画面的跳动,干净而朴素,故事娓娓道来,然后结束。作为一个独立开发者,我有很多故事可以讲,而Videa就像一位老朋友,它慢慢的倾听,并把我的故事用短视频的方式,呈现给每一个恰到好处相遇的人。
AI让原本需要很专业才能做到的事,如今成为每一个普通人手到擒来的。Videa默认配置下可以完全免费使用,当免费的AI能力不能满足时,你可以通过购买资源包来升级,资源包是按量扣费,而且Fuu AI全站可用。无需邀请码。电脑上打开使用:
在使用过程中,如果你遇到什么问题,或者发现有什么地方还做得不够好,你可以在下方留言,让我可以知道。也可以点击下面阅读原文,分享到电脑上打开后收藏,与我保持长期互动,不放过你的每一个想法。关注本公众号,获取更多使用技巧。
好了,就到这里,祝你愉快😀
-
邮箱登录收不到验证码#1359 卡布 2025-06-05 10:24
-
关注一下垃圾邮箱哦,邮箱服务是国外的,可能比较慢#1362 回复给#1359 否子戈 2025-06-13 19:25
兜兜转转,弃用edge,用回chrome
最早从chrome换到edge的原因,是因为chrome越来越吃内存,同时,账号同步功能受到限制,而edge使用了相同内核,微软的账号又没有受到限制。但随着时间的推移,已经持续用了几年edge了,发现它越来越重,不仅版本跟不上chrome,而且账号问题反而影响使用——当正常使用时,由于网络问题,账号没有连上,它竟然会弹出一个强制性的弹窗盖在原有窗口上,导致原有窗口关不掉,虽然这个弹窗可以直接关闭,但是过一会儿又会弹出来,真的是太恶心。包括它新加的AI功能,统统都用不上。对于我而言,浏览器的重要功能是要调试方便,而chrome就像初恋一样,又成了我的心头好。
facebook生产有技术深度的垃圾
facebook从10年前开始在技术领域作出了非常大的贡献,在前端领域,出现了react,之后又出现了LLaMA。然而,随着时间的流逝,facebook这家公司正在衰亡,伴随而来的,是以前的一些项目的维护人员逐渐流失,因为无法维护,导致很多问题。今天要指出的,是两个非常有技术深度的,却没人维护的,让我非常后悔采用的两个东西:faiss和rocksdb。
我在几年前采取了这两个工具,但是现在,这两个工具成为我的项目毒瘤。我现在每次在一台新机器上执行yarn,都感到心惊肉跳,这两个东西都需要编译,而现在总是无法正常编译。对了,yarn也是facebook的东西。在用了这么多年之后,我不得不因为这两个没人理会的垃圾寻找出路,rocksdb我使用leveldb替代,要改代码。faiss-node我自己fork了一个,发了一个新包faiss-node-napi8,如果你也在用faiss-node,你可以在package.json中这样写:
... "faiss-node": "npm:faiss-node-napi8@^0.5.1", ...
虽然这是过渡方案,但是起码能跑起来。
这件事让我开始反思,我们在做技术选型的时候,应该要考虑到这种问题。随着nodejs、webpack、vite等基础设施的升级,很多以前的技术实现会出现不兼容的情况,而如果此时项目无人维护,而你的项目又重度依赖,那么就非常非常痛苦。你看,即便是强如facebook这样的大公司,也有很多当时有技术创新,却最后沦落为无人理睬的垃圾的项目。那么,就更无法对个人的项目库更加信任。因此,我们应该挑选那种社区比较大的开源项目作为技术选型,只有当社区足够大,才能支持项目可以持续维护。
只用了两招,网站秒开
感觉网站首开速度慢,虽然有缓存,但是大部分新用户第一次打开竟也要6-7秒。一开始想的是从拆包分包的角度去做,后来发现没啥用,vite打包无法做到对单包再拆分。之后又考虑SSR,改了半天,各种与浏览器端写法不兼容,发现SSR必须是从一早开始就按其思路来写,先浏览器端再来改造的,都很坑。之后想了一会儿,觉得从前端的角度去搞没前途,想想后端的办法。仔细观察了一下请求记录,发现js包文件很大,有1M多,再仔细瞄了一眼,发现没有开启gzip,于是感觉去服务器上开启gzip试试。经过折腾,一试,果然快了很多,看请求记录,确实压缩到了200k。但是仍然觉得还不够,突然间发现了两条记录之间有时间差,想起有一条浏览器同时发送请求不超过6条的规则,想到是不是因为这个原因,而对应的解决办法就是开启http2,于是又去找资料开启,回来再试,果然,这次真的是秒开了。从6-7秒,到秒内开,实际上只做了非常少的一点nginx的改动,可见有的时候,吭呲吭呲,还不如换个赛道。
通用人形机器人的一些遐想
今天,2024年10月11日,在特斯拉的发布会现场,除了无人驾驶出租车、无人驾驶出租车巴士以外,全新一代的人形机器人Optimus成为焦点,它不仅可以做家务猜拳,而且预估价格在两到三万美元。我在《Robust》播客节目中曾经提到,通用机器人,是人工智能未来的唯一方向。本文就从我作为AI从业者的角度,聊一聊对通用人形机器人的一些遐想。
基于多模态大模型的智力
过去很长的时间里,机器人的功能都是由固定的程序来实现的,这也就意味着它们会按照固定的单一或几种模式,基于穷举规则的办法,做循环动作,因此,在工业领域应用较多。但随着大模型的诞生和广泛应用,我们发现它能提供智力支持,因此出现了火热的AIGC。机器人领域也迅速跟进,让AI来作为其大脑,代替原来的“基于穷举规则”的方案。这让机器人的反应方案更加智能化和多样化,同时,基于Agent技术,确保目标执行的准确。
多模态大模型则可以直接对接机器人的传感器,将视觉、听觉等信息,全部统一交给中枢大脑处理,而无需像以往一样,需要前置一套图像识别的智能算法,再以结论的方式交付给中枢反应。一旦机器人拥有了视觉、听觉,再配合大模型本身的智力提供,机器人就可以自主的完成对环境的响应,而且由于简化数据流程,其响应速度也可以变的更快,应变处理的能力也就更强,这也就是为什么Optimus可以和人类玩剪刀石头布。
不过,大家不必过于惊慌,毕竟大模型本身的架构,并不能保证智力的准确性,总体而言,目前人类的智力还是有优势,还不可能出现机器人起义反抗人类的情况。
云端模型vs本地模型
那么,Optimus的智力来源,是本地模型,还是云端模型呢?马斯克的Grok作为超强模型,从英伟达那里拉来了几大卡车的H100,为Grok提供超级算力。同时,为机器人植入5G芯片,保证网络速度,就可以让机器人以微秒级对环境作出响应。同时,作为一个这么大体积的机器人,完全可以内置一个强大的本地AI芯片,配合大内容强CPU和GPU,可以并行的对环境变化作出决策,再根据云端的网速,如果网络震荡,可以降级到用本地小模型给出的决策方案。
家务场景
帮助主人完成家务,是我对人形机器人的最大期待。随着人类社会的演进,社会生活的模式会越来越把个体抽离出具体的事务,比如十几年前那种下班回家做饭一家人一起吃完再去散个步的生活方式,不会再成为整个社会的主要模式,人们对时间的紧迫感越来越强,而且个人精力的有限性,人们会失去更多的家庭时间。只有那些能请的起佣人的富人阶层才能既有足够的时间完成自己想做的事,又有整洁的家庭环境让自己可以和家人享受生活。而人形机器人的出现,则可以帮助人们获得优质的生活。房间打扫、物品收纳整理、做饭、拖地、洗衣服和晾晒收纳、快递收发等等,这些原本需要花很多时间去处理的事,交给机器人完成,那么家庭成员就可以有更多的时间享受家庭生活。
养老场景
人口老龄化严重的国家,必然会将养老纳入福利体系,但侍老人员问题频有发生,而引入人形机器人,既可以解决照顾老人这种疲累的工作,又可以陪伴老人,从精神层面解决老人的空虚感。
家庭医生、家庭教师、家庭律师
借助它的智能,机器人可以弥补普通人知识的不足,在遇到对应问题时,提供临时的解决方案。
以健康问题为例,我们现在很多人去医院看病,往往是这样的情况:挂号抢不到,只抢到了一周以后的号;去了以后,排队2小时,看病30秒;拿药回家。为什么真正的30秒,却要占用我们那么多时间?核心原因在于医生的经验,看一眼就能和过往的病例联系在一起,如果没有其他症状,连化验拍片都不需要,就直接开药了。那么,如果把这个经验赋予普通人自己呢?当然,这是不可能的。而基于专有医药大模型,则可以提供这种经验和决策,在小瘟小病上,可以节省时间,在大病上也可以提前预料,在家就有机器人帮做体检。
以教育为例,我们可以发现,西方很多成就破丰的人物都拥有较为富庶的家庭。这些富人阶层一方面通过舆论强调孩子发展过程中的开发性和趣味性,另一方面在自己家庭内部又对自己的孩子严格要求,并提供各种教育资源,特别是邀请名师作为家庭教师。而当具备智能的机器人进入普通人家庭,就可以利用其智力辅助孩子的学业,例如在数学和编程方面的辅导。
这种将智力外置的社会形态,会成为人工智能时代的重要标志,人们会把精力放在自己感兴趣的,无法被替代的工作上,而非低级工作中。
收费模式
我想,机器人收费模式一定是以汽车的收费模式为基础进行演化的。一款机器人,一定存在低配中配高配,同时还有选配。机器人的收费项目包含硬件部分和软件部分。硬件部分,包含出厂原价扣除厂家优惠、定期保养维护费,同时,我认为随着机器人硬件技术的成熟,新材料的运用,厂商还可以提供硬件升级和扩展服务,例如买了两年后开始流行给机器人装一对翅膀,那么你可以返厂加这对翅膀。软件部分,除了基础的套餐服务外,裸机只能完成较为简易的指令,想要机器人能下厨能看病,都需要另外购买套餐,通过云端升级来获得新功能。甚至就像特斯拉一样,硬件支持,但是软件不给你这个功能,你得买套餐才能获得。
国家安全的担忧
一旦海外国家机器人技术成熟,并量产,最后广泛用于军事,那么蓝星最强陆军可能将面临巨大挑战。虽然我们国家的无人机技术和产量已经形成了碾压趋势,但是未来战争一定是海陆空的机器人先行,除非把所有资源都打光,才轮到人上,而我国目前的机器人行业现状却不容乐观。前段时间中国机器人大会上,几家国内顶尖的机器人公司,呈现给我们的,还是上一代基于规则为主的机器人,与国外的差距仍然不小。于此同时,从事该行业,或者行业的预备人才,也严重匮乏,在面对国际环境日趋紧张的当下,令人担忧。
最近关于AI创业的一些想法
我本身是一个技术人,过去对市场和推广的东西比较木讷,我觉得这是一种错误的价值观。人的价值观是由多个方面组成的,例如是非对错、道德取向,但是,在当今社会,我觉得对于普通人而言,最重要的价值观是对“什么是有价值的”的正确认知。价值观本身是取舍,而取舍本身必然存在冲突,有冲突就有内心的挣扎。我们大多数人比较安逸于舒适区,对价值的判断有偷懒的惯性,因此,对于“什么是有价值的”往往用是非对错、道德取向等去判断。这使得我们作出错误的决策,错失很多好机会。在过去相当长的时间里,我都认为很多人在做投机,从而赚“亏心”钱。但最近我开始重新认识到,在赚钱这件事上,很多看上去投机的现象,本质上有其必要性,没有这种投机,市场无法表现足够的活跃。例如,我们一开始都认为抖音很低俗,但这一年,我越发觉得抖音是目前信息流通最快最广泛的,这在中国是好现象,这意味着通过信息差,我们可以获得更多的机会。在此之前,我还从未见过抖音这种信息流通形式,虽然它上面鱼龙混杂,需要辨别,但即使如此,我们仍然能够从错误信息中获得客观信息趋势。
随着我想法的变化,我不再执着于以前所认定的一些理念,例如追求技术深度、坚持干货输出、认可小而美,当下,我有一些有悖以往的认知,现在我认为小而美并不美,干货输出并不能获得有效流量,追求技术深度不会沉淀出竞争力。以OpenAI为例,虽然很多公司的强调开源,但是本质上它们都不属于上述任何一项,OpenAI赢在架构上,它们有追求,但是不是技术深度的追求,而是广度的追求,它们在GPT-2之后就不开源了,开源只是流量入口而已,他们始于chatGPT但是现在在全AI领域发力,不仅不小而美,相反它们想做未来的龙头甚至垄断。
当然,这只是我自己的想法,有些东西过于邪恶,不适合输出,就删掉了。

