智能体的第4个阶段,到来了!

广告位招租
扫码页面底部二维码联系

大家好,写博客的时间越来越少了,我尽可能【本文首发于唐霜的博客】【作者:唐霜】保持每周都写点东西。我上一篇公众号写了M转载请注明出处:www.tangshuang.net【未经授权禁止转载】anus智能体,openManus项目很未经授权,禁止复制转载。【作者:唐霜】快就火了,上周,字节发布了它们的开源项目Agent TARS原创内容,盗版必究。,我认为字节内部行动真的很快。目前这个项【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。目发布了桌面端,内置了浏览器的操作工具,【未经授权禁止转载】未经授权,禁止复制转载。同时接入了MCP,将来可以调用非常多的本【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。地电脑工具。随着类似项目的越来越成熟,我【作者:唐霜】【本文受版权保护】能感觉到,智能体的第4个阶段,已经到来了【关注微信公众号:wwwtangshuangnet】【版权所有】唐霜 www.tangshuang.net

【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】

智能体的前3个阶段著作权归作者所有,禁止商业用途转载。

本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】

这里所说的智能体,主要是指基于LLM的智【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】能体,因为Agent这个词进入大众视野,【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。是LLM得到广泛认可后才火的,在此前的A未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】I发展历程中,人们并不是很认可Agent【转载请注明来源】转载请注明出处:www.tangshuang.net技术路线,直到LLM的出现,Agent技未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。术才可能成为真正服务于普通人的技术。因此【未经授权禁止转载】【转载请注明来源】,我们所说的“智能体发展阶段”是从202未经授权,禁止复制转载。【原创内容,转载请注明出处】3年开始,到现在也不过短短2年多时间,虽转载请注明出处:www.tangshuang.net【关注微信公众号:wwwtangshuangnet】然现在划分阶段为时尚早,但是从技术层面讲【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。,这种阶段性变化是真存在的,因此我们需要【本文受版权保护】著作权归作者所有,禁止商业用途转载。像陈述事实一样,对过去2年的发展做一个简【原创不易,请尊重版权】【未经授权禁止转载】单的梳理。

本文作者:唐霜,转载请注明出处。原创内容,盗版必究。【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。

第1阶段:系统提示词转载请注明出处:www.tangshuang.net

【作者:唐霜】【本文首发于唐霜的博客】未经授权,禁止复制转载。【版权所有,侵权必究】

这是由OpenAI定义的,他们在chat【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。GPT中设计了一种让同一个chat在单一未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net系统提示词下工作的产品形态,随后,这种产转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】品形态被全部LLM厂商学习。简单讲,这个转载请注明出处:www.tangshuang.net【版权所有,侵权必究】阶段的智能体只是在chatbot的基础上未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net增加了用户预设,避免chatbot随意发著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。挥,没有边界。这种智能体形态其实应用非常【原创内容,转载请注明出处】未经授权,禁止复制转载。广泛,特别是在一些让AI做角色扮演的场景【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】,例如有一款叫“星野”的App,预设了非【本文受版权保护】【本文首发于唐霜的博客】常多的人物角色,当你和它们聊天时,自带了本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。人物角色特性。

【原创内容,转载请注明出处】未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net

第2阶段:初级工具集成【转载请注明来源】

原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】【作者:唐霜】

在2023年,就出现了集成LLM和工具的转载请注明出处:www.tangshuang.net【转载请注明来源】自主决策Agent项目,我印象最深的是A转载请注明出处:www.tangshuang.net【访问 www.tangshuang.net 获取更多精彩内容】utoGPT,它可以分析用户意图,并调用未经授权,禁止复制转载。【未经授权禁止转载】python来实现一些功能。这一阶段的智【版权所有,侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】能体,实现了初级工具集成,在字节的coz【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。e平台上,智能体把官方和用户们共同提供的未经授权,禁止复制转载。【原创内容,转载请注明出处】插件作为工具,智能体可以自主决定使用哪一【作者:唐霜】本文作者:唐霜,转载请注明出处。个工具作为本次对话的执行。

未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。

第3阶段:多智能体架构【作者:唐霜】

【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】【原创内容,转载请注明出处】【作者:唐霜】

当开发者们发现,特定提示词配合特定工具集著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。时,智能体能在某些方面表现的非常优异,而【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。多加或少加工具,都会让智能体性能大打折扣【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。,于是他们决定,由多个智能体大包成一个复本文作者:唐霜,转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】合智能体来向用户提供通用性的智能体产品。【转载请注明来源】【版权所有】唐霜 www.tangshuang.net这一阶段的爆款级产品是AI程序员Devi【版权所有,侵权必究】【原创不易,请尊重版权】n,它可以完成复杂的研发任务,而它的工作【未经授权禁止转载】【本文受版权保护】原理,就是在内部实现了角色分工,把我们研著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】发任务中的程序员、项目经理等角色,分属给著作权归作者所有,禁止商业用途转载。【版权所有,侵权必究】不同内部智能体,让他们在一个社群里协同完【原创不易,请尊重版权】【原创不易,请尊重版权】成编程目标。然而,多智能体架构的巨大缺陷【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】在于,这些智能体可能会在社群里形成不统一本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】意见,发生“争吵”没完没了,最后一直无法著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。推进工作,或者给出质量很差的结果。

原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net转载请注明出处:www.tangshuang.net【作者:唐霜】

视觉识别方案【原创内容,转载请注明出处】

著作权归作者所有,禁止商业用途转载。【转载请注明来源】【版权所有,侵权必究】【本文首发于唐霜的博客】

2024年初,苹果被爆正在开发AI原生的【转载请注明来源】未经授权,禁止复制转载。操作系统,期间苹果下场发布了一款基于视觉【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】识别手机屏幕的大模型,这件事我在公众号发未经授权,禁止复制转载。【本文首发于唐霜的博客】文章提到过。时间来到2024年下半年,智【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。普AI推出了AutoGML,实现了在安卓【作者:唐霜】【本文受版权保护】手机上自动操控手机的能力,这标志着基于视【本文受版权保护】【作者:唐霜】觉方案的智能体已被验证可行。

【原创内容,转载请注明出处】【版权所有,侵权必究】【未经授权禁止转载】

视觉识别分为低配版和高配版。低配版是截图未经授权,禁止复制转载。【版权所有,侵权必究】方案,通过对屏幕进行截图和视觉大模型的理【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net解,来让智能体意识到当前电脑或手机的状态本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】,按钮的位置,鼠标位置等等信息,再让大模【未经授权禁止转载】转载请注明出处:www.tangshuang.net型基于这些信息,以及前置的用户目标和当前转载请注明出处:www.tangshuang.net【转载请注明来源】进度,来决定应该如何操作设备。通过模拟用【本文首发于唐霜的博客】【原创内容,转载请注明出处】户点击屏幕的形式,来完成一系列的处理。高【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】配版本则是系统级别的,也就是苹果提出的那【访问 www.tangshuang.net 获取更多精彩内容】未经授权,禁止复制转载。套模型方案,把设备、屏幕、应用的实时信息转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net从系统层面交给大模型,这样就解决了截图方【本文首发于唐霜的博客】【本文首发于唐霜的博客】案的延时和算力问题。

【转载请注明来源】【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。【本文受版权保护】

大规模工具集成【原创内容,转载请注明出处】

【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。【作者:唐霜】

翻过年头,2025年,Manus的凭空火【未经授权禁止转载】原创内容,盗版必究。爆,则在工具集成上验证了单一智能体大规模【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。集成工具的可行性。实际上,LLM厂商们,【本文首发于唐霜的博客】【转载请注明来源】都设计了function calling【未经授权禁止转载】【原创不易,请尊重版权】,开发者们本可以利用该特性设计自己的智能未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。体,但是,事实上,这一特性并没有被广泛接本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。受,时至今日,已处于尴尬的境地。智能体厂【本文首发于唐霜的博客】【作者:唐霜】商Agency们都选择了自建工具调用的范【版权所有】唐霜 www.tangshuang.net【本文首发于唐霜的博客】式,直到Claude母公司Anthrop【原创内容,转载请注明出处】【作者:唐霜】ic提出MCP协议,整个市场进入了工具集【版权所有,侵权必究】转载请注明出处:www.tangshuang.net成的标准化阶段。

【本文受版权保护】【转载请注明来源】【原创内容,转载请注明出处】【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。

虽然人们对智能体的幻想是,让它像一个人一【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。样与我们交流,帮助我们调用电脑上的一切,本文版权归作者所有,未经授权不得转载。【转载请注明来源】完成我们的工作、创意、编码、查询、下订单本文作者:唐霜,转载请注明出处。原创内容,盗版必究。等等听上去是脏活累活的事。然而实际上,当【转载请注明来源】转载请注明出处:www.tangshuang.net下的智能体仍然无法直接调用我们电脑上的软【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net件来完成我们想要的工作。例如财务们必备的【原创不易,请尊重版权】【本文首发于唐霜的博客】excel表格,智能体无法正确操作,甚至【本文受版权保护】【作者:唐霜】根本无法打开这个软件。开发者们想了一个曲【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】线救国的办法,就是让智能体自己写pyth【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】on代码来实现一个软件以获得其他软件的相本文版权归作者所有,未经授权不得转载。【作者:唐霜】同功能,python可以通过CLI调用系转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。统层面的一些能力,也可以自主安装node【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】、rust等生态的工具来实现目标。

【访问 www.tangshuang.net 获取更多精彩内容】本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net

早在2023年,就出现了基于大模型的浏览【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】器插件,该插件可以通过脚本的形式控制浏览转载请注明出处:www.tangshuang.net【版权所有,侵权必究】器,根据用户的提示,自主完成网页操作。而原创内容,盗版必究。【原创内容,转载请注明出处】2025年的现在,我们以及完全掌握了基于【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.netpython来控制浏览器的能力,这得益于【作者:唐霜】【版权所有,侵权必究】已有的开源项目,例如browser-us原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.nete, playwright等项目。不过,未经授权,禁止复制转载。【作者:唐霜】智能体想要调用本地软件,例如office原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net365套件,仍然是不行的。我以前在腾讯的原创内容,盗版必究。【转载请注明来源】时候,我参与过一个项目,虽然我不是主导,【本文受版权保护】【版权所有,侵权必究】但是我知道主导团队在他们的系统内通过暴露【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。API的方式,让大模型程序可以调用,从而【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net实现自能操控低代码平台的能力。

【访问 www.tangshuang.net 获取更多精彩内容】【原创不易,请尊重版权】未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】

直到MCP协议的出现,这种智能体无法调用【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net本地软件的窘境,可能会慢慢成为过去。简单【未经授权禁止转载】转载请注明出处:www.tangshuang.net讲,本地软件的服务商向Agency提供一本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net个MCP服务器,Agent开发者们就可以【本文受版权保护】【原创不易,请尊重版权】无痛甚至无感的让自己的智能体调用软件的功【未经授权禁止转载】未经授权,禁止复制转载。能。比如美团、大众点评、携程、飞猪等旅游【本文首发于唐霜的博客】【本文首发于唐霜的博客】、美食下单的应用,最适合这种场景,以解决【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net用户日常消费出行的智能化。MCP是C/S【本文受版权保护】【原创内容,转载请注明出处】架构,其中C是指软件方,S是提供给智能体本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net调用的服务器,当然C也要连到S听从调令。【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。一旦MCP成为新的行业标准,那么藩镇割据未经授权,禁止复制转载。【原创不易,请尊重版权】军阀混战的时代就会快速结束,开发者们可以【版权所有,侵权必究】【原创不易,请尊重版权】专心致志的在Agent和软件两端沉下心来未经授权,禁止复制转载。未经授权,禁止复制转载。做研发。而智能体也将迎来大规模工具集成的【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net大爆发。

【作者:唐霜】【原创内容,转载请注明出处】【本文受版权保护】【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】

准智能体时代畅想【作者:唐霜】

【本文受版权保护】未经授权,禁止复制转载。【版权所有】唐霜 www.tangshuang.net

从理想状态讲,将来的软件开发,不仅要提供【本文受版权保护】【本文首发于唐霜的博客】UI,还要提供AUI,也就是面向AI A原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】gent的MCP服务器。UI是为传统使用【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net方式服务的,而AUI则是为智能化交互方式未经授权,禁止复制转载。【版权所有,侵权必究】准备的。这可能正是我很早就说过的“面向A未经授权,禁止复制转载。【本文受版权保护】I开发”,也就是说,未来,开发者们不一定【本文首发于唐霜的博客】【原创不易,请尊重版权】需要去做toC或toB的产品,而是可以通【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。过做toA的产品来赚钱,甚至,未来的产品【作者:唐霜】【本文首发于唐霜的博客】,必须配备toA的能力,否则都无法获得用原创内容,盗版必究。【原创内容,转载请注明出处】户。

本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】【访问 www.tangshuang.net 获取更多精彩内容】

对于终端用户来说,最理想的,是每个用户只【版权所有】唐霜 www.tangshuang.net原创内容,盗版必究。需要配备一个Agent,这个Agent可【作者:唐霜】【版权所有,侵权必究】以在任何设备上连接,例如电脑、手机、蓝牙著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】耳机、眼镜等,用户的任何需求,都只需要向【作者:唐霜】未经授权,禁止复制转载。这一个Agent发出即可。而Agent则【转载请注明来源】转载请注明出处:www.tangshuang.net基于MCP去对接各种服务提供商,比如订机【本文首发于唐霜的博客】【作者:唐霜】票、点外卖等等。我猜测,到时候,Agen著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。cy公司和背后的上游服务商(如美团、携程转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net等)之间既是合作关系也有竞争关系,因为虽【原创不易,请尊重版权】【未经授权禁止转载】然Agency公司需要向上游服务商付钱才【本文首发于唐霜的博客】【本文首发于唐霜的博客】能接入,但是新的交互方式可能让这些服务商本文作者:唐霜,转载请注明出处。【关注微信公众号:wwwtangshuangnet】的App用户迅速减少甚至让美团这样的公司【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。成为无App的服务提供商。还有就是,我猜【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。想一个好玩的场景,就是美团和携程在用户同未经授权,禁止复制转载。【本文受版权保护】一个需求下,会形成竞争关系,Agency【原创不易,请尊重版权】原创内容,盗版必究。会如何去决定订酒店这个需求是用美团的还是【作者:唐霜】【版权所有,侵权必究】携程的呢?这是一个好玩的话题。同理,这种【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。单一Agent入口的交互形式,还会杀死搜未经授权,禁止复制转载。【未经授权禁止转载】索引擎、门户新闻等传统互联网业态,不过好未经授权,禁止复制转载。原创内容,盗版必究。玩的是,SEO行业会去思考如何让自己的内【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。容被Agent挑中,以及整个生态中,Ag【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】ency要考虑的广告应该如何植入等等有趣著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】的话题。

著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】

另外就是,普通用户幻想的机器人,也会因为【作者:唐霜】未经授权,禁止复制转载。智能体技术加持而提前到来。在《银翼杀手2【版权所有,侵权必究】【本文受版权保护】049》中,男主角有一个AI女友,她没有本文版权归作者所有,未经授权不得转载。本文作者:唐霜,转载请注明出处。实体,是纯软件形态,而如果随着机器人技术【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net的持续发展,未来赋予她实体,机器人+智能【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。体=?这虽然有点科幻,但是对于当前的技术来讲,【未经授权禁止转载】【版权所有,侵权必究】是完全可以实现的,只不过性能没有那么丝滑著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】而已。对于某些不可描述的行业来说,他们早就开始【本文首发于唐霜的博客】【原创内容,转载请注明出处】在娃娃们体内植入了可发生的AI智能体,也【转载请注明来源】原创内容,盗版必究。就是说,对于宅男来说,他们的好朋友除了不本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net会动以外,可以在软件层面帮他们完成任何事【版权所有,侵权必究】【版权所有,侵权必究】,比如点外卖,比如用声音帮他们排解空虚…转载请注明出处:www.tangshuang.net【版权所有,侵权必究】…实在不可描述……

【作者:唐霜】【未经授权禁止转载】【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net

结语【版权所有】唐霜 www.tangshuang.net

【原创不易,请尊重版权】原创内容,盗版必究。转载请注明出处:www.tangshuang.net【本文受版权保护】【未经授权禁止转载】

好了,不知不觉,已经写到深夜两点了。我对【作者:唐霜】本文版权归作者所有,未经授权不得转载。AI的态度是积极的,我以前遇到过的一些人【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。比较守旧,总是认为“这有啥,没卵用”,然【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。而,随着AI逐渐成为我们生活工作的一部分【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】,我们会慢慢习惯。虽然目前来说,AI的应【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】用主要是对传统软件功能的升级,但是,我相【未经授权禁止转载】【版权所有】唐霜 www.tangshuang.net信随着越来越多技术的整合,上文所描述的沉【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。浸式AI新交互体验一定会实现,只不过是时【本文受版权保护】未经授权,禁止复制转载。间问题。当然,我们其实还需要考虑一些风险【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net问题,包括但不限于对伦理的挑战,对人类生【作者:唐霜】【未经授权禁止转载】存的挑战,对贫富悬殊的挑战等等。虽然风险【原创不易,请尊重版权】【本文受版权保护】是存在的,但是,我们应该秉持着风险,积极本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】的拥抱未来,何况,未来已来。

本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。

2025-03-25 2546

为价值买单,打赏一杯咖啡

本文价值25.46RMB