背景
在过去几年里,逐渐膨胀的大模型上下文,使著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。得LLM的性能受到巨大的挑战。另外,LL本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.netM的上下文窗口有限,也使得其丢失记忆的情著作权归作者所有,禁止商业用途转载。【作者:唐霜】况很常见。为了解决这一问题,目前市面上提未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】供了一些方案,包括
【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net- 上下文工程:滑动窗口、对话摘要、动态裁剪 【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net
- RAG 【原创内容,转载请注明出处】原创内容,盗版必究。未经授权,禁止复制转载。
- Summarize/Compact:压缩【未经授权禁止转载】【本文受版权保护】上下文,通过算法稀疏注意力 【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。
- 外部记忆系统:分层记忆、mem0 【作者:唐霜】【原创内容,转载请注明出处】
目前来说,大部分工具都采用了压缩方案,即【转载请注明来源】【作者:唐霜】当窗口达到70%左右时,对上下文进行压缩未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net。当然,压缩也有策略,比如对长期记忆进行【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。全量压缩,中期记忆进行稀疏化压缩,短期记转载请注明出处:www.tangshuang.net【本文首发于唐霜的博客】忆保留活性。不同的技术方案,可能采取的策【未经授权禁止转载】【本文受版权保护】略不同,比如Mem0和LightMem就本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net采用类似的空间压缩与动态缓冲管理。
原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。然而,我认为,所有的压缩方案都存在细节丢【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】失的问题,而且即使通过压缩,也无法提示大【本文受版权保护】转载请注明出处:www.tangshuang.net模型的性能。丢失细节比较容易理解,而大模【本文受版权保护】本文作者:唐霜,转载请注明出处。型的性能,会因为压缩的上下文所提供的背景【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】信息,以及本身也在逐渐膨胀的消息列表,仍转载请注明出处:www.tangshuang.net【本文受版权保护】然会比较低。
本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】因此,寻找一种更优的大模型上下文工程方案原创内容,盗版必究。【作者:唐霜】,是我本篇文章的目标。
本文作者:唐霜,转载请注明出处。【转载请注明来源】目标
这种新方案,必须符合两个点:1. 保留聊【关注微信公众号:wwwtangshuangnet】本文版权归作者所有,未经授权不得转载。天的细节,让大模型记忆不丢失,甚至得到增【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net强。2. 大模型性能不受损。
未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。第一性分析
当前所有的记忆系统,都是基于LLM的对话【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。模式设计的。在当前的所有方案中,它们需要【版权所有,侵权必究】【版权所有,侵权必究】输出非常长的聊天历史,来遵照大模型的AP【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。I接口设计。但是,目前公开研究发现,丢掉【转载请注明来源】未经授权,禁止复制转载。所有聊天历史,在没有历史记忆的情况下,大【本文首发于唐霜的博客】【版权所有,侵权必究】模型所驱动的Agent会有更准确的效果表【转载请注明来源】本文版权归作者所有,未经授权不得转载。现。这或许是一个突破口。
【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】【原创不易,请尊重版权】当前的技术设计是
【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】原创内容,盗版必究。# 原始方案
用户输入 -> push到messages列表 -> LLM
# 优化方案
用户输入 -> 上下文工程 -> LLM
上下文工程本质上包含两个部分:压缩和存储【版权所有,侵权必究】【原创内容,转载请注明出处】,用户输入后会被直接添加到从存储器中读取著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】出来的记忆后面,形成messages队列未经授权,禁止复制转载。【原创不易,请尊重版权】。
【转载请注明来源】【转载请注明来源】【转载请注明来源】【版权所有,侵权必究】上下文工程:压缩 -> 存储 ↴
用户输入 ------------>消息列表 --->LLM --↰(再次压缩)
从中我们可以看到一些破绽。
【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。所有的类似方案,它们对上下文记忆的优化算【本文受版权保护】【转载请注明来源】法,都是针对已经形成的消息列表做注意力优原创内容,盗版必究。【未经授权禁止转载】化,这些算法会在每次LLM完成对用户的响【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】应后执行,形成新的上下文缓冲。
【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。未经授权,禁止复制转载。智能推送方案的提出
我提出一种智能推送的上下文方案。在这套方【原创内容,转载请注明出处】【作者:唐霜】案中,注意力算法不再针对用户消息,不再在【版权所有,侵权必究】转载请注明出处:www.tangshuang.netLLM完成响应时执行,而是在向LLM推送【版权所有,侵权必究】著作权归作者所有,禁止商业用途转载。消息时执行。具体流程如下:
转载请注明出处:www.tangshuang.net【作者:唐霜】【关注微信公众号:wwwtangshuangnet】
假设,当前用户已经与Agent对话了很多著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】轮。当用户提交新的输入时,我们这套系统首著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。先会拿着用户的输入去识别用户的意图,从历转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net史数据中找出与用户意图相关的全部数据,忽【转载请注明来源】【本文受版权保护】略那些与用户意图无关的其他数据,并最终生本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】成上下文,交给AI去运行。系统输出给AI原创内容,盗版必究。【未经授权禁止转载】的消息内容必须回答如下的这些问题:
著作权归作者所有,禁止商业用途转载。【关注微信公众号:wwwtangshuangnet】- 用户是怎样的一个人 本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。
- 当前大背景是正在做一件什么事 【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】
- 目前的进度是什么 【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】本文作者:唐霜,转载请注明出处。
- 用户现在想要让你做什么 本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】【作者:唐霜】本文作者:唐霜,转载请注明出处。
- 要实现用户目标可以参考的资料如下…… 【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】
- 你可以用的工具如下…… 著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。【作者:唐霜】【版权所有,侵权必究】
只要回答了上述这些问题,无论输出消息的长【版权所有,侵权必究】【版权所有,侵权必究】短,都能非常高效的提升模型性能。
转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】【版权所有】唐霜 www.tangshuang.net后台常驻服务
当前所有的AI对话系统,都是Reques【转载请注明来源】本文版权归作者所有,未经授权不得转载。t/Repsonse模式,也就是用户提问转载请注明出处:www.tangshuang.net【版权所有,侵权必究】,AI回答。虽然我们会构建Chat系统来著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。组织上下文,但是对于整体Chat系统来讲本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net,它仍然秉持着“用户问- AI答”的单链未经授权,禁止复制转载。【版权所有,侵权必究】条式来回交互。
【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】【未经授权禁止转载】本文作者:唐霜,转载请注明出处。而我所设计的这套系统,是后台常驻型服务,本文版权归作者所有,未经授权不得转载。【转载请注明来源】用户的问和AI的答并不需要同步进行。用户著作权归作者所有,禁止商业用途转载。本文作者:唐霜,转载请注明出处。可以在AI干活的时候,继续提出质疑,例如原创内容,盗版必究。【未经授权禁止转载】,当用户发现聊天窗口输出的执行过程存在疑【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net惑时,可以立即向系统提问,为什么要这么做【版权所有,侵权必究】【本文受版权保护】?而系统接收到消息后,会先识别用户意图,【本文受版权保护】【转载请注明来源】同时以当前执行阶段的已有信息,把组织好的【作者:唐霜】转载请注明出处:www.tangshuang.net消息,发送给另外一个AI实体。由这个实体【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。完成对用户的解答。虽然在消息流中,消息来著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。源来自两个AI,但是对于用户而言,它只是著作权归作者所有,禁止商业用途转载。转载请注明出处:www.tangshuang.net一个抽象的单一机器人。
【本文受版权保护】【作者:唐霜】【版权所有,侵权必究】系统可以识别用户意图。这是非常关键的一点著作权归作者所有,禁止商业用途转载。【原创内容,转载请注明出处】,因为只有识别了用户意图,才能决定使用哪本文作者:唐霜,转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】些信息作为将要发送给AI的上下文。同时,【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。系统还可以根据用户意图,决定是只需要调用原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net一个LLM,还是需要向Agent发送请求【作者:唐霜】【关注微信公众号:wwwtangshuangnet】,因为有些交互,用户仅仅只需要得到一个回【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】答,而不需要调用工具来执行。
【原创内容,转载请注明出处】本文作者:唐霜,转载请注明出处。转载请注明出处:www.tangshuang.net当外部环境发生变化时,系统可以实时作出响原创内容,盗版必究。【未经授权禁止转载】应。例如,在一个协作系统中,用户A向系统【访问 www.tangshuang.net 获取更多精彩内容】【作者:唐霜】提交了一个表单之后,系统可以立即向用户B【本文首发于唐霜的博客】著作权归作者所有,禁止商业用途转载。推送基于用户A提交消息而生成的新内容。外【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】部环境包含各个方面,比如在编程环境中,用本文版权归作者所有,未经授权不得转载。【本文首发于唐霜的博客】户用另外一个编程工具修改了当前项目的代码【作者:唐霜】转载请注明出处:www.tangshuang.net,我们的系统需要实时感知,在用户二次请求著作权归作者所有,禁止商业用途转载。未经授权,禁止复制转载。时,这些变更被反应在上下文中。甚至,系统【版权所有】唐霜 www.tangshuang.net本文版权归作者所有,未经授权不得转载。可以了解当前世界各地的重大新闻,来对当前【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】的行为进行干预,例如在一些投资AI系统中【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。,重大行为可能随时影响投资标的的动向。只【转载请注明来源】【转载请注明来源】有常驻服务才能够做到对环境的实时监控。
【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。【版权所有,侵权必究】未经授权,禁止复制转载。结语
目前,这套方案只是我的一种设计,并没有经【作者:唐霜】【版权所有】唐霜 www.tangshuang.net过验证。其中,实施构造上下文会比老的压缩【关注微信公众号:wwwtangshuangnet】转载请注明出处:www.tangshuang.net方案更消耗时间,在AI的响应速度上必然受著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】到影响。但是,这并不绝对,因为通过精准的本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。意图识别,可以减少上下文的长度,剔除无用本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net的信息,这又可以提升大模型首个token原创内容,盗版必究。【本文首发于唐霜的博客】响应时间。在整套系统的算法上,也可以通过转载请注明出处:www.tangshuang.net本文作者:唐霜,转载请注明出处。划分等级来降低算法消耗,比如让用户手动设本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】置当前任务的精确等级,如果是不需要很精准【本文受版权保护】转载请注明出处:www.tangshuang.net,那么通过对所有数据建立索引,直接通过高【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】召回率的向量查询的方式,把与用户输入关联【原创内容,转载请注明出处】【转载请注明来源】的内容全部拉出来即可,毕竟大模型本身也有著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】应对噪声的能力,这样可以更快;但是如果在转载请注明出处:www.tangshuang.net【转载请注明来源】需要高度精准的任务背景下,就可以在常驻服【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net务中,再加载一个高性能的专用Agent来【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】专门做意图识别和消息构造的任务。总之,我未经授权,禁止复制转载。【原创不易,请尊重版权】并不是去实现这套系统,而只是提出了这样的本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】一个构想方案。如果你对此也有自己的一些想【访问 www.tangshuang.net 获取更多精彩内容】【原创内容,转载请注明出处】法,不妨在下方留言,我们一起探讨。
【原创内容,转载请注明出处】【转载请注明来源】2026-01-08 613


