基于后台常驻的大模型上下文智能推送方案

广告位招租
扫码页面底部二维码联系

背景【版权所有,侵权必究】

【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号:wwwtangshuangnet】【作者:唐霜】

在过去几年里,逐渐膨胀的大模型上下文,使【原创内容,转载请注明出处】【原创不易,请尊重版权】得LLM的性能受到巨大的挑战。另外,LL【本文受版权保护】【版权所有,侵权必究】M的上下文窗口有限,也使得其丢失记忆的情【本文首发于唐霜的博客】转载请注明出处:www.tangshuang.net况很常见。为了解决这一问题,目前市面上提【版权所有,侵权必究】【作者:唐霜】供了一些方案,包括

【本文受版权保护】原创内容,盗版必究。本文作者:唐霜,转载请注明出处。
  • 上下文工程:滑动窗口、对话摘要、动态裁剪
  • 【版权所有,侵权必究】原创内容,盗版必究。【版权所有】唐霜 www.tangshuang.net
  • RAG本文版权归作者所有,未经授权不得转载。
  • 【转载请注明来源】【作者:唐霜】未经授权,禁止复制转载。【转载请注明来源】
  • Summarize/Compact:压缩未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。上下文,通过算法稀疏注意力
  • 【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。【版权所有,侵权必究】本文作者:唐霜,转载请注明出处。【作者:唐霜】
  • 外部记忆系统:分层记忆、mem0【访问 www.tangshuang.net 获取更多精彩内容】
  • 未经授权,禁止复制转载。原创内容,盗版必究。【原创不易,请尊重版权】【版权所有,侵权必究】【转载请注明来源】

目前来说,大部分工具都采用了压缩方案,即原创内容,盗版必究。【未经授权禁止转载】当窗口达到70%左右时,对上下文进行压缩【访问 www.tangshuang.net 获取更多精彩内容】原创内容,盗版必究。。当然,压缩也有策略,比如对长期记忆进行【本文受版权保护】【关注微信公众号:wwwtangshuangnet】全量压缩,中期记忆进行稀疏化压缩,短期记【转载请注明来源】著作权归作者所有,禁止商业用途转载。忆保留活性。不同的技术方案,可能采取的策著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】略不同,比如Mem0和LightMem就本文作者:唐霜,转载请注明出处。本文作者:唐霜,转载请注明出处。采用类似的空间压缩与动态缓冲管理。

【作者:唐霜】【转载请注明来源】未经授权,禁止复制转载。

然而,我认为,所有的压缩方案都存在细节丢未经授权,禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】失的问题,而且即使通过压缩,也无法提示大未经授权,禁止复制转载。【关注微信公众号:wwwtangshuangnet】模型的性能。丢失细节比较容易理解,而大模【原创不易,请尊重版权】【未经授权禁止转载】型的性能,会因为压缩的上下文所提供的背景【原创内容,转载请注明出处】本文版权归作者所有,未经授权不得转载。信息,以及本身也在逐渐膨胀的消息列表,仍本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net然会比较低。

【本文首发于唐霜的博客】【关注微信公众号:wwwtangshuangnet】【原创不易,请尊重版权】【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】

因此,寻找一种更优的大模型上下文工程方案【访问 www.tangshuang.net 获取更多精彩内容】【关注微信公众号:wwwtangshuangnet】,是我本篇文章的目标。

著作权归作者所有,禁止商业用途转载。【转载请注明来源】【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】

目标本文作者:唐霜,转载请注明出处。

原创内容,盗版必究。【原创不易,请尊重版权】未经授权,禁止复制转载。【原创不易,请尊重版权】本文作者:唐霜,转载请注明出处。

这种新方案,必须符合两个点:1. 保留聊原创内容,盗版必究。本文作者:唐霜,转载请注明出处。天的细节,让大模型记忆不丢失,甚至得到增【原创内容,转载请注明出处】未经授权,禁止复制转载。强。2. 大模型性能不受损。

【转载请注明来源】【转载请注明来源】【作者:唐霜】

第一性分析原创内容,盗版必究。

本文版权归作者所有,未经授权不得转载。【作者:唐霜】本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。【本文受版权保护】

当前所有的记忆系统,都是基于LLM的对话【转载请注明来源】【关注微信公众号:wwwtangshuangnet】模式设计的。在当前的所有方案中,它们需要本文版权归作者所有,未经授权不得转载。转载请注明出处:www.tangshuang.net输出非常长的聊天历史,来遵照大模型的AP本文版权归作者所有,未经授权不得转载。原创内容,盗版必究。I接口设计。但是,目前公开研究发现,丢掉本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。所有聊天历史,在没有历史记忆的情况下,大【未经授权禁止转载】本文版权归作者所有,未经授权不得转载。模型所驱动的Agent会有更准确的效果表【原创内容,转载请注明出处】转载请注明出处:www.tangshuang.net现。这或许是一个突破口。

【本文受版权保护】原创内容,盗版必究。本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net

当前的技术设计是本文作者:唐霜,转载请注明出处。

【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】【转载请注明来源】
# 原始方案
用户输入 -> push到messages列表 -> LLM

# 优化方案
用户输入 -> 上下文工程 -> LLM

上下文工程本质上包含两个部分:压缩和存储原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。,用户输入后会被直接添加到从存储器中读取本文作者:唐霜,转载请注明出处。著作权归作者所有,禁止商业用途转载。出来的记忆后面,形成messages队列本文作者:唐霜,转载请注明出处。【作者:唐霜】

转载请注明出处:www.tangshuang.net未经授权,禁止复制转载。转载请注明出处:www.tangshuang.net【未经授权禁止转载】未经授权,禁止复制转载。
上下文工程:压缩 -> 存储 ↴

用户输入 ------------>消息列表 --->LLM --↰(再次压缩)

从中我们可以看到一些破绽。【转载请注明来源】

著作权归作者所有,禁止商业用途转载。【原创不易,请尊重版权】【关注微信公众号:wwwtangshuangnet】【版权所有,侵权必究】转载请注明出处:www.tangshuang.net

所有的类似方案,它们对上下文记忆的优化算【访问 www.tangshuang.net 获取更多精彩内容】【版权所有】唐霜 www.tangshuang.net法,都是针对已经形成的消息列表做注意力优【版权所有】唐霜 www.tangshuang.net【版权所有,侵权必究】化,这些算法会在每次LLM完成对用户的响【原创不易,请尊重版权】【未经授权禁止转载】应后执行,形成新的上下文缓冲。

未经授权,禁止复制转载。【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。

智能推送方案的提出著作权归作者所有,禁止商业用途转载。

著作权归作者所有,禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】【转载请注明来源】

我提出一种智能推送的上下文方案。在这套方【版权所有】唐霜 www.tangshuang.net【原创内容,转载请注明出处】案中,注意力算法不再针对用户消息,不再在未经授权,禁止复制转载。【原创内容,转载请注明出处】LLM完成响应时执行,而是在向LLM推送【转载请注明来源】【本文受版权保护】消息时执行。具体流程如下:

本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。本文版权归作者所有,未经授权不得转载。未经授权,禁止复制转载。

假设,当前用户已经与Agent对话了很多【转载请注明来源】【版权所有】唐霜 www.tangshuang.net轮。当用户提交新的输入时,我们这套系统首【本文受版权保护】原创内容,盗版必究。先会拿着用户的输入去识别用户的意图,从历转载请注明出处:www.tangshuang.net【作者:唐霜】史数据中找出与用户意图相关的全部数据,忽著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。略那些与用户意图无关的其他数据,并最终生【本文首发于唐霜的博客】未经授权,禁止复制转载。成上下文,交给AI去运行。系统输出给AI本文作者:唐霜,转载请注明出处。【本文首发于唐霜的博客】的消息内容必须回答如下的这些问题:

【未经授权禁止转载】【原创内容,转载请注明出处】原创内容,盗版必究。著作权归作者所有,禁止商业用途转载。【本文首发于唐霜的博客】
  • 用户是怎样的一个人【本文受版权保护】
  • 原创内容,盗版必究。【作者:唐霜】本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】
  • 当前大背景是正在做一件什么事【访问 www.tangshuang.net 获取更多精彩内容】
  • 【版权所有,侵权必究】【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。本文版权归作者所有,未经授权不得转载。
  • 目前的进度是什么著作权归作者所有,禁止商业用途转载。
  • 【原创内容,转载请注明出处】【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。原创内容,盗版必究。
  • 用户现在想要让你做什么【原创不易,请尊重版权】
  • 著作权归作者所有,禁止商业用途转载。【作者:唐霜】【版权所有,侵权必究】【作者:唐霜】未经授权,禁止复制转载。
  • 要实现用户目标可以参考的资料如下……本文作者:唐霜,转载请注明出处。
  • 本文版权归作者所有,未经授权不得转载。【版权所有】唐霜 www.tangshuang.net【关注微信公众号:wwwtangshuangnet】
  • 你可以用的工具如下……【版权所有,侵权必究】
  • 【原创内容,转载请注明出处】【关注微信公众号:wwwtangshuangnet】著作权归作者所有,禁止商业用途转载。著作权归作者所有,禁止商业用途转载。【未经授权禁止转载】

只要回答了上述这些问题,无论输出消息的长未经授权,禁止复制转载。【原创不易,请尊重版权】短,都能非常高效的提升模型性能。

【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net著作权归作者所有,禁止商业用途转载。

后台常驻服务【本文受版权保护】

【未经授权禁止转载】著作权归作者所有,禁止商业用途转载。【转载请注明来源】

当前所有的AI对话系统,都是Reques【关注微信公众号:wwwtangshuangnet】本文作者:唐霜,转载请注明出处。t/Repsonse模式,也就是用户提问【转载请注明来源】【原创内容,转载请注明出处】,AI回答。虽然我们会构建Chat系统来【转载请注明来源】【本文首发于唐霜的博客】组织上下文,但是对于整体Chat系统来讲【原创不易,请尊重版权】【访问 www.tangshuang.net 获取更多精彩内容】,它仍然秉持着“用户问- AI答”的单链转载请注明出处:www.tangshuang.net著作权归作者所有,禁止商业用途转载。条式来回交互。

本文作者:唐霜,转载请注明出处。【转载请注明来源】【关注微信公众号:wwwtangshuangnet】原创内容,盗版必究。本文版权归作者所有,未经授权不得转载。

而我所设计的这套系统,是后台常驻型服务,著作权归作者所有,禁止商业用途转载。【版权所有】唐霜 www.tangshuang.net用户的问和AI的答并不需要同步进行。用户【作者:唐霜】本文作者:唐霜,转载请注明出处。可以在AI干活的时候,继续提出质疑,例如本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。,当用户发现聊天窗口输出的执行过程存在疑【本文首发于唐霜的博客】【本文受版权保护】惑时,可以立即向系统提问,为什么要这么做【本文首发于唐霜的博客】未经授权,禁止复制转载。?而系统接收到消息后,会先识别用户意图,【转载请注明来源】【未经授权禁止转载】同时以当前执行阶段的已有信息,把组织好的【转载请注明来源】【关注微信公众号:wwwtangshuangnet】消息,发送给另外一个AI实体。由这个实体【本文受版权保护】【原创不易,请尊重版权】完成对用户的解答。虽然在消息流中,消息来本文作者:唐霜,转载请注明出处。本文版权归作者所有,未经授权不得转载。源来自两个AI,但是对于用户而言,它只是【原创不易,请尊重版权】转载请注明出处:www.tangshuang.net一个抽象的单一机器人。

【关注微信公众号:wwwtangshuangnet】未经授权,禁止复制转载。本文作者:唐霜,转载请注明出处。

系统可以识别用户意图。这是非常关键的一点未经授权,禁止复制转载。著作权归作者所有,禁止商业用途转载。,因为只有识别了用户意图,才能决定使用哪原创内容,盗版必究。本文作者:唐霜,转载请注明出处。些信息作为将要发送给AI的上下文。同时,【未经授权禁止转载】本文作者:唐霜,转载请注明出处。系统还可以根据用户意图,决定是只需要调用【转载请注明来源】【关注微信公众号:wwwtangshuangnet】一个LLM,还是需要向Agent发送请求本文作者:唐霜,转载请注明出处。未经授权,禁止复制转载。,因为有些交互,用户仅仅只需要得到一个回【本文受版权保护】本文版权归作者所有,未经授权不得转载。答,而不需要调用工具来执行。

【本文受版权保护】本文作者:唐霜,转载请注明出处。【版权所有】唐霜 www.tangshuang.net未经授权,禁止复制转载。

当外部环境发生变化时,系统可以实时作出响【未经授权禁止转载】【版权所有,侵权必究】应。例如,在一个协作系统中,用户A向系统【版权所有】唐霜 www.tangshuang.net【作者:唐霜】提交了一个表单之后,系统可以立即向用户B【转载请注明来源】【本文首发于唐霜的博客】推送基于用户A提交消息而生成的新内容。外【版权所有】唐霜 www.tangshuang.net【未经授权禁止转载】部环境包含各个方面,比如在编程环境中,用本文版权归作者所有,未经授权不得转载。【未经授权禁止转载】户用另外一个编程工具修改了当前项目的代码【版权所有,侵权必究】转载请注明出处:www.tangshuang.net,我们的系统需要实时感知,在用户二次请求本文版权归作者所有,未经授权不得转载。著作权归作者所有,禁止商业用途转载。时,这些变更被反应在上下文中。甚至,系统原创内容,盗版必究。未经授权,禁止复制转载。可以了解当前世界各地的重大新闻,来对当前转载请注明出处:www.tangshuang.net本文版权归作者所有,未经授权不得转载。的行为进行干预,例如在一些投资AI系统中【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。,重大行为可能随时影响投资标的的动向。只【未经授权禁止转载】【访问 www.tangshuang.net 获取更多精彩内容】有常驻服务才能够做到对环境的实时监控。

【转载请注明来源】本文版权归作者所有,未经授权不得转载。【原创内容,转载请注明出处】著作权归作者所有,禁止商业用途转载。

结语【未经授权禁止转载】

【版权所有,侵权必究】【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】【原创不易,请尊重版权】

目前,这套方案只是我的一种设计,并没有经【版权所有,侵权必究】【版权所有】唐霜 www.tangshuang.net过验证。其中,实施构造上下文会比老的压缩原创内容,盗版必究。原创内容,盗版必究。方案更消耗时间,在AI的响应速度上必然受【本文受版权保护】【未经授权禁止转载】到影响。但是,这并不绝对,因为通过精准的转载请注明出处:www.tangshuang.net【未经授权禁止转载】意图识别,可以减少上下文的长度,剔除无用【版权所有】唐霜 www.tangshuang.net【版权所有】唐霜 www.tangshuang.net的信息,这又可以提升大模型首个token著作权归作者所有,禁止商业用途转载。原创内容,盗版必究。响应时间。在整套系统的算法上,也可以通过【未经授权禁止转载】本文作者:唐霜,转载请注明出处。划分等级来降低算法消耗,比如让用户手动设【关注微信公众号:wwwtangshuangnet】【作者:唐霜】置当前任务的精确等级,如果是不需要很精准【版权所有,侵权必究】未经授权,禁止复制转载。,那么通过对所有数据建立索引,直接通过高转载请注明出处:www.tangshuang.net转载请注明出处:www.tangshuang.net召回率的向量查询的方式,把与用户输入关联【本文首发于唐霜的博客】【版权所有】唐霜 www.tangshuang.net的内容全部拉出来即可,毕竟大模型本身也有【访问 www.tangshuang.net 获取更多精彩内容】【访问 www.tangshuang.net 获取更多精彩内容】应对噪声的能力,这样可以更快;但是如果在转载请注明出处:www.tangshuang.net【版权所有】唐霜 www.tangshuang.net需要高度精准的任务背景下,就可以在常驻服本文作者:唐霜,转载请注明出处。【原创内容,转载请注明出处】务中,再加载一个高性能的专用Agent来【原创不易,请尊重版权】著作权归作者所有,禁止商业用途转载。专门做意图识别和消息构造的任务。总之,我【版权所有】唐霜 www.tangshuang.net本文作者:唐霜,转载请注明出处。并不是去实现这套系统,而只是提出了这样的未经授权,禁止复制转载。【未经授权禁止转载】一个构想方案。如果你对此也有自己的一些想【关注微信公众号:wwwtangshuangnet】【原创内容,转载请注明出处】法,不妨在下方留言,我们一起探讨。

【本文首发于唐霜的博客】【版权所有,侵权必究】本文版权归作者所有,未经授权不得转载。

2026-01-08 354

为价值买单,打赏一杯咖啡

本文价值3.54RMB