基于后台常驻的大模型上下文智能推送方案-唐霜

背景

在过去几年里，逐渐膨胀的大模型上下文，使著作权归作者所有，禁止商业用途转载。本文版权归作者所有，未经授权不得转载。得LLM的性能受到巨大的挑战。另外，LL本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.netM的上下文窗口有限，也使得其丢失记忆的情著作权归作者所有，禁止商业用途转载。【作者：唐霜】况很常见。为了解决这一问题，目前市面上提未经授权，禁止复制转载。【访问 www.tangshuang.net 获取更多精彩内容】供了一些方案，包括

上下文工程：滑动窗口、对话摘要、动态裁剪

【原创不易，请尊重版权】

转载请注明出处：www.tangshuang.net

【原创内容，转载请注明出处】

原创内容，盗版必究。

未经授权，禁止复制转载。

Summarize/Compact：压缩【未经授权禁止转载】【本文受版权保护】上下文，通过算法稀疏注意力

【原创不易，请尊重版权】

本文作者：唐霜，转载请注明出处。

【未经授权禁止转载】

本文版权归作者所有，未经授权不得转载。

外部记忆系统：分层记忆、mem0

【作者：唐霜】

【原创内容，转载请注明出处】

目前来说，大部分工具都采用了压缩方案，即【转载请注明来源】【作者：唐霜】当窗口达到70%左右时，对上下文进行压缩未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net。当然，压缩也有策略，比如对长期记忆进行【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。全量压缩，中期记忆进行稀疏化压缩，短期记转载请注明出处：www.tangshuang.net【本文首发于唐霜的博客】忆保留活性。不同的技术方案，可能采取的策【未经授权禁止转载】【本文受版权保护】略不同，比如Mem0和LightMem就本文作者：唐霜，转载请注明出处。转载请注明出处：www.tangshuang.net采用类似的空间压缩与动态缓冲管理。

原创内容，盗版必究。著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。

然而，我认为，所有的压缩方案都存在细节丢【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】失的问题，而且即使通过压缩，也无法提示大【本文受版权保护】转载请注明出处：www.tangshuang.net模型的性能。丢失细节比较容易理解，而大模【本文受版权保护】本文作者：唐霜，转载请注明出处。型的性能，会因为压缩的上下文所提供的背景【版权所有】唐霜 www.tangshuang.net【关注微信公众号：wwwtangshuangnet】信息，以及本身也在逐渐膨胀的消息列表，仍转载请注明出处：www.tangshuang.net【本文受版权保护】然会比较低。

本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】

因此，寻找一种更优的大模型上下文工程方案原创内容，盗版必究。【作者：唐霜】，是我本篇文章的目标。

本文作者：唐霜，转载请注明出处。【转载请注明来源】

目标

未经授权，禁止复制转载。转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。

第一性分析

当前所有的记忆系统，都是基于LLM的对话【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。模式设计的。在当前的所有方案中，它们需要【版权所有，侵权必究】【版权所有，侵权必究】输出非常长的聊天历史，来遵照大模型的AP【版权所有，侵权必究】本文版权归作者所有，未经授权不得转载。I接口设计。但是，目前公开研究发现，丢掉【转载请注明来源】未经授权，禁止复制转载。所有聊天历史，在没有历史记忆的情况下，大【本文首发于唐霜的博客】【版权所有，侵权必究】模型所驱动的Agent会有更准确的效果表【转载请注明来源】本文版权归作者所有，未经授权不得转载。现。这或许是一个突破口。

【转载请注明来源】【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】【原创不易，请尊重版权】

当前的技术设计是

# 原始方案
用户输入 -> push到messages列表 -> LLM

# 优化方案
用户输入 -> 上下文工程 -> LLM

上下文工程：压缩 -> 存储 ↴

用户输入 ------------>消息列表 --->LLM --↰(再次压缩)

从中我们可以看到一些破绽。

【访问 www.tangshuang.net 获取更多精彩内容】【本文首发于唐霜的博客】【原创内容，转载请注明出处】本文版权归作者所有，未经授权不得转载。

所有的类似方案，它们对上下文记忆的优化算【本文受版权保护】【转载请注明来源】法，都是针对已经形成的消息列表做注意力优原创内容，盗版必究。【未经授权禁止转载】化，这些算法会在每次LLM完成对用户的响【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】应后执行，形成新的上下文缓冲。

【关注微信公众号：wwwtangshuangnet】著作权归作者所有，禁止商业用途转载。原创内容，盗版必究。未经授权，禁止复制转载。

智能推送方案的提出

转载请注明出处：www.tangshuang.net【作者：唐霜】【关注微信公众号：wwwtangshuangnet】

假设，当前用户已经与Agent对话了很多著作权归作者所有，禁止商业用途转载。【原创不易，请尊重版权】轮。当用户提交新的输入时，我们这套系统首著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。先会拿着用户的输入去识别用户的意图，从历转载请注明出处：www.tangshuang.net【版权所有】唐霜 www.tangshuang.net史数据中找出与用户意图相关的全部数据，忽【转载请注明来源】【本文受版权保护】略那些与用户意图无关的其他数据，并最终生本文版权归作者所有，未经授权不得转载。【原创内容，转载请注明出处】成上下文，交给AI去运行。系统输出给AI原创内容，盗版必究。【未经授权禁止转载】的消息内容必须回答如下的这些问题：

著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshuangnet】

用户是怎样的一个人

本文作者：唐霜，转载请注明出处。

本文版权归作者所有，未经授权不得转载。

当前大背景是正在做一件什么事

【访问 www.tangshuang.net 获取更多精彩内容】

原创内容，盗版必究。

【访问 www.tangshuang.net 获取更多精彩内容】

【未经授权禁止转载】

目前的进度是什么

【未经授权禁止转载】

本文作者：唐霜，转载请注明出处。

用户现在想要让你做什么

本文版权归作者所有，未经授权不得转载。

【作者：唐霜】

本文作者：唐霜，转载请注明出处。

要实现用户目标可以参考的资料如下……

【本文首发于唐霜的博客】

【访问 www.tangshuang.net 获取更多精彩内容】

你可以用的工具如下……

著作权归作者所有，禁止商业用途转载。

本文作者：唐霜，转载请注明出处。

【作者：唐霜】

后台常驻服务

当前所有的AI对话系统，都是Reques【转载请注明来源】本文版权归作者所有，未经授权不得转载。t/Repsonse模式，也就是用户提问转载请注明出处：www.tangshuang.net【版权所有，侵权必究】，AI回答。虽然我们会构建Chat系统来著作权归作者所有，禁止商业用途转载。本文版权归作者所有，未经授权不得转载。组织上下文，但是对于整体Chat系统来讲本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net，它仍然秉持着“用户问- AI答”的单链未经授权，禁止复制转载。【版权所有，侵权必究】条式来回交互。

【访问 www.tangshuang.net 获取更多精彩内容】【原创内容，转载请注明出处】【未经授权禁止转载】本文作者：唐霜，转载请注明出处。

而我所设计的这套系统，是后台常驻型服务，本文版权归作者所有，未经授权不得转载。【转载请注明来源】用户的问和AI的答并不需要同步进行。用户著作权归作者所有，禁止商业用途转载。本文作者：唐霜，转载请注明出处。可以在AI干活的时候，继续提出质疑，例如原创内容，盗版必究。【未经授权禁止转载】，当用户发现聊天窗口输出的执行过程存在疑【版权所有，侵权必究】【版权所有】唐霜 www.tangshuang.net惑时，可以立即向系统提问，为什么要这么做【版权所有，侵权必究】【本文受版权保护】？而系统接收到消息后，会先识别用户意图，【本文受版权保护】【转载请注明来源】同时以当前执行阶段的已有信息，把组织好的【作者：唐霜】转载请注明出处：www.tangshuang.net消息，发送给另外一个AI实体。由这个实体【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。完成对用户的解答。虽然在消息流中，消息来著作权归作者所有，禁止商业用途转载。著作权归作者所有，禁止商业用途转载。源来自两个AI，但是对于用户而言，它只是著作权归作者所有，禁止商业用途转载。转载请注明出处：www.tangshuang.net一个抽象的单一机器人。

系统可以识别用户意图。这是非常关键的一点著作权归作者所有，禁止商业用途转载。【原创内容，转载请注明出处】，因为只有识别了用户意图，才能决定使用哪本文作者：唐霜，转载请注明出处。【访问 www.tangshuang.net 获取更多精彩内容】些信息作为将要发送给AI的上下文。同时，【版权所有，侵权必究】本文作者：唐霜，转载请注明出处。系统还可以根据用户意图，决定是只需要调用原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.net一个LLM，还是需要向Agent发送请求【作者：唐霜】【关注微信公众号：wwwtangshuangnet】，因为有些交互，用户仅仅只需要得到一个回【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】答，而不需要调用工具来执行。

【原创内容，转载请注明出处】本文作者：唐霜，转载请注明出处。转载请注明出处：www.tangshuang.net

当外部环境发生变化时，系统可以实时作出响原创内容，盗版必究。【未经授权禁止转载】应。例如，在一个协作系统中，用户A向系统【访问 www.tangshuang.net 获取更多精彩内容】【作者：唐霜】提交了一个表单之后，系统可以立即向用户B【本文首发于唐霜的博客】著作权归作者所有，禁止商业用途转载。推送基于用户A提交消息而生成的新内容。外【访问 www.tangshuang.net 获取更多精彩内容】【本文受版权保护】部环境包含各个方面，比如在编程环境中，用本文版权归作者所有，未经授权不得转载。【本文首发于唐霜的博客】户用另外一个编程工具修改了当前项目的代码【作者：唐霜】转载请注明出处：www.tangshuang.net，我们的系统需要实时感知，在用户二次请求著作权归作者所有，禁止商业用途转载。未经授权，禁止复制转载。时，这些变更被反应在上下文中。甚至，系统【版权所有】唐霜 www.tangshuang.net本文版权归作者所有，未经授权不得转载。可以了解当前世界各地的重大新闻，来对当前【本文首发于唐霜的博客】【访问 www.tangshuang.net 获取更多精彩内容】的行为进行干预，例如在一些投资AI系统中【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。，重大行为可能随时影响投资标的的动向。只【转载请注明来源】【转载请注明来源】有常驻服务才能够做到对环境的实时监控。

结语

目前，这套方案只是我的一种设计，并没有经【作者：唐霜】【版权所有】唐霜 www.tangshuang.net过验证。其中，实施构造上下文会比老的压缩【关注微信公众号：wwwtangshuangnet】转载请注明出处：www.tangshuang.net方案更消耗时间，在AI的响应速度上必然受著作权归作者所有，禁止商业用途转载。【原创不易，请尊重版权】到影响。但是，这并不绝对，因为通过精准的本文作者：唐霜，转载请注明出处。本文作者：唐霜，转载请注明出处。意图识别，可以减少上下文的长度，剔除无用本文版权归作者所有，未经授权不得转载。【版权所有】唐霜 www.tangshuang.net的信息，这又可以提升大模型首个token原创内容，盗版必究。【本文首发于唐霜的博客】响应时间。在整套系统的算法上，也可以通过转载请注明出处：www.tangshuang.net本文作者：唐霜，转载请注明出处。划分等级来降低算法消耗，比如让用户手动设本文版权归作者所有，未经授权不得转载。【版权所有，侵权必究】置当前任务的精确等级，如果是不需要很精准【本文受版权保护】转载请注明出处：www.tangshuang.net，那么通过对所有数据建立索引，直接通过高【版权所有】唐霜 www.tangshuang.net【关注微信公众号：wwwtangshuangnet】召回率的向量查询的方式，把与用户输入关联【原创内容，转载请注明出处】【转载请注明来源】的内容全部拉出来即可，毕竟大模型本身也有著作权归作者所有，禁止商业用途转载。【原创不易，请尊重版权】应对噪声的能力，这样可以更快；但是如果在转载请注明出处：www.tangshuang.net【转载请注明来源】需要高度精准的任务背景下，就可以在常驻服【本文首发于唐霜的博客】转载请注明出处：www.tangshuang.net务中，再加载一个高性能的专用Agent来【访问 www.tangshuang.net 获取更多精彩内容】【转载请注明来源】专门做意图识别和消息构造的任务。总之，我未经授权，禁止复制转载。【原创不易，请尊重版权】并不是去实现这套系统，而只是提出了这样的本文版权归作者所有，未经授权不得转载。【原创内容，转载请注明出处】一个构想方案。如果你对此也有自己的一些想【访问 www.tangshuang.net 获取更多精彩内容】【原创内容，转载请注明出处】法，不妨在下方留言，我们一起探讨。

【原创内容，转载请注明出处】【转载请注明来源】

原创内容，盗版必究。【本文受版权保护】【版权所有，侵权必究】著作权归作者所有，禁止商业用途转载。【关注微信公众号：wwwtangshuangnet】转载请注明出处：www.tangshuang.net未经授权，禁止复制转载。【本文首发于唐霜的博客】未经授权，禁止复制转载。本文版权归作者所有，未经授权不得转载。【版权所有，侵权必究】本文版权归作者所有，未经授权不得转载。【作者：唐霜】【本文首发于唐霜的博客】本文作者：唐霜，转载请注明出处。未经授权，禁止复制转载。【本文首发于唐霜的博客】本文版权归作者所有，未经授权不得转载。未经授权，禁止复制转载。【版权所有，侵权必究】【作者：唐霜】【版权所有，侵权必究】【关注微信公众号：wwwtangshuangnet】著作权归作者所有，禁止商业用途转载。【访问 www.tangshuang.net 获取更多精彩内容】【未经授权禁止转载】原创内容，盗版必究。【版权所有】唐霜 www.tangshuang.net著作权归作者所有，禁止商业用途转载。【版权所有，侵权必究】

2026-01-08 613

唐霜

基于后台常驻的大模型上下文智能推送方案

背景

目标

第一性分析

智能推送方案的提出

后台常驻服务

结语

为价值买单，打赏一杯咖啡

声明

关于

生态