这两天,实现了一个想法。用一个已经存在的Agent,将教程md文档,经过一通处理,最后输出一个教程视频给我。经过我的摸索,我用Trae实现了这个想法,一分钱没花。
效果预览
让我们来先看下效果。
# 1.1 Claude Code是什么
## 1.1.1 Claude Code的定义
Claude Code是由Anthropic公司推出的面向开发者的智能编码助手,它不仅仅是一个简单的代码生成工具,更是一个具备记忆、工具调用、自主规划和环境感知能力的"智能代理"(Agentic AI)系统。通过与本地开发环境(如VS Code)深度集成,Claude Code能够在不离开安全边界的前提下,深入理解代码库、解释复杂架构、生成可视化图表,并执行实际的代码修改任务。
## 1.1.2 Claude Code的发展背景
在AI辅助编程领域,从早期的代码补全工具(如TabNine、GitHub Copilot)到具备简单对话能力的助手,再到如今的智能代理系统,技术发展经历了三个主要阶段:
1. **代码补全阶段**:基于统计模型,提供简单的代码片段补全
2. **对话辅助阶段**:结合大语言模型,能够理解自然语言指令并生成代码
3. **智能代理阶段**:具备自主规划、工具调用、环境感知和记忆能力,能够完成复杂的开发任务
Claude Code正是处于第三个阶段的代表性产品,它的出现标志着AI编程助手从"被动响应"向"主动协作"的转变。
## 1.1.3 Claude Code的核心定位
Claude Code的核心定位是"开发者的智能协作伙伴",它旨在:
- **增强开发者能力**:通过AI辅助,提升开发效率和代码质量
- **简化复杂任务**:将复杂的开发任务分解为可执行的子任务
- **提供深度洞察**:基于对代码库的全面理解,提供架构级别的建议
- **确保安全可靠**:在安全边界内运行,保护代码和数据隐私
- **支持团队协作**:提供共享的知识和上下文,促进团队协作
## 1.1.4 Claude Code的技术基础
Claude Code构建在Anthropic公司的Claude大语言模型之上,结合了以下核心技术:
1. **大语言模型**:基于Claude Opus 4和Sonnet 4双模型体系,具备强大的自然语言理解和生成能力
2. **工具调用系统**:能够调用各种内置和外部工具,扩展AI的能力边界
3. **记忆系统**:具备短期和长期记忆能力,能够记住上下文和历史交互
4. **自主规划算法**:能够将复杂任务分解为可执行的子任务序列
5. **环境感知能力**:能够感知和理解本地开发环境,包括代码库结构、文件内容等
6. **安全机制**:基于最小权限原则,所有操作都在安全边界内执行
## 1.1.5 Claude Code的主要组成部分
Claude Code主要由以下几个核心组件组成:
| 组件 | 功能 |
|------|------|
| Agentic Planner | 核心控制器,负责将用户请求转化为可执行任务序列 |
| 记忆系统 | 存储和管理上下文信息、历史交互和项目知识 |
| 工具系统 | 提供内置工具和外部工具调用能力 |
| 代码理解引擎 | 深入理解代码库结构和内容 |
| 执行引擎 | 执行实际的代码修改和工具调用 |
| 安全管理器 | 确保所有操作都在安全边界内执行 |
## 1.1.6 Claude Code与传统AI编程工具的本质区别
与传统的AI编程工具相比,Claude Code具有以下本质区别:
1. **项目级理解**:能够理解整个代码库的结构和关系,而不仅仅是单个文件
2. **自主规划能力**:能够自主分解任务、制定计划并执行
3. **工具调用能力**:能够调用各种工具扩展自身能力
4. **环境感知能力**:能够感知和适应本地开发环境
5. **记忆能力**:能够记住上下文和历史交互
6. **安全边界**:在安全边界内运行,保护代码和数据隐私
## 1.1.7 Claude Code的设计原则
Claude Code的设计遵循以下核心原则:
1. **安全优先**:所有操作都在安全边界内执行,保护用户代码和数据
2. **最小权限**:工具调用和代码修改遵循最小权限原则,需要用户确认
3. **透明可信**:所有操作都向用户透明,用户可以随时干预和控制
4. **增强协作**:旨在增强开发者能力,而不是替代开发者
5. **持续学习**:能够从交互中学习,不断提升自身能力
6. **开放生态**:支持插件扩展,鼓励社区贡献
## 1.1.8 Claude Code的应用前景
随着AI技术的不断发展,Claude Code作为智能代理系统的代表,具有广阔的应用前景:
1. **提升开发效率**:自动化重复性任务,让开发者专注于创造性工作
2. **降低开发门槛**:帮助新手快速入门,降低编程学习曲线
3. **促进技术传播**:通过代码解释和文档生成,促进技术知识的传播
4. **加速创新**:帮助开发者快速验证想法,加速产品创新
5. **改变开发模式**:推动从个体开发向人机协作开发模式的转变
Claude Code不仅仅是一个工具,更是AI辅助开发的未来方向,它将重新定义开发者与AI的协作关系,开启智能开发的新时代。
上面是md原文。它介绍了Claude Code的基本信息。
从教程md文档,到教程视频。获取,当你看到这个效果时,已经对这个实现已经非常感兴趣了,你会去思考,“他用了什么技术方案呢?”毕竟,市面上能够从内容到视频的工具并不多。然而,我今天却不是来炫耀我实现了一套关于教程md文档到教程视频的技术方案的。我今天,要基于这个案例,提出“元Agent”的概念,这是一个非常新的概念,在AI时代,或许你并不需要一个软件或工具来实现你的需求,而只需要一个元Agent。
要知道,在上面的案例中,我全程通过构建agent来实现,无需写代码。我通过Trea提供的Agent能力,自己琢磨了一些提示词,并按照某种模式去操作Agent,就得到了我想要的结果。

或许,未来,我们将不再需要任何的软件或工具,而只需要一个元Agent,有了它,我们能做到任何需要通过软件或编程才能做到的事情。
那么,究竟什么是“元Agent”呢?
什么是“元Agent”?
我所提出的元Agent概念,是指“拥有一切基础设施的Agent”。你现在可能还不是很好理解,没关系,我会慢慢说道。
你有没有想过这样一个问题?如果你拥有一个超级智能的AI,它就可以帮你完成一切?答案很难说,能完成一切听起来其实有点恐怖。但是,如果我们交给它的任务并不是非常天马行空,或许它就能完成。
但是,现在,我想提另外一个问题:
如果你想让这个AI,去做超出它预设的功能之外的任务,它能完成吗?
我的答案是:可以。只要它拥有一切基础设施。原理就是,Agent可以自己演进,当它本身预设的功能无法满足它所面临的任务时,它可以自己开发一个软件,或写一个复杂的程序来解决它所面临的问题,最后完成整个目标。
以我上面将md转为视频教程的实现为例。
当我要求AI为我创建视频教程时,我所使用的是Trae的SOLO Coder Agent,这个Agent的核心功能是编程。创建视频明显超出了它本身的能力范围。那么,它如何才能完成这个目标呢?
一种方案是,开发者一开始就为它挂载了一个创建视频的工具,比如一个MCP Server。
然而,这种方案只能解决创建视频这一个场景。我们这个世界上的任务,不可能每一项都有MCP。
第二种方案,Agent自己写一个程序来创建视频。
那么,对于Trae来说,能做到吗?
可以。只要驱使它的模型,有足够的经验。不过目前来说,它还没有这样的经验。只能靠我这个人来帮他弥补了。我给它出了一个注意,我告诉它:
首先,你去联网调研一下,市面上有哪些可以用代码来创建视频的技术方案。然后,你选定一种方案,基于这个方案,自己在本地创建一个项目,用这个项目来根据脚本内容生成视频。最后,你生成好视频后,把这个项目删了,只留下视频。
我的核心思路就是,“让Agent自己去写代码来实现视频创建”。而Agent怎么知道自己要写什么代码呢?就是通过我前面告诉它的,让它自己去调研。更重要的是后面一句,完成任务后,把写的代码给我删掉。是的!这就是非常令人反直觉的地方,在AI时代,代码变得不再是资产,变得不再那么重要。你看,如果Agent实现了一套完美的视频生成代码,即使站在2026年的今天,作为程序员,我们去看这些代码也是非常厉害的,在过去,整理一下发布为一个第三方库,或许能获得不错的技术影响力。然而,如果站在AI编程的视角,我还是会内心毫无波澜的将它删除。
这就是“元Agent”,它只拥有基础能力——脚本执行、网络连接、文件系统操作、工具调用——它基本上就可以实现任何能力。
好,我们再进一步。
当Agent成功完成某项任务后,把完成这项任务的“经验”记录下来。注意,这里不是把代码保存起来,而是把思路记录下来。那么,Agent相当于在自己原来的身体上,增加了新的功能。注意,“AI为自己创造了新功能”!为什么这么说,因为当Agent把这些记录作为提示词,在未来的任务中使用时,就可以实现与此类似的执行效果。Agent自创新能力,竟然如此简单而已。真是大道至简。
而这种记录为“经验”的能力,在Claude Code中,以Skills这个功能形态被体现出来。
现在,你应该会突然反应过来。“元Agent”它不是纯粹的一个Agent,而是一套Agent系统。只不过这个系统足够简单,它包含:拥有一切基础设施的载体(例如Claude Code这样的编程Agent工具)和丰富的可继承与积累的“经验”(也就是Skills的那一套)。一旦有了这两项条件,那么,这个系统就可以自进化,从一开始非常笨的状态,在完成越来越多的任务过程中,进化为一个万能体。而对于它的开发者(发布者)而言,不需要做任何事来迭代它。
对开发者的启示
虽然我所说的“元Agent”理论上很简单,但是目前来看,还没有这样一款工具可以做到真正的自进化,还需要开发团队来维护和迭代。对于我们开发者而言,这其实也是非常大的启示,会颠覆我们的开发范式。
应用不再那么重要
我们过去20多年,编程开发的最终目标都是生成应用程序或软件。这是因为,我们一直被技术约束在“用一个应用去解决一件事或一类事”这个大的思想范围内。随着AI时代的发展,“All in one”的趋势越来越明显,我们将会不再需要应用,我们只需要一个AI就好。
今天,当我一开始准备做md文档转视频教程的任务之前,我还一直是让AI帮我做技术调研、做技术架构、写代码这样的思路。我还是把“我”作为主体,AI只是我的工具,辅助我更快的完成我的编程目标,等我写好一个项目,可以传入一个md,生成一个视频后,我会把这个项目的代码珍藏起来,像宝贝一样去爱护,同时,我会一脚把AI踢开,我不需要了,等我下次还要再做类似的项目的时候,我才会把你捡回来。
然而,当我经过一天的自我否定重来后,我最终发现,一切都变了。真正的主体是AI,而不是“我”。我不需要去理解技术调研的结果,不必去做技术选型,不用考虑架构,不必关心写代码的过程,以及更不需要把代码当作宝贝一样收藏起来。相反,我应该把代码“立刻删掉”,我甚至不应该坐在电脑旁边看着AI在那里输出,我顶多算一个自作聪明来指导AI怎么做的人,说的难听点,是AI实现这个任务目标路上的绊脚石。
我的意思是,我们绝大多数人的需求,都不需要去让AI开发一个应用程序给我们,然后我们用这个应用程序来实现我们的目标。我们其实可以直接让AI帮我们完成我们的目标。就像我前面所举的例子一样,实际上我并不需要让AI帮我写一个md转视频教程的应用,因为我直接用Trae就完成了md转视频教程。
说实话,这对程序员来说,可能有点难以接受。但事实就是这样。
将“经验”而非代码作为资产
这里的“经验”可不是指你脑海中的某种意识形态,而是指将来作为prompt的文档。我的结论是,我们现在开发了某个功能所沉淀的代码几乎没有什么价值,但是能够让AI有效的完成这个功能开发的文本提示却非常珍贵。
或许,这里的经验文档,替代了代码的身份。过去我们称之为代码,现在我们称之为文档。它们是同一个东西,只不过维度不同。
而如果管理文档这一资产,就变得有价值了,就像当初管理代码一样。
首先,我们要解决文档“多”的问题。如何有效的管理不同的文档资产?我们要去更深入的去开发claude code的Skills功能,通过类似claude code这样的Agent载体来自动管理文档,而非人为的对文档进行分门别类进行管理。
其次,我们要解决文档格式规范的问题。就像我们要建立代码规范一样,规范化的文档格式既可以保证AI读取的正确,也确保即使几百年之后,这份文档还能使用。(说到几百年,有多少代码几百年之后还能被运行?)面向AI的文档规范,必须在各个企业内快速建立起来。
寻找自己趁手的元Agent
你看到我在用Trae国内版时,可能觉得很Low,拿着免费的国内模型在这里折腾,根本没法和Claude、GPT这样的天才比。然而,你只看到了智商很重要,却忽略了趁手的武器也很重要。Trae国内版虽然智商是糟糕了点,但是它有两大优势无人能比:免费,优秀的代码补全。我现在可以把它玩的很溜,就像把白开水玩出绝世灵露的感觉。
一个元Agent工具,核心是要有足够的基础设施建设。除了上文提到的联网、脚本执行、文件操作等能力之外,还要具备自定义Agent的能力。目前Trae在自定义Agent的能力上还是有点弱,我只能自己手动建,手动一个一个的调,而不能用提示词和 @ 把多个agent串起来。另外,它也没有Skills的能力。相比而言,Claude Code则是我最推荐的工具,因此,我特意发布了《Claude Code中文教程》。只不过没有免费的模型支撑。
结语
从我的一个需求出发,我一步一步领悟了关于元Agent的概念。一个AI自进化的时代已经在萌芽了,随着大模型越来越聪明,编程工具越来越靠近真相,完全脱离代码编辑器的编程体验一定会到来。或许,我们到时候就会失去一些乐趣,毕竟曾经因为代码缩进是要用tab还是2个空格吵得不可开交的日子,也挺有意思的。
如果你对元Agent的概念有什么看法,不妨在下方留言,我们一起探讨。
2026-01-05 285


