172026.6

谁能想到有一天,VS Code会是我电脑里面占用内存最多的软件,这种多,是不留一点活路的多。太残暴了!

23:09:02 已有0条回复
142026.6

Seedance2.0通过栅格线突破人脸审核的理论依据找到了

今天看了一篇文章《图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」》让我联想到之前有些人通过给真人图片打栅格线就能突破人脸审核的事,让我更加确信我之前的理论,就是大模型(Seedance2.0也是大模型)的算力(专注力)是有限的,这是导致某些完全不符合我们预期的现象出现的根本原因。

这篇文章,讲了一种通过把图片弄的很糟糕,来突破多模态模型的安全审查的手段。简单讲,就是模型花了很大的力气,把精力都用在了识别文字上,结果,留给安全审查的力气就变得很少。

通过对国内外各大模型的测试,这个团队得到了确切的结论,为图片增加杂音,确实可以消耗模型的专注力来抵消安全审查的强度。

对应到Seedance2.0中,作为用户,我们可以利用这一特性来优化我们的视频生成。具体来说,可以有以下几个方面:

  1. 突破人脸审查,通过将人脸隐藏在杂质信息后面,让模型花更多算力去重建人脸,安全审查的算力就更少
  2. 将出现问题的提示词(文本)以图片的形式提交给Seedance,同时,提供更多参考图,让Seedance先去理解图片中的文本,理解参考图信息,把花在图片理解上的算力拉满,这样它就没有功夫去琢磨安全审查的问题
  3. 撇除多余信息,将你参考图中的多余信息抹除,为seedance保留足够的算力,来确保还原你参考图中场景、人物的一致性,这是一个反向利用算力理论的方案

不过,这种思路,可以解决前置,也就是视频生成前的审查或算力问题,而不能解决视频生成后官方的版权检测问题,官方在seedance2生成视频后,有一个版权检测的阶段,如果发现生成的视频中,存在侵犯第三方版权的可能,就会报错。

13:24:07 已有0条回复
252026.5

意识不自由,和主观能动性

今天看到一个非常有意思的话题,大概如下:

人的大脑本身,与意识之间,可能并不存在必然的联系。我们必须面对一个问题,就是我们的大脑是物理的,客观的,它接收感官系统发送的信号,并通过神经学层面的物质激发,来构造响应,但是,我们是如何产生意识的?本质在于,信息如何从物理的电信号,变为我们人类的主观意识?

这个话题原博主可能讲的更深刻,我这里无法用语言去概括。

不过,我自己也深受启发,我想到一个问题:人可能并没有意识,或者说人的意识并不是人本身的。

这个大胆的假设,来自于不下十篇博客或短视频。虽然这些信息来源不可靠,但是,这种思考不是一两个人这么想,说明具有一定的共识基础。

意识的本质,是一种信息。而人的大脑,是这种信息的播放器。意识并不属于人本身,就像人的影子不属于人本身一样。人们之所以觉得意识属于自己,只是因为意识通过大脑,投射到我们的大脑皮层,产生了幻觉。

最有力的证据在于:人无法操控自己的意识。

是的,人无法操控自己的意识。无论是从生理学、心理学视角,还是从物理学、量子力学视角去阐述,我们都能得到这个共同的结论。

人为什么无法操控自己的意识,核心原因就在于意识本身不属于人本身。

任何人都无法在清晰或半醒的状态,去引导自己的意识。相反,他们只能在意识的引导下完成某些行为。人们不仅无法操控自己的意识,甚至绝大多数人反过来会被意识所操控。而且这种操控是没有任何自由的被动接收,意识让你怎么样,你就会怎么样。人就像一个提线木偶一般,被另一层维度的力量,通过意识这条丝线所控制。因此,有科学家认为,意识本身就是量子态,当人们对意识进行“观察”时,它会坍缩为不同人意识中的具体反应。

我还想到另外一个案例,就是荷马史诗中,远古英雄也是没有自己的意识,对感官的刺激,全凭肌肉记忆,意识完全是神主导,神一开口说话,人就机械的照做。

听上去,人似乎成为一副空有其壳,一台精密的机器,被另一个维度的力量通过意识进行操控,完全是没有自由的。但是,好消息在于,人虽然不能操控意识,但可以通过训练,来改变对意识投射的响应。从我们常见的说法来讲,这就叫“认知”,也就是在被投射意识时,所作出的响应模式不同。认知原始的人,没有经过任何训练,对意识的投射完全属于物理性的随遇而安。而认知高的人,经过特殊训练,对意识的投射作出适应性的物理反应,并最终引导自己的行为朝有利于自身的方向去执行。

人有主观能动性,本质上人们可以改造大环境来让所有人能对意识做出更高级的反应。这也是为什么越高级的文明可以拥有更先进的科技的原因。单纯从一个人来看,是无法抵抗这种意识的控制的。但是作为一个社会整体,在社会运行机制下,低级的意识响应被过滤,每一个人对意识的响应都在一个平均线。面对相同的感官刺激,古时候的人和现代人的反应完全不同,这种本能级别的差异,就是社会机制对意识过滤作用的效果。同时,这种对环境的改造具有螺旋上升的效果,除非发生巨大的灾难,否则人们对环境的改造会越来越先进,对意识的响应水平也会水涨船高。当这种响应级别达到一定高水平后,就可能迎来量变后的质变,突破无法操控自己意识的窘境。

当然,以上全是无稽之谈,可以作为茶余饭后的闲扯。

16:31:31 已有0条回复
112026.5

我正在用AI亲手毁掉我的项目

2024年我离开腾讯的时候,请团队小伙伴吃饭,饭后小伙伴问我,“你说AI会取代写代码,能展开说吗?”,但对当时的我而言,无法系统性回答这个问题,我智能说自己有这样的直觉,AI正在显露出它在写代码领域的厉害之处,但是,对于2024年的我,这几乎是难以回答的问题。

时间已经过去了2年多,现在,我相信无需我多言,当时问我的小伙伴自己已经在心里有了答案。

离开腾讯之后,我开始构建自己的系统,在花了6个多月之后,这套系统初见雏形,纯手工打造,精致而且尽在掌控。我上线了一些产品,有的效果不错,有的石沉大海。但我翻看自己的代码时,往往有种赏心悦目的怡然自得。这些精巧的设计,让我感叹写代码真有趣,足以慰藉人生中的孤独。

然而,这一切的美好,在一个2025年的炎热的午后被打破。我第一次在这一套精密的代码系统中,使用AI编程来完成一些新功能。从2025年中开始,我几乎没有手写过一行完整的代码,所有的代码、架构、UI设计,几乎都是AI帮我完成的。这一切看起来顺其自然,直到最近的一件事,让我突然冷汗直流,内心深处的恐惧吞噬了我的好脾气——我发现,我正在用AI亲手毁掉我的项目。

这天,我照常打开代码编辑器,和Codex对话。但是当我在处理一个bug很久之后都没有修复时,我开始有点焦虑。我让codex告诉我,这个功能涉及的代码都在哪里,给我列个列表。它非常完美的给了我一个列表,我点击进去,开始打算自己查看代码来修复。那一刻,我对自己手动改代码的自信心是爆棚的,因为我知道,这套系统是我亲手打造的,虽然中间AI帮我写了很多代码,但是再怎么变,它的地基是我搭建的,我不可能搞不定,无非是要多花一些时间。然而,当我开始深入去阅读代码时,我傻了,我完全不懂这些代码在干什么!!

我瞬间僵住了,我自以为是这套代码的创造者,总设计师,引擎的操控者,AI不过是给我搭了把手。可现实给了我一记狠狠的耳光,我真的不懂这些代码是在干嘛。它们就像一串奇怪的歪歪扭扭的蚂蚁,但是它们却正常工作着,支撑着几万用户的正常使用。我意识到,这个bug可能藏在1万行代码中那个不起眼的角落,但是,我却不可能通过手写代码的方式找到它。

最后,我只能加大调试剂量,让AI帮我一步一步排除问题可能出现的地方,每一次找到可能的原因,AI就会改上几十行代码,不知不觉,在经过十多轮调试后,终于解决了。可此时,我却毫无快乐可言,因为我知道,在这个过程中,每次AI修改的那几十行代码,可能又在撼动另外一个地方的功能。

最后,我垂头丧气的关掉了所有窗口,深深呼吸了一口气。

从那之后,我再也不敢尝试手写代码,几乎所有的调整,都是AI帮我完成。这套原本有我亲手写下第一行的代码,在我一次又一次,实现一些以前没遇到过的功能时,那种开心的状态,那种在深夜为了实现一个算法而进入心流状态的日子,那种编程的乐趣,我知道,再也回不去了,这套看似功能齐全的代码,我的项目,可能永远离开了我的掌控。

22:54:23 已有0条回复
242026.4

细数deepSeek v4给我留下的10个不爽的点!快气孕了!

1. 去融资!为什么要去融资?我们中国用户养不活你吗?
请你摆正自己的位置,你是国产大模型之光,不是那种路边摊捡的,你不知道你随便搞个什么套餐,用户都会疯狂埋单吗?一点自知之明都没有!
2. V3用的好好的,为什么要下架?
虽然现在各种大模型疯狂出,v3是一年前的产物,但是,用它创作内容真的香啊,关键是价格太感人,跟白菜价一样,为什么要下架,现在连报价都没了,你是看不起我们用户吗?你那个flash价格是一样,但是你看看出来的效果,能和v3比吗?把稳定好用的v3还给我,我给你氪不行吗?
3. V4-Pro为什么那么贵?这个价格怎么去干死对面claude和gpt?
支持国产,人人有责。但是,如果用一些第三方的,claude和gpt是可以薅到羊毛的,反而是国内模型一毛都薅不到。同样是开发人群,你怎么让大家有勇气从gpt切换到v4-pro?老实点,赶紧扛起价格屠夫的名号,把价格砍下来。
4. 为什么要开源?
你不知道你一开源,很快就又要有些模型公司超越SOTA了吗?本来我们自己关起门来,再卖token给外国佬,让他们也感受一下来自中国词元的力量。现在好了,他们去自己部署,反倒靠算力优势,通过一些平台把token反卖给我们。
5. 为什么不搞coding plan?是这种躺着收钱的方式不香吗?
你看看隔壁的智谱、minimax、kimi,还有字节、阿里,都在搞coding plan,一茬接一茬,既绑定了用户,有着稳定的月费收入,又可以让开发者们共享你的发展成果,利国利民,为什么不搞。
6. 为什么为了适配国产芯片,足足拖了半年才发新模型?
你知道你上一个模型是什么时候发的吗?R1是2025年1月,这都多久过去了?要不是你当年一个R1直接干懵整个模型界,威压足足扩散1整年,你现在发模型,就是“诈尸”了。过去半年你在干什么?glm-5.0发完又发5.1,minimax发完M2.6又发M2.7,kimi发完K2.5又发K2.6,gpt都从5.3到5.5了,claude都从opus4.5到4.7了,期间还有Sora2、香蕉2和Pro、Seedance2.0、HappyHorse这些逆天模型发布,你看看你在干嘛?
7. 为什么没有多模态?
之前坊间说v4是一个多模态模型,那你倒是兑现啊!现在好了,没有多模态,接编程工具还得再配一个支持图片识别的其他模型。之前发布的ocr咋不用进来?你说你!哎!
8. 为什么没有超过opus4.6?甚至连opus4.5都只能战平?
大家都以为你在憋大招,结果你只出了个意料之中。这让我吹出去的牛皮,都不好意思收回来。我知道你本来应该在半年前发,那个时候,拳打glm-5,脚踢gpt-5.3,那个时候你要是发,你就是王,现在发,你真的只能称弟弟了。
9. 为什么token耗的那么快?
同样一个任务,隔壁gpt才几毛钱,你已经飞上10多块去了。我知道你喜欢思考,但是,你倒是把思考用在刀刃上啊!我就问了一句你好啊,你直接给我吃了6毛钱,我感觉我快没资格跟你打招呼了。
10. 准备了那么久,为什么算力支持如此糟糕?
一个Agent任务,你给我中断了两次,说什么动态限频,还说什么等芯片厂商那边供货上来了,就给我们降价。喂!你是大模型公司,是国产之光,不是他们的打工仔!国产芯片再牛批,人家只是把你当作一个下游的订购商,等他搞起来了,他可以拿国家荣誉,他可以给其他模型厂商供货,你呢?狡兔走狗,你哭吧你。所以,别那么犟了!赶快再次拿出当年R1的新水准模型出来吧!
19:41:46 已有0条回复
162026.4

Token用不完?AICodingBus让你的团队共享词元

哈喽大家好啊,好久没发东西了。这段时间一直在忙产品相关的工作,比较少分享技术或者开源方面的探索。

这几天遇到一个挺有意思的现象:好几个小伙伴跑来问我,能不能一起拼一个 GLM 5.1 的套餐来写代码。毕竟目前国内模型里,5.1 确实算最强的那一档。再加上 Claude 官方最近上线了 KYC(身份认证)策略,用它的服务得做身份验证,而且本身就屏蔽了国内用户——这让国内的小伙伴用 Claude 的成本越来越高。很多渠道可能都面临关闭的风险,于是大家又把目光投回了国产模型。

智谱 5.1 发布后反响确实不错,但让人不爽的是:官方把直接订阅 Coding Plan 的入口给关了。据说是因为算力紧张,做这个套餐本身也比较亏本,现在就搞成“放量”模式——有点像秒杀,一出来就被抢光。好多小伙伴想买都买不到,有钱花不出去的感觉。

我自己手上倒有一个 Max 套餐。之前做 Claude Code 深度教程的时候,很多小伙伴通过我的推荐去买了套餐,官方给了我一笔返现奖励,我用这笔钱买了 Max 套餐。之前上车的朋友应该没亏吧?😄

现在这个套餐我自己用得不多,主要还是在用 Codex(GPT 模型写代码)。我就想,既然我用量少,能不能把这个套餐分享出去?收点钱回回血也行,实在不行免费分享也可以。

正好有小伙伴来找我,想“搭车”一起用这个套餐。但问题来了:官方并没有独立的 API Key 专门给 Coding Plan 用。在智谱官网上,所有服务的 token 是混在一起的——我账户里还有不少余额,是用来调用其他模型服务的。如果把 key 直接交给小伙伴,万一(不是不信任)把我通用 API 的余额也消耗掉了,那就尴尬了。

有没有现成的方案?

我找了一圈,市面上确实有中转系统(比如 One API 这类),可以把海外 Claude、GPT、Gemini 的 token 转给国内用户用。但那种方案太重了,面向的是跨境卖 token 的场景。我这边就是几个熟人一起用一个套餐,没必要搞得那么复杂。

搜了一圈,没找到合适的。那就自己做一个吧——反正功能上也不难。

一个晚上从 0 到上线

昨天晚上,我开始用 Claude Code,连上 GPT 和 GLM,把我的想法讲了一遍。让它帮我梳理需求、出 PRD 文档,然后根据文档设计系统架构。接着我开启了 Claude Code 的 Ralph 模式(需要装个插件,用一条命令就能让 AI 一直跑,直到它认为自己完成了所有需求)。

我让它自己跑,然后我就去睡觉了。

今天早上起来验收,功能基本都实现了,但细节上还有些问题:UI 不够好看,一些交互逻辑需要打磨。于是花了一整天,跟 Claude Code 和 AI 一起把系统打磨完,下午快吃饭的时候上线了。

AI Coding 的真实体验

现在做一套系统确实非常快。我的流程很简单:让 Claude Code 出设计文档、实现文档,然后开始跑。

但花时间最多的阶段,不是“从 0 到 1”,而是 从 1 到 100 的精细化打磨。

从 0 到 1 基本可以无人值守,AI 自己就能搞定。但精细化打磨的时候,你必须盯着它,出结果后马上验证,给实时反馈。比如 UI 上哪里不对、交互逻辑怎么改、隐私安全怎么保障——这些细节在初始阶段 AI 是没法帮你做好的。

我一整天绝大部分时间都在做这件事:告诉 AI 哪里有细节问题,让它改,然后验证。这个过程需要实时互动,不可能完全放手。

之前有做产品的朋友跟我交流,说他们对产品的理解很好,想借助 AI 独立实现产品。但经过这一天的体验,我发现他们可能能做到 0 到 1,但很难做到 1 到 100。因为有些东西你根本不知道“需要有这个东西”——比如加密、数据库字段、算法逻辑。你不知道,就没办法让 AI 帮你做。

当然,我们做技术的人从 90 分到 100 分能做得到,但从 0 到 1 的想象力可能不如产品经理。所以最好是两种思维都有——或者像我们这样,一个人既懂技术又懂产品,还得懂点营销。

AI 让大家失业?我觉得可能有一半的冲击,但完全颠覆行业还远着呢。比如界面审美——你得让 AI 装上视觉、理解效果、具备审美,这几乎不可能。所以目前来看,人还是不可或缺的。

我做的东西:AICodingBus

回到正题。我做这个系统叫 AICodingBus(AI 编程巴士),所有小伙伴都是来“搭车”的。

· 共享自己的 token,或者搭车使用别人的 token。
· 平台本身没有任何收费项目,只做分享和限制功能。收费什么的大家线下(场外)自己解决。
· 目标是熟人之间的 token 共享,不是那种中转服务商。

使用流程很简单:注册账号 → 创建共享池 → 填入上游服务商的 API 地址和 Key → 生成邀请链接 → 审核通过后,使用者就能拿到平台提供的 URL 和 Key,放到自己的编程工具里直接用。

核心设计点:

  1. 额度分配:比如一个套餐 3 个人用(包括创建者自己),可以设置平均分配份额,避免一个人把所有人的额度都用光。
  2. 隐私保护:使用者只能看到自己的用量,创建者能看到整体用量,但看不到其他人的具体用量。
  3. 防坑机制:如果创建者收了钱,不能随便踢人(只有成员主动退出)。当然这防不了君子不防小人——创建者可以直接在官方层面删掉 Key。后续可以考虑加信任评分系统,让大家知道谁靠谱。

个人建议一个共享池不要超过 10 个人,五六个人最好,方便管理。

使用地址:https://aicodingbus.24×7.to

使用说明:https://www.bilibili.com/video/BV1MMd6BvEuF/

最后

通过这次体验,我觉得 AI 编程确实很高效,但也没有想象中那么“傻瓜化”。我做这个工具主要想解决日常开发中的小问题,没打算靠它盈利。

如果你也有 token 共享的需求,或者对这个工具有什么想法,欢迎在评论区聊聊~

有机会再和大家聊更多话题,拜拜!

19:50:41 已有0条回复

怪不得如此蹊跷,原来Hermes Agent涉嫌抄袭

最近大火的Hermes Agent和之前大火的openclaw存在核心理念的差别。Hermes Agent最核心的一项特征,是有非常先进的记忆,实现自进化。关注我公众号的小伙伴都知道,我在之前的两篇文章中提到过,Agent的记忆“进化”能力会成为一项重要课题,当时点到了Claude Code和EvoMap两个项目。而Hermes的爆火,正是这个方向上的一大突破带来的影响力。

然而,今天,开源圈却爆出惊天大瓜,Hermes Agent涉嫌抄袭EvoMap。虽然EvoMap的项目完全开源(MIT协议),然而Hermes的项目在核心“进化记忆”设计上,与EvoMap 100%重合,却通过1:1的重新发明概念、用python重写,来宣称自己的完全自主研发创新,在其所有材料中,没有提到一嘴对EvoMap的感谢。

这是一起引发全球AI圈震动的开源伦理事件。事情的焦点是中国AI创业公司EvoMap,公开指控硅谷明星AI项目Hermes Agent,系统性抄袭了其开源的自进化引擎Evolver。

👥 谁是当事人?
控方EvoMap:一家不到20人的中国深圳创业公司。创始人张昊阳(95后)曾是腾讯《和平精英》的技术策划,其核心产品Evolver是一个能让AI通过自我学习不断进化的“引擎”。

辩方Nous Research:硅谷知名的AI实验室,融资过亿美元,在开发者社区影响力巨大。其明星产品Hermes Agent因强大的“自进化”能力在GitHub上斩获超过8.5万星标,是当时增长最快的AI项目之一。

🕵️‍♂️ EvoMap的核心指控
EvoMap的指控主要围绕以下几个方面:

时间线高度可疑:Evolver的核心概念于2026年2月1日完全公开,而Hermes Agent推出核心自进化功能的时间在3月初,时间差仅有24至39天。

架构设计惊人雷同:EvoMap发布的技术报告指出,双方在多个核心模块上存在一一对应的同构关系:

- 10步主循环:虽然编程语言不同(Hermes使用Python,Evolver使用Node.js),但两者的核心进化逻辑步骤几乎完全一致。
- 三层记忆体系:双方都采用了“持久事实层+程序性记忆层+历史搜索层”的架构。
- 核心术语替换:多达12组核心术语被系统性替换,例如将“Gene”换成了“SKILL.md”。
- 其他细节:双方还实现了“任务完成后自动提取经验资产”、“周期性自我反思机制”等高度雷同的功能。
- 开源协议被漠视:Evolver采用的是宽松的MIT开源协议,唯一的“署名”要求未被遵守。Hermes Agent在7份公开发布的材料中,均未对Evolver进行任何形式的引用、致谢或标明来源。

🤔 双方回应与辩护
面对详尽的指控,Hermes背后的Nous Research团队做出了一系列备受争议的回应。

第一次回应:傲慢与删帖
其官方账号回应称:“我们的仓库2025年7月就有了。我们是先驱。删除你们的账号”,并拉黑了EvoMap成员。这条回应因态度傲慢且技术论据不足,很快被删除。

第二次回应:坚决否认
联合创始人Teknium随后回应:“我这辈子从来没有听说过这个人、他的项目……毫无证据地声称我剽窃了他们的作品,这是谎言”。

辩方的技术辩护

仓库创建更早:辩方强调其主仓库创建于2025年7月,远早于Evolver。

“独立趋同”:认为出现相似设计是“英雄所见略同”,底层逻辑借鉴了共同的学术框架(如ICLR 2026 Oral的GEPA框架),而非抄袭。

⚖️ EvoMap的反驳与影响
EvoMap随即进行了有力反驳,并采取了行动:

戳破“先发”时间点:EvoMap指出,辩方的主仓库长期处于私有状态,内容无法验证;而涉及争议的“自进化”功能仓库创建于2026年3月9日,明显晚于Evolver的公开时间。

捍卫架构原创性:EvoMap强调,即便底层有通用学术概念,但将10步主循环、三层记忆、经验沉淀等模块进行特定组合的创新,正是其原创性的体现,且这种特定的组合方式不应在短期内被“独立”复现。

“闭源”以示抗议:由于在本次事件中感受不到对原创者的尊重,EvoMap宣布将Evolver的许可证从MIT改为更严格的GPL-3.0,并将核心模块改为混淆发布,标志着该项目从开放走向了保守。

💎 事件反思
这起事件的核心已超越了“代码抄袭”的技术层面,它更像一面镜子,映照出AI飞速发展下的几个深层矛盾:

开源伦理的困境:当“借鉴”的界限变得模糊,尤其在AI“洗代码”(通过AI工具重写代码以掩盖来源)技术出现后,如何保护原创者的尊严和生存空间?

影响力悬殊下的“举证之难”:一个拥有数亿美元融资、8万星标的明星项目,和一个只有2000星标的初创团队之间,话语权的天平天然是倾斜的。即便证据确凿,小团队也面临巨大的发声与维权成本。

总而言之,这起事件最终在法律层面也许难有明确判决,但它在技术圈激起的涟漪,将持续拷问整个AI行业的创新伦理与合作底线。

这件事让我更加印证了我很久以前的一个想法。MIT协议的开源,只适用于有强大话语权的强势方,(甚至开源本身)并不适用于没有话语权的弱势方。开源本身是一种共识,但是随着这个世界越来越向草台班子发展,这种共识很容易被打破,因为这种“犯罪”毫无成本。开源本身,在今天,已经没有太大的意义,这是一个悲伤的结局,是某些道德水平差的劣币驱逐良币的结果。

前段时间,HappyHorse准备开源时,其实我已经有点开始担心,然后昨天收到消息,阿里取消了HappyHorse的开源计划。在今天这个中美竞争激烈的时刻,开源已经成为一种国家级竞争的武器,特别是对于优秀的技术,要不要开源,如何开源,已经成为一项与国家利益直接挂钩的重要战略问题。这让我对DeepSeek的v4版本也捏一把汗,deepseek已经作出了非常多理论上的贡献,驱动了glm-5、qwen-3.6等大模型的成功,新版本是否开源,可能得掂量着中美竞争的大势来执行。

EvoMap只是一个非常小的团队,人数不足50人。在与西方有背后资本支持的团队竞争时,很容易落下风。EvoMap走向闭源是对的,他们没有deepseek那样的资本力量托底,技术高度又无法企及国家层面的支持,只能通过自己的深入研究来进一步发展。EvoMap的团队称,Nous Research可以抄袭,但是无法理解他们团队的下一步路线。当EvoMap开始闭源,Hermes Agent就只能靠自己的理解发展,甚至可能就不发展了,因为他们可能能理解EvoMap关于自发展记忆的技术,但是无法理解EvoMap关于记忆共享的生态,甚至更进一步的发展。

18:46:37 已有0条回复
142026.4

含切镜视频生成提示词怎么写?这份标准结构格式值得收藏

你是不是看到过非常专业的视频生成控制的演示呢?在别人用AI生成的视频演示中,你能看到他们可以让AI完全按照自己的想法生成视频。今天,我就把这个秘诀教给你。

想要严格控制AI生成视频的整体过程,我们推荐一种标准化结构的提示词格式,这种格式向AI提供了全面的生成依据,因此,可以做到精准把控。

让我们先看一个案例。

下面这个视频是用通用语言描述生成的视频:

提示词如下:

健身房,大叔对着镜子努力举哑铃,表情狰狞。旁边肌肉男轻松拉起三倍重量,结果裤子崩开,露出卡通内裤。大叔憋笑到岔气,哑铃砸到脚,单腿乱跳撞倒一排蛋白粉罐,粉尘漫天,所有人变成“雪人”。

而下面这段视频的,则是用我们标准结构的提示词生成:

提示词如下:

镜头1(0-2秒)
运镜:固定镜头
画面:中景,平视,顶光。中年大叔在健身房镜子前奋力举哑铃,面部肌肉紧绷,嘴角抽搐,双臂微微颤抖。
音效:哑铃碰撞声。
---
转场:镜头跟随视线右移
---
镜头2(2-5秒)
运镜:缓慢推进
画面:特写,侧光,低饱和度。肌肉男轻松举起三倍重哑铃,裤子突然崩开,露出卡通内裤,周围人表情从惊讶到憋笑。
音效:布料撕裂声。
---
镜头3(5-8秒)
运镜:轻微晃动
画面:全景,俯拍,高对比度。大叔憋笑岔气,哑铃脱手砸到脚,单腿跳跃撞倒蛋白粉罐,粉尘弥漫,所有人变成"雪人",表情从痛苦到滑稽。
音效:哑铃落地声、罐子倒下声、粉尘飞扬声。
---
音效(0-8秒):健身房背景噪音

可以看到,AI遵循了我们提示词中至少90%的指令。

那么,一款标准结构的提示词格式是怎样呢?下面就是一份我们总结的标准提示词示例。

写实纪实风、自然光、低饱和、轻微颗粒感。(可选)
---
镜头1(0-3秒)
运镜:固定镜头,轻微手持感(可选)
画面:中景,平视,侧光。角色A(通过 mention 引用)坐在凌乱书桌前,台灯只照亮半张脸。
台词(角色A,低沉且疲惫):“又来了。”(可选)
音效:虫鸣声。(可选)
---
转场:硬切,跟随角色A视线方向(可选)
---
镜头2(3-6秒)
运镜:缓慢前推(可选)
画面:特写,俯拍,焦点从虚到实。桌上笔记本内页墨水晕开形成黑色圆点。
台词(角色A,压低声线):“这不对劲。”(可选)
音效:笔在纸上的书写声。(可选)
---
...(可包含更多镜头、转场,总时长控制在 8-15 秒内)
---
音效(4-12秒):雨声(跨镜头,按需添加)
音效(12-13秒):巨大的雷声(跨镜头,按需添加)
---
**强制音频约束**:禁止出现任何音乐内容(包括但不限于背景音乐、配乐、歌曲、BGM、持续哼唱、乐器演奏),仅允许“音效 + 说话声”。

让我们来详细拆解一下:

  • 开头:提供整体视频的基础信息,这里提供基础的视频风格。
  • 镜头:
    • 时间跨度
    • 运镜:这里需要注意,我们在镜头内先指出运镜,这让AI可以更好的遵循指令,经过多番测试,生成的视频效果更好。
    • 画面:包含景别、光影、构图等镜头设计。然后才是对故事情节的具体展开。
    • 台词
    • 镜头音效
  • 镜头间转场
  • 其他镜头
  • 跨镜头音效:提供了该音效的持续时长
  • 其他提示信息

这份提示词所包含的信息非常具体,这种具体的指令,可以让AI更加可控的按照我们的需要去生成视频。

以上就是这份含切镜视频生成提示词标准结构格式的秘诀要领。赶快到你的视频生成中去试试吧。

21:23:15 已有0条回复
122026.4

可怕的事实在于,AI没有增加任何新的需求,而是用算力顶替人力,提升效率。但是,这背后存在巨大的安全隐患,那就是能力的中心化,所带来的风险集中。以前,企业雇佣工人来解决生产力问题,把能力分散在员工个体身上,当一个员工出现问题(例如生病、状态下滑等),可以通过可插拔式的招聘新员工来替代,这种去中心化的能力组合模式,是过去企业管理的底层基石。但是,随着用AI来顶替人类员工的盛行,能力的过度中心化,会企业带来巨大效率提升的同时,也买下巨大的隐患。当单一AI的能力不足以支撑企业的业务需求,或者遇到算力的降智时,企业必须承担这种中心化唯一节点退化带来的风险和损失,再也无法通过插拔式招聘替代来解决问题。也就是说,将企业的管理基石切换到AI模式后,企业不再有能力管理局部细节的风险,而是与AI和算力一荣俱荣一损俱损。

11:33:07 已有0条回复
102026.4

这个世界的另一种形态是信息,物质、能量、信息在不停的相互转换。但是人类自身结构的局限性,并不能完全理解超出自身接收信息的能力。宇宙的信息穿过人们的肉体,我们却对这些信息一无所知。于是,有人给它们取了个名字,叫“暗物质”,说它无处不在。世界上哪有那么多物质,只是存在的另外一种形式罢了。

22:31:26 已有0条回复