Beginner

最近一些 Agent 认知:OS 与 Agent-native 应用

最近一些 Agent 认知:OS 与 Agent-native 应用

最近一些 Agent 认知:OS 与 Agent-native 应用#

一、Agent 是 OS,垂类做 OS 是找死#

1/ Agent 是一种交互范式,就像手机是一种交互范式。你通过手机购物、社交、理财,但不会为了购物专门买一部手机。Agent 也一样。垂类不应该尝试做 Agent(做手机),应该做 Agent 上面的应用。
2/ 因为战场完全不同。Agent 的战场是推理能力、编排效率、交互体验。垂类的优势是领域深度、业务理解、行业数据——这些优势在 OS 战场上一点用都没有。你拿领域知识去跟 OpenAI、Anthropic 比推理能力,是拿刀去打坦克。
3/ 而且 OS 层的市场结构天然收敛。PC 时代活下来 Windows 和 Mac,移动时代活下来 iOS 和 Android。Agent OS 也不会有几十个赢家。你花三年做垂类 Agent 正面硬刚,这三年本可以在自己的领域建一座别人进不来的根据地。

二、Skill 也不行——天花板是卖 copy#

4/ 不做 Agent,那做 Skill 行不行?Skill 有两面:prompt 和 script。
5/ Prompt 是一组提示词,给 Agent 一个点拨——"原来可以这么做"。有价值,它给了 Agent 一个方向。但推理工作仍然是 Agent 自己干的,容量和带宽都是 Agent 在消耗,你没帮它减轻任何负担。而且 prompt 是文本,文本可以被复制。
6/ Script 是封装好的外部逻辑——脚本、二进制程序、API,什么形式都行。逻辑在外部执行,Agent 不用自己推理这个领域问题了,处理这件事的注意力带宽消耗降下来了。比 prompt 好一步——从"指路"变成了"代劳"。
7/ 但 script 如果没有外部状态——没有数据库、没有用户积累、输入进去结果出来什么都不留下——那逻辑就是可复现的。别人看懂你的思路,重写一个,功能一模一样。
8/ 所以 skill 的天花板就是卖 copy。和卖 Notion 模板、卖 GPTs 一个性质。你做得越好,抄得越容易;你做得越成功,越证明需求存在,越多人涌进来做同样的事。Skill 是接口,接口背后什么都没有,就是在裸奔。

三、Agent 的两个物理约束#

9/ Agent 有两个物理约束。不是 bug,不是下一代模型能修的。像光速一样,你不能许愿它消失,只能围绕它做工程。
10/ 第一个:上下文容量。Context 是有限的容器,塞得越多性能越差。这个好理解。
11/ 第二个:注意力带宽。这个不太直觉。金庸笔下周伯通有一门双手互搏术——左手画圆、右手画方。单独画圆,很简单。单独画方,也简单。合在一起,两个都变形了。不是手不够用,是注意力在两个任务之间打架。Agent 同时在一个 context 里做法律推理、追踪用户意图、规划下一步行动——每件事的质量都下降。不是哪个任务超出能力,是它们在争抢同一份注意力。注意力是零和的。
12/ 如果 Agent 有无限容量和完美注意力,什么都自己做就行了,不需要任何人。但现实是:容量有限,带宽有限。Agent-native Application 存在的根本原因,就是这两个物理约束。

四、Agent-native Application#

13/ 回到壁垒问题。Skill 可复现的根源是"没有外部状态"。解法就是让接口背后长出不可复制的东西。三样:
14/ 领域状态——用户在你这里的业务上下文,每次交互都在生长。法律服务记住案件进度和判例引用,投资服务记住持仓逻辑和调仓理由。越用越厚,别人从零开始追不上。
15/ 基础设施成本——领域微调的小模型、专业知识库、实时数据管线。真金白银持续投入,不是复制一段代码能拥有的。
16/ 规模经济带来的成本优势——同时服务十万个用户,基础设施单位成本碾压任何人自己搭。数学优势,跟聪不聪明没关系。
17/ Skill 背后有这三样,就不再是 skill,是 Agent-native Application。
18/ Application 给 Agent 提供两种价值,对应两个物理约束
能力解锁:以前做不到的事现在做到了——突破上下文容量,那些塞不进 context 的领域知识和用户历史,Application 在外面管着,调一下就能用。
认知卸载:以前做得很费力的事现在很轻松——释放注意力带宽,领域推理搬到外部,不再跟其他任务打架,不是做得快了,是干扰消失了,剩下每件事都做得更准。
19/ 这里要纠正一个常见误解:领域状态不是 memory。Memory 让人以为是通用记忆管理——该记什么、该忘什么。那是 Agent OS 层的课题。领域状态是用户在某个垂类里的业务上下文,边界清晰的业务状态机。它的商业属性是资产沉淀——越用越厚,越难迁移。这是你的根据地,别人抄得走你的 skill,抄不走你的根据地。

五、OS 与 Application#

20/ 两边各有各的命题。OS 的命题是 WHAT——在有限容量和带宽下,帮用户完成尽可能多、尽可能好的事。Application 的命题是 HOW——每次被调用时提供最大的领域价值。OS 决定做什么,Application 决定怎么做。状态也沿这条线分割:OS 持有用户意图和跨域上下文,Application 持有领域状态和业务历史。各管各的,不越界。
21/ 以前的计算范式里,App 和 OS 是单向关系。Word 不会让 Windows 更快,淘宝不会让 iOS 更流畅。Agent 范式里不一样——好的 Application 会让 Agent OS 变得更聪明。法律 Application 把法律推理从 Agent 的注意力里搬走,注意力不再被干扰,其他事情推理更准,于是更精准地调用更多 Application,Application 获得更多数据,变得更好,搬走更多认知负荷……飞轮转起来了。这是认知共生——一个通用智能和一个专精智能通过接口耦合,比各自单独运行都更强。以前的计算范式里没有出现过这种事。
22/ The best context is no context. Agent 越轻,表现越好。

AI 梳理#

以下是基于上述洞察的结构化整理。
因果主链
Agent 是 OS → 垂类做 OS 是找死(战场错、对手错、结局已定)→ Skill 天花板是卖 copy(prompt 可复制、无外部状态的 script 可复现)→ 根本原因:Agent 有两个物理约束:上下文容量(装不下)和注意力带宽(装得下但做不好,任务间互相干扰)→ 解法:Agent-native Application(领域状态 + 基础设施 + 规模经济)→ 两种价值:能力解锁(破容量)+ 认知卸载(释放带宽)→ OS 与 Application 认知共生 → The best context is no context
三层光谱
从指令到工具到服务,是逐步把复杂度搬到 Agent 外部的过程:
  • 指令(Prompt):给 Agent 点拨方向,但活还是 Agent 干,带宽不减。文本可复制,壁垒为零。
  • 工具(Script):外部代劳返回结果,带宽降低。但没有外部状态,逻辑可复现,壁垒低。
  • 服务(Application):外部代劳 + 持久状态 + 基础设施,带宽和容量都大幅降低。不可复制,壁垒高。
从指令到工具的跃迁:从"指路"到"代劳"。从工具到服务的跃迁:加上领域状态、基础设施成本、规模经济带来的成本优势。
三样不可复制(从 Skill 到 Application 的跃迁条件)
  • 领域状态:每次交互都在生长,从零追不上
  • 基础设施成本:要真金白银持续养,不是复制代码能得到的
  • 规模经济带来的成本优势:数学碾压,跟能力无关
两种价值 × 两个约束
  • 能力解锁突破上下文容量 → 做不到的事,做到了
  • 认知卸载释放注意力带宽 → 做得累的事,做得轻松了(消除干扰)
OS 与 Application 的分界
Agent OS 的命题是 WHAT(做什么),持有用户意图和跨域上下文。Agent Application 的命题是 HOW(怎么做),持有领域状态和业务历史。两者的独特关系是认知共生:好的 Application 让 OS 更聪明,更聪明的 OS 更精准地调用 Application。