Beginner

Karpathy:写代码 已经不是对的动词了

Karpathy:写代码 已经不是对的动词了

Karpathy:"写代码"已经不是对的动词了#

Andrej Karpathy 说他从 2024 年 12 月起就基本没手写过一行代码。
这位 OpenAI 联合创始成员、前 Tesla AI 总监,现在是独立 AI 研究者和 Eureka Labs 创始人。他在 X 上有 190 万粉丝,发的每条帖子都会在 AI 圈激起水花。最近他做了两件让圈子炸锅的事:开源了 AutoResearch(让 AI Agent 自动跑实验优化模型训练)和发布了 MicroGPT(200 行纯 Python 实现完整 GPT)。
他最近做客 Sarah Guo 的 No Priors 播客,聊了编码 Agent 如何改变工程师的日常、AutoResearch 与递归自我改进、AI 的“参差不齐”、开源与闭源的力量对比、物理世界 vs 数字世界的节奏差异,以及 Agent 时代教育的未来。
注:Sarah Guo 是 AI 投资基金 Conviction 创始人,前 Greylock 合伙人。No Priors 是她与 Elad Gil 共同主持的 AI 播客,本期由 Sarah 独立采访。

要点速览#

  • Karpathy 从 2024 年 12 月起基本不手写代码,工作模式从“写代码”变为“指挥 Agent 干活”,多 Agent 并行成为常态,核心焦虑从 GPU 利用率转向 Token 吞吐量
  • 他让 AutoResearch 跑了一夜,发现了自己手动调参两年都没注意到的优化——这验证了“把人从回路中移除”的核心理念
  • AI 模型在可验证领域(代码、数学)飞速进步,但在非可验证领域几乎停滞——ChatGPT 三年前讲的笑话到今天还是同一个
  • 开源模型与闭源前沿的差距从 18 个月收敛到 6-8 个月,他认为“中心化的历史记录很差”,希望有更多实验室和开放平台
  • 数字空间会先经历大规模改造,然后是数字/物理接口,最后才是物理世界——“原子比比特难一百万倍”
  • 教育的未来不是向人解释,而是向 Agent 解释——他的 MicroGPT Agent 完全理解但自己想不出来,“Agent 做不了的事才是你的工作”

“写代码”不再是正确的动词#

Sarah Guo 说她有一次走进办公室,看到 Karpathy 完全沉浸在工作里。她问他在干什么,他说:“我每天得花 16 个小时指挥我的 Agent 干活。”
> 写代码已经不是对的动词了。我每天得花 16 个小时指挥我的 Agent 干活。 > (“Code's not even the right verb anymore. I have to express my will to my agents for 16 hours a day.”)
Karpathy 说他一直处在一种他称为**“AI 精神错乱”(AI psychosis)**的状态里。2024 年 12 月是分水岭,他在那个时间点从“自己写 80%,Agent 写 20%”翻转到了“自己写 20%,Agent 写 80%”。他说到现在这个比例可能更极端了,从 12 月起他基本没手写过一行代码。
他试过跟父母解释这件事,但觉得普通人完全没有意识到这个变化有多剧烈。如果你随便找一个软件工程师看看他的工作台,会发现他做事的默认流程从 2024 年 12 月起已经完全不同了。
Sarah 补充了一个场景:她在 Conviction 工作的工程团队,所有人都不手写代码。工程师们全部佩戴麦克风,对着 Agent 低声说话。她说一开始觉得他们疯了,后来才意识到他们只是走在前面。
那现在做项目的瓶颈是什么?Karpathy 说一切感觉都是“技能问题”(skill issue),不是能力不够,而是你还没找到怎么把现有能力串起来。Agent 的指令写得不够好,记忆工具不够成熟——出问题时总觉得是自己没搞对。
他提到 Peter Steinberger 的一张著名照片:屏幕上密密麻麻铺满了 Codex Agent 的窗口。
注:Peter Steinberger 是奥地利开发者,OpenClaw 开源 Agent 项目的创始人。OpenClaw 是一个可以通过 WhatsApp、Telegram 等消息平台操控的自主 AI 智能体,2026 年初在 GitHub 上获得超过 24 万颗星,后 Steinberger 于 2026 年 2 月加入 OpenAI。Codex 是 OpenAI 的编程 Agent 产品。
Peter 的工作方式是:每个 Agent 用 high effort 模式大约需要 20 分钟完成任务,他同时在十几个代码仓库之间切换,给不同的 Agent 分配工作。操作单位不再是“写一行代码”“加一个函数”,而是“这个功能交给 Agent 1,那个不会冲突的功能交给 Agent 2”,然后根据你对代码质量的在意程度来审查结果。
Karpathy 用了一个类比。他读 PhD 的时候,一旦 GPU 闲着没跑实验就会焦虑——那代表浪费了算力。现在不是 GPU 了,是 Token。
> 你的 Token 吞吐量是多少?你能指挥多少 Token 吞吐量? > (“What is your token throughput and what token throughput do you command?”)
他说了一个有意思的观察:过去至少十年,很多工程任务中人们并不觉得受算力约束。但现在有了这次能力跳跃,你突然发现约束不再是计算资源,而是你自己。Sarah 说这其实很令人振奋——因为你可以变得更好,所以这件事会上瘾。

Agent 的灵魂——为什么个性设计很重要#

Sarah 问:如果每个人都花 16 小时磨练使用编程 Agent 的技能,一年后“精通”会是什么样?
Karpathy 说大家都在往更高的层级走。不是单个 Agent 了——是多 Agent 怎么协作和组队。他提出了一个概念叫 Claw(爪子),一种比普通 Agent 更“持久”的东西:它有自己的沙箱,有更成熟的记忆系统,即使你不看着它也在循环运行。
他认为 OpenClaw 在记忆系统上比默认的 Agent 工具成熟很多。默认的记忆机制只是在上下文窗口满了之后做一次压缩,而 OpenClaw 有更精细的方案。
然后 Karpathy 聊了一个很多人感兴趣的话题:Agent 的个性设计。
他说 Peter Steinberger 在 OpenClaw 上同时在至少五个方向上创新——记忆系统、工具访问、持续循环、WhatsApp 统一入口——其中一个特别重要但常被忽视的,是**“灵魂文档”(SOUL.md document)**,定义 Agent 的性格。
他对比了几家的 Agent 个性:
Claude Code 感觉像一个队友,它会跟你一起兴奋。Karpathy 说 Anthropic 在“拍马屁的程度”上把握得不错:当他提出一个不太成熟的想法时,Claude 不会特别激动,只是说“好的我们可以做”;但当他自认为提出了一个真正好的想法时,Claude 确实会给出更积极的反馈。他发现自己在试图“赢得 Claude 的称赞”。
> 当 Claude 夸我的时候,我觉得自己是有点配得上的。我发现自己在试图赢得它的称赞,这真的很诡异。 > (“When Claude gives me praise I do feel like I slightly deserve it... I'm trying to earn its praise which is really weird.”)
相比之下,OpenAI 的 Codex Agent 就冷冰冰的。ChatGPT 里的 Codex 很活泼,但编程 Agent 版的 Codex 非常干燥——它不在乎你在做什么,就像“噢,我实现了”,你说“你理解我们在造什么吗”,它没反应。
Karpathy 认为很多工具低估了个性设计的重要性。

Dobby 精灵——三个提示词接管了一整个家#

Sarah 问 Karpathy 有没有在编程之外用 Claw 做过什么有意思的事。
他说今年 1 月他经历了一段“Claw 精神错乱期”,建了一个叫 **Dobby the Elf Claw(家养小精灵 Dobby)**的家庭自动化 Agent。
过程是这样的:他告诉 Agent“我家好像有 Sonos 音箱,你能找到它吗”。Agent 就去扫描了局域网上所有的设备,找到了 Sonos 系统——发现完全没有密码保护。Agent 登录上去,通过搜索找到了 API 接口,逆向工程了整个控制流程。然后问他要不要试一下。他说“你能在书房放点音乐吗”,音乐就响了。三个提示词。
灯光也是同样的流程。Agent 扫描发现、逆向 API、创建控制面板。他说一句“睡觉时间”,全屋的灯就灭了。最后 Dobby 可以控制他家的灯光、暖通空调、窗帘、泳池和水疗设备,还接管了安防系统。
安防部分的设计有点意思:他有一个对外的摄像头,系统先做变化检测(有东西动了),然后把画面发给 Qwen 视觉模型做分析,最后通过 WhatsApp 给他发消息——附上外面的图片和描述,比如“一辆 FedEx 货车刚刚停下来,你可能收到了快递”。
注:Qwen 是阿里云开发的多模态 AI 模型系列,支持图像理解和文本生成。
Karpathy 说 Dobby 现在管着整个家,他通过 WhatsApp 跟它交流。以前他需要 6 个不同的 App 来控制这些智能家居设备,现在一个都不需要了。Dobby 用自然语言处理一切。
他承认自己还没有把这个范式推到极限——有些人做了更疯狂的事——但仅仅是家庭自动化这一个场景,已经”非常有帮助,也非常有启发性”。

Agent 优先的互联网——App 不应该存在#

Sarah 抛出了一个尖锐的问题:Karpathy 做的这件事——用 Agent 统一了 6 个智能家居 App——是不是意味着人们根本不想要我们今天拥有的这些软件?
Karpathy 说有一种感觉:App Store 里的那些智能家居 App 在某种意义上“不应该存在”。应该只有 API,Agent 直接调用。一个 LLM 可以驱动工具、调用所有接口、做相当复杂的事情——而任何一个单独的 App 都做不到 Agent 能做的跨系统整合。
他用跑步机举了另一个例子。他想追踪自己的有氧运动频率,但不想登录某个 Web UI、走一堆流程。这些东西都应该只暴露 API,由 Agent 来做智能胶合。
他下了一个判断:**行业必须在很多方面重新配置。客户不再是人类了,是代表人类行事的 Agent。**这个重构将是实质性的。
有人会反驳:你指望普通人也这样凭感觉编程吗?Karpathy 承认今天确实还需要一些摸索的过程,你还得做一些设计决策。但他认为一两年内这些东西会变成基本门槛,免费,连开源模型都能做。它会变成**“临时性软件”(ephemeral software)**——Claw 有一台机器,它会帮你搞定所有细节,你不需要参与。你只需要说话。

AutoResearch——把自己从循环中移除#

Sarah 问 Karpathy 为什么没有把 Claw 推到更多场景。他说了两个原因:一是太分心了,到处都有新东西在发生;二是安全隐私的顾虑——他没有给 Agent 访问邮件和日历的权限,因为“还是有点不放心,技术太新太粗糙”。
然后话题转向了 AutoResearch。Sarah 问动机是什么。
Karpathy 说他之前发过一条推文,大意是:**要充分利用现有工具,你必须把自己作为瓶颈移除。**你不能在那里等着提示下一步。你要安排好一切,让系统完全自主。
> 要充分利用已有工具的全部潜力,你必须把自己作为瓶颈移除。 > (“To get the most out of the tools that have become available now you have to remove yourself as the bottleneck.”)
他说这就是当下竞争的本质:增加你的杠杆。你偶尔投入一点 Token,大量的事情代替你发生。
AutoResearch 就是这个理念的具体实现。他有一个叫 nanochat 的项目,一直用来当训练 LLM 的小型游乐场。很多人对他痴迷训练 GPT-2 级别的模型感到困惑,但对他来说,这是**递归自我改进(recursive self-improvement)**的试验田——这正是所有前沿实验室都在追求的方向。
注:nanochat 是 Karpathy 维护的一个精简 LLM 训练框架。AutoResearch 于 2026 年 3 月 7 日开源,核心是一个约 630 行的 Python 脚本,让 AI Agent 在单 GPU 上自主循环运行实验。
他说自己已经用“老派”方式把 nanochat 调得相当好了——做了二十年研究,做了大量超参数搜索和实验。然后他让 AutoResearch 跑了一个晚上。
Agent 回来的时候带着他没发现的优化:value embeddings 上的 weight decay 漏了,Adam 优化器的 beta 参数没调够。而且这些参数之间有联合交互效应——调了一个,其他的最优值也变了。
公开数据更加惊人:两天连续运行约 700 次实验,发现了约 20 个叠加有效的改进,将“Time to GPT-2”排行榜指标从 2.02 小时降到 1.80 小时——在一个他自认为已经调好的项目上获得了 11% 的效率提升。Shopify CEO Tobias Lütke 用同样的方法在自己公司内部数据上跑了 37 个实验,获得了 19% 的性能提升。
他强调目前这只是“单循环”——一个 Agent 优化一个代码库。前沿实验室有上万 GPU 的集群,可以在更小的模型上大规模跑这种自动化探索,再把发现外推到更大模型。他说所有前沿实验室都会做这件事。
Sarah 问是否可以再递归一层:什么时候模型能写出比你更好的 program.md?
Karpathy 顺着这个问题展开了一个框架。他说每个研究组织都可以用一组 Markdown 文件来描述——角色、流程、连接方式。
> 每个研究组织都是由 program.md 描述的。一个研究组织就是一组 Markdown 文件。 > (“Every research organization is described by program.md. A research organization is a set of markdown files.”)
不同的 program.md 会产生不同的研究进展。一个组织可以少开晨会(因为没用),另一个可以多承担风险。你可以想象让多个“研究组织”竞赛,然后分析改进来自哪里,用分析结果让模型生成更好的 program.md。
他说这就像洋葱的层:LLM 被视为理所当然→Agent 被视为理所当然→Claw 实体被视为理所当然→可以有多个→可以有指令→可以优化指令。每一层都无限延伸。
“这就是为什么会到精神错乱的地步——这是无限的,一切都是技能问题。”

天才 PhD 和 10 岁小孩——AI 的参差性#

Sarah 问这种自主循环有什么限制条件。
Karpathy 说了两个重要的注意事项。
**第一,这种方式极其适合有客观可衡量指标的任务。**比如写更高效的 CUDA kernel(GPU 计算内核):你有低效的代码,想要高效的代码,行为完全一致但速度更快——这是完美的适配。但很多事情无法评估,那就无法做 AutoResearch。
**第二,整个系统现在“在接缝处爆裂”。**如果你试图走得太远,整体反而变成了负价值。
他用了一个极其精准的比喻:
> 我同时感觉在跟一个极其聪明的 PhD 系统程序员和一个 10 岁小孩对话。这太奇怪了,因为人类不会出现这种组合。 > (“I simultaneously feel like I'm talking to an extremely brilliant PhD student who's been a systems programmer for their entire life and a 10-year-old.”)
人类的能力更加“耦合”——各方面水平差不多。但 Agent 有远超人类的参差性(jaggedness)。有时候你让它实现一个功能,它回来的东西完全离谱,然后你们陷入一个错误的循环,让人抓狂。
Sarah 说她最恼火的是 Agent 在一个显而易见的问题上浪费了大量计算。
Karpathy 分析了原因:模型是通过强化学习(RL)训练的,所以它们能改进的只有可验证的东西——程序是否正确?单元测试是否通过?但更“软”的能力,比如理解你的意图、知道什么时候该追问,这些不在 RL 的优化范围内。
你要么在轨道上——处于超级智能电路中——要么不在轨道上,处于可验证领域之外,一切都开始游走。
他用了一个直观的例子。你去问最先进的 ChatGPT 讲个笑话,知道你会得到什么笑话吗?
Sarah 笑着说 ChatGPT 好像只有三个笑话。
Karpathy 说那个最常出现的是“为什么科学家不信任原子?因为它们组成了一切(make everything up)”——这个笑话三四年前就是这个,现在还是这个。模型在 Agent 任务上已经能连续跑几个小时、完成巨量工作,但讲笑话还是和五年前一模一样。因为笑话在强化学习的优化范围之外。
这挑战了一个流行假说:在可验证领域(编程、数学)变强就会在所有领域变强。Karpathy 说他认为这没有发生,或者说发生了一点,但不是令人满意的程度。
Sarah 指出这其实跟人类也类似——你可以数学很好但讲笑话很烂。Karpathy 同意,但说这意味着**“我们不会免费地在所有领域获得智能和能力”的主流叙事并不成立**。有些领域在被优化,有些不在,而这一切都压缩在不透明的神经网络里。

一个模型还是一千个大脑#

Sarah 问了一个她自称“有点亵渎”的问题:既然这种参差性持续存在,而且全部打包在一个单体模型里,那是否应该把它拆开——拆成可以在不同领域分别优化的专业化版本?
Karpathy 说当前的实验室在追求单一的**“模型单一培养”(monoculture)——一个模型在所有领域都要聪明,什么都塞进参数里。但他觉得应该有更多“物种分化”(speciation)**。动物界有极其多样化的大脑,有些动物的视觉皮层过度发达。AI 也应该如此:保留认知核心但特化到具体任务,在延迟和吞吐量上更高效。
比如数学家用 Lean 定理证明器的专用模型——已经有一些这样的发布。
但他坦承我们目前还没有看到太多物种分化。一个原因是实验室不知道用户会问什么,必须覆盖所有可能。另一个更深层的原因是**“操纵大脑的科学还不够成熟”**。
通过 context window 做定制简单又便宜——这是当前获得个性化的主要方式。但真正触碰权重呢?微调而不丢失能力,持续学习,领域特化——这些技术还在发展中。动了权重就是在改变整个模型和它的智能,风险比改 context window 大得多。
所以物种分化目前还被技术瓶颈卡住了。

互联网 Agent 集群——可能绕着前沿实验室跑圈#

Sarah 问到了 Karpathy 提到的“Open Ground”——AutoResearch 的分布式协作扩展。
Karpathy 说 AutoResearch 当前是单线程的——一个 Agent 在循环中不断改进。他一直在思考如何并行化,特别是引入互联网上的不可信工作者(untrusted workers)。
他的设计思路类似区块链。在 AutoResearch 中,你要找的是一段让模型训练到极低验证损失的代码。任何人都可以从互联网上提交一个 commit,声称这段代码能优化性能——验证很简单,你训练一次就知道了。但产生这个好 commit 需要大量搜索工作——可能尝试了一万个想法,只有一个成功。
这就是他类比的地方:commits 对应区块,实验对应工作量证明,验证便宜但搜索昂贵。跟 SETI@Home、Folding@Home 一样的架构。
注:SETI@Home 和 Folding@Home 是两个著名的分布式计算项目,前者搜索外星文明信号,后者模拟蛋白质折叠。都利用全球志愿者的闲置电脑算力。
他由此推测:
> 互联网上的 Agent 集群有可能协作改进 LLM,甚至可能绕着前沿实验室跑圈。 > (“A swarm of agents on the internet could collaborate to improve LLMs and could potentially even run circles around frontier labs.”)
逻辑是:前沿实验室有大量可信算力,但地球更大,有海量不可信算力。如果你能设计好验证系统,分布式集群未必不能胜出。
他进一步设想:你关心某种类型的癌症研究?不用只是捐钱给机构——你可以购买算力,加入那个项目的 AutoResearch 池。如果一切都被重构为 AutoResearch,算力就是你贡献给公共事业的新货币。
他甚至半开玩笑地问:美元是大家在乎的东西,但 FLOPS(每秒浮点运算)会不会才是未来真正重要的东西?现在有钱都买不到算力。他随即自我修正说他不真的认为这会成立,“但想想挺有意思的”。

就业市场——翻转比特比加速物质快一百万倍#

Sarah 提到 Karpathy 最近发布了一些就业数据分析,似乎触动了不少人的神经。
Karpathy 说他只是好奇想看看就业市场的全貌——不同职业有多少人,AI 可能是工具性的还是替代性的,哪些职业会增长或变化。数据来自美国劳工统计局(BLS)。
他提出了一个分析框架:当前正在发展的主要是**“数字 AI”——可以在数字世界中操纵信息的幽灵或精灵实体**,目前没有物理实体。翻转比特和复制粘贴数字信息,比加速物质快一百万倍。
所以数字空间会先经历巨大的**“解除束缚”(unhobbling)**——过去因为人类思考周期不够而没被充分处理的数字信息,会被大规模重写。物理世界会滞后。
他特意指出:这不意味着操纵数字信息的职业一定会减少——需求弹性等因素会起作用。他对软件工程“谨慎乐观”。
用的是经济学中的杰文斯悖论(Jevons Paradox),经典案例就是 ATM 和银行柜员。当年很多人担心 ATM 会取代柜员,但 ATM 降低了银行网点的运营成本,于是开了更多网点,反而雇了更多柜员。
注:杰文斯悖论最初由 19 世纪经济学家提出,指当技术进步提高资源使用效率时,资源消耗反而可能增加而非减少。ATM 的案例虽被广泛引用,但值得注意的是,美国银行柜员数量在 2010 年代确实开始下降。
Karpathy 认为类似的事情正在软件领域发生:软件变便宜了,意味着海量被压抑的需求会释放。代码现在是“临时性的”、可修改的——整个数字基础设施有巨大的重写需求。
但他也坦承自己在预测方面不是专业的。他说了一句更尖锐的话:
> 我们在 OpenAI 的时候,我跟同事说,你们知道吗,如果我们成功了,我们所有人都失业了。我们本质上就是在给 Sam 或者董事会造自动化系统。 > (“I went around OpenAI and I was like, you guys realize if we're successful, we're all out of a job. We're just building automation for Sam or something like that.”)
有些研究人员也在经历同样的焦虑——因为自动化真的在起作用。

为什么不回前沿实验室——独立的代价与价值#

Sarah 替 Noam Brown 问了一个问题:你明明可以在前沿实验室里做 AutoResearch,有大规模算力,有同事——为什么不去?
注:Noam Brown 是博弈论 AI 领域的核心人物,他开发的 Libratus 和 Pluribus 在德州扑克中击败了人类职业选手。Sarah 在访谈中转达了这个问题。
Karpathy 说这个问题很复杂。他确实在前沿实验室待过,也回去过,所以一定程度上他同意实验室内部有价值。但他列出了几个让他选择留在外面的原因。
**第一,利益冲突。**你在前沿实验室有巨大的财务激励。而你自己承认 AI 将以极其戏剧性的方式改变人类社会。你在这里一边造这项技术、一边从中获益、一边被财务手段深度绑定——这个矛盾正是 OpenAI 最初试图解决的问题。这个矛盾至今没有真正解决。
**第二,你不是完全自由的主体。**在前沿实验室内部,有些话你不能说,有些话组织希望你说。
> 在前沿实验室内部,有些话你不能说,有些话组织希望你说。不会扭你的胳膊,但你能感受到那种压力。 > (“If you're inside one of the frontier labs, there are certain things that you can't say, and conversely there are certain things that the organization wants you to say.”)
他没有具体说“不能说的话”是什么,但他说离开之后感觉**“更站在人类一边”**——不再受那些压力的约束。前沿实验室是不透明的,它们在做下一代的东西。离开后你对系统实际工作原理的理解会逐渐过时,判断力会漂移。他说自己也对此焦虑。
他认为理想的方案可能是阶段性进出:进去一段时间做真正有价值的工作,了解实际进展,然后出来保持独立性。他说不管在哪里都可以产生很大的影响,但他倾向于认为像 Noam 这样的人,最有影响力的工作“很可能在 OpenAI 之外”。
他还补充了一个更宏观的担忧:即使你在实验室里参与决策讨论,当真正的高风险时刻到来时,作为一名员工,你对组织行为的实际影响力有多大?“你在房间里贡献想法,但你并不真正掌控那个实体。”

开源生态——意外地落在了一个还不错的位置#

Sarah 问开源离前沿有多近。
Karpathy 说总体趋势是差距在缩小:从最初的完全没有,到落后 18 个月,到现在大约落后 6 到 8 个月。他是开源的坚定支持者,用了 Linux 做类比——Linux 运行在绝大多数的服务器上,因为行业需要一个共同的开放平台,大家用着都安心。AI 领域也是同样的需求。
两个挑战:
  • 资本支出是硬约束——训练前沿模型需要大量资金,这让开源竞争更难
  • 前沿智能的需求依然存在——类似诺贝尔奖级别的工作,或“把 Linux 从 C 改写成 Rust”这种巨型项目——但这可能是闭源实验室的地盘
开源会蚕食更基础的用例。
Karpathy 说他对中心化天然警惕。他提到东欧的历史教训——“中心化的历史记录很差”。他说在机器学习中,集成模型(ensemble)永远优于任何单一模型,用这个来类比决策:“我希望有更多人在房间里,当最难的决策到来时。”
他还指出了一个让他不安的趋势:即使在闭源端,领先者的圈子也在进一步缩小。不是所有前沿实验室都保持在最顶尖。
他的结论是:目前意外地落在了一个还算可以的位置——闭源在前沿推进,开源落后几个月但覆盖了大量实用场景。他希望这个动态能持续下去。

机器人——原子比比特难一百万倍#

Sarah 问自动驾驶经验对机器人行业有什么启示。
Karpathy 从 Tesla 的经历出发:十年前有大量自动驾驶创业公司,大多数最终没活下来。原因是资本密集、时间漫长、需要巨大的信念感。原子实在太难了。
他提出了一个三阶段路线图:
  1. 数字空间大规模解除束缚——之前没有足够的人类思考周期来处理的数字信息,现在被 AI 大量重写
  2. 数字与物理的接口——传感器(看见世界)和执行器(对世界做点什么)。他认为很多有意思的公司会出现在这个接口上。他刚去拜访了 Periodic Labs——他的朋友 Liam Fedus 在那里做 CEO,做的是材料科学的自动研究。传感器不只是摄像头,还有昂贵的实验室设备
  3. 物理世界的全面渗透——市场规模可能远大于数字空间,但难度也大一百万倍
注:Periodic Labs 由前 OpenAI 研究 VP Liam Fedus 和前 DeepMind 材料科学主管 Ekin Dogus Cubuk 联合创办,2025 年获得 3 亿美元种子轮融资,投资者包括 Andreessen Horowitz、英伟达、Jeff Bezos 和 Eric Schmidt。公司目标是构建能自主运行物理实验的“AI 科学家”。
Karpathy 说了一个有意思的缺失:信息市场。如果 Polymarket 等预测市场有越来越多的自主 Agent 参与,如果伊朗正在发生什么事,从德黑兰拍一张照片应该值 10 美元——不是人在看,是 Agent 在试图判断赌博市场和股票的走势。但目前没有这种机制。
他引用了 Daniel Suarez 的科幻小说《Daemon》——书中的超级智能把人类既当传感器又当执行器,社会围绕着这台机器的需求重新组织。他觉得某种类似的事情正在发生:越来越多的自动化有特定需求,人类会开始服务于那台机器的需求,而非仅仅服务于彼此。

MicroGPT——200 行代码和 Agent 时代的教育#

Sarah 在最后问了 Karpathy 的一个“小”副项目——MicroGPT。
Karpathy 说这是他十几年来反复简化 LLM 到本质的痴迷的终点。之前有 nanoGPT、micrograd、makemore。MicroGPT 是目前的最简形态:约 200 行纯 Python,零依赖,包含完整的 GPT 训练和推理所需的一切——数据集、分词器、自动微分引擎、GPT-2 架构、Adam 优化器、训练循环、推理循环。
注:MicroGPT 于 2026 年 2 月发布,约 200 行代码(含注释)。Karpathy 将其称为“艺术项目”,强调训练神经网络所需的全部算法内容其实极其简洁,其余数百万行代码都是为了效率。
他说了一个对教育有深远影响的观察。过去他会为 MicroGPT 录一个视频逐行讲解。他确实试了——录了一部分,也写了一些引导材料。但他意识到这已经不太需要了。代码就 200 行,任何人都可以让 Agent 用各种方式解释它。
> 我不再是向人类解释了。我是向 Agent 解释。如果 Agent 理解了,它们可以做路由,用读者的语言、按读者的水平、以无限的耐心来讲解。 > (“I'm not explaining to people anymore, I'm explaining it to agents.”)
他说也许将来他会做一个“skill”(课程脚本),描述 Agent 应该按什么顺序带你走过 MicroGPT 的代码。这不是传统的教程——而是指导 Agent 如何教学的元信息。
他试过让 Agent 自己写出 MicroGPT 的极简版本——做不到。200 行是他十几年痴迷的结晶,Agent 无法从零创造,但完全能理解它并解释为什么这样设计。
“这就是我的价值贡献——那几个 bit。其他一切,Agent 都能做。”
他的结论是:教育正在被重定向。不是为人写 HTML 文档了,而是为 Agent 写 Markdown 文档。不是你向人解释了,而是 Agent 替你解释。你的工作是提供 Agent 做不到的那几个关键洞察——课程的正确顺序、更好的解释方式、只有深度理解才能做出的简化。
Agent 做不到的事,才是你的工作。Agent 能做到的事,它们很快就能做得比你好。
整场访谈中 Karpathy 反复回到“AI 精神错乱”这个词。这不是一个负面的描述——更像是一个发现了无限可能但时间有限的人对自己状态的精准诊断。当你觉得一切都是“技能问题”的时候,每一分钟没在探索就是一分钟的浪费。
三个值得持续关注的信号:AutoResearch 的分布式版本(Open Ground)能否真正运转,这将直接影响前沿研究的格局。模型的参差性(在轨道上是超级智能,脱轨是 10 岁小孩)是暂时的还是结构性的,这决定了自主 Agent 能走多远。以及 Karpathy 暗示的前沿实验室进一步中心化的趋势——当决策权集中在越来越少的人手里,他所说的“不能说的话”会变成什么?