如何将你的Claude技能提升10倍（使用Karpathy的自动研究方法）

你的Claude技能可能有30%的时间会失败，而你甚至没有察觉。

我构建了一种方法，可以自动持续改进任何技能，在这篇文章中，我将向你展示如何亲自运行它。

你只需启动它，代理就会在无需你干预的情况下，反复测试和优化技能。

我的落地页文案技能，通过质量检查的比例从56%提升到了92%。整个过程完全无需手动操作。

代理只是不断自行测试并优化提示词。

以下是具体方法和我构建的完整技能，你可以直接应用到自己的任务中：

P.S. 如果你想每周收到更多类似这样的AI工作流，请加入34,000名免费订阅读者：aisolo.beehiiv.com/subscribe

方法来源#

Andrej Karpathy（OpenAI联合创始人、特斯拉前AI负责人、提出“氛围编程”概念的人）发布了一种名为“自动研究”的方法。

其理念很简单：与其手动改进某件事，不如让AI代理在循环中为你完成。

它尝试一个微小的改动。检查结果是否变得更好。如果变好就保留，否则就丢弃。

然后它再次执行。如此循环。

他将其用于机器学习代码。但这种方法适用于任何可以衡量和改进的事物。

包括你在Claude中构建的技能。

我采纳了他的方法，并将其转化为一个能在Claude Code和Cowork中运行的技能。我只需在我的设置中对任何其他技能运行它。

我只需说“对我的落地页技能运行自动研究”，它就会处理整个过程。

一个循环如何自动改进你的技能#

可以这样理解。

你有一个食谱，10次中有7次效果很好。另外3次，总有些不对劲。可能是酱汁太淡，也可能是调味不对。

与其从头重写整个食谱，你只改变一种配料。你用这个改动烹饪10次。

效果变好了吗？保留这个改动。
效果变差了吗？换回原来的配料。

然后你改变下一个东西。再烹饪10次。更好还是更差？保留还是还原。

经过50轮这样的操作，你的食谱在10次中有9.5次都能成功。

这正是自动研究对你的技能所做的事情。

“食谱”就是你的技能提示词。
“烹饪”就是运行技能。
“品尝”就是对输出进行评分。

你唯一需要提供的就是评分标准。

告诉代理“好”具体意味着什么的检查清单#

你给代理一个简单的检查清单，定义什么是“好”。这是你在整个过程中唯一需要做的事情。

你只需使用一个简单的“是/否”问题清单。

每个问题检查输出的一个具体方面。通过或不通过。仅此而已。

代理使用这个检查清单对每个输出进行评分，这些分数告诉它所做的改动是有帮助还是有害。

可以把它想象成老师用检查清单批改论文。

但不是“给写作质量打1-10分”（这很模糊且每次标准不同），检查清单上的每个项目都是一个清晰的“是”或“否”：

学生是否包含了论点陈述？是或否。
每个来源都引用了吗？是或否。
是否少于5页？是或否。

你可以用这个检查清单批改100篇论文，每次都得到一致的结果。

这里也是同样的思路。对于一个落地页文案技能，你的检查清单可能如下：

“标题是否包含具体数字或结果？”（捕捉像“发展你的业务”这样模糊的标题）
“文案是否避免了‘革命性的’、‘协同效应’、‘前沿的’、‘下一级的’等流行语？”
“行动号召是否使用了具体的动词短语？”（捕捉像“了解更多”或“点击这里”这样薄弱的行动号召）
“第一行是否指出了具体的痛点？”（捕捉像“在当今快节奏的世界中...”这样通用的开头）
“总文案是否少于150字？”（捕捉冗长、让读者失去兴趣的页面）

你不需要自己琢磨这些。当你启动自动研究时，代理会引导你完成。

它会询问好的标准是什么，帮助你将模糊的感觉转化为具体的“是/否”问题，甚至在你已有风格指南时主动从中提取。

3-6个问题是理想范围。超过这个数量，技能就会开始“应付”检查清单（就像学生死记硬背答案而不理解材料一样）。

如何运行它#

步骤1：下载技能。点击这里获取。将其放入你在Claude Code或Cowork中的技能文件夹。

步骤2：选择一个要改进的技能。说“对我的[技能名称]技能运行自动研究”。选择最让你头疼的那个。那个一半时间输出很棒，另一半时间输出很糟糕的技能。

步骤3：代理会询问你3件事。要优化哪个技能。使用什么测试输入（例如“为AI生产力工具撰写落地页文案”）。以及你的检查清单问题是什么。

步骤4：它运行你的技能并显示你的起始分数。这是基准线。我的落地页技能开始时是56%。模糊的标题、流行语堆砌、薄弱的行动号召。超过一半的检查项都失败了。

步骤5：它在你的浏览器中打开一个实时仪表板。分数图表随时间上升。每个检查清单问题的通过/失败细分。记录每次尝试的更改日志。每10秒自动刷新。

步骤6：走开。代理进入循环。分析失败的原因。对技能提示词进行一个微小的改动。再次测试。如果分数上升则保留改动，如果下降则撤销。

然后再次执行。如此循环。它会自主持续运行，直到你停止它，或者连续三次达到95%以上。

你可以观看仪表板，或者完全走开。它无需你干预即可运行。并且它会将改进后的版本保存为单独的文件，因此你的原始技能保持不变。

我的落地页技能发生了什么变化#

我在我的落地页文案技能上运行了它。结果如下：

56% → 92%。4轮改动。3个保留，1个撤销。

以下是代理实际在我的技能提示词中更改的内容：

为最常见的失败添加了具体规则：“你的标题必须包含具体数字或结果。切勿使用像‘改变你的业务’这样模糊的承诺。”
添加了禁用流行语列表：“切勿使用：革命性的、前沿的、协同效应、下一级的、改变游戏规则的、利用、解锁、改变。”
添加了一个优秀落地页部分的示例，其中突出显示了痛点开头和行动号召，这样技能就能看到好的标准是什么，而不是猜测。
尝试了更严格的字数限制，但撤销了，因为文案变得太单薄，行动号召受到影响。（系统能捕捉到那些孤立看似乎是改进，但损害整体输出的改动。）

完成后，我得到了：

改进后的技能，单独保存（原始技能保持不变，以防你想恢复）
显示每轮分数的结果日志
解释每次尝试的更改、代理尝试的原因以及是否有所帮助的更改日志
原始技能的备份，以防我想回退

那个更改日志可能是最有价值的部分。它完整记录了该特定技能哪些有效、哪些无效。

当未来出现更智能的模型时，你可以把那个更改日志交给它们，它们就能从上一个代理停止的地方继续。

这适用于远不止技能的范围#

这种方法适用于任何你可以评分的事物。

网站速度：有人将此应用于页面加载时间。改变一件事，测量速度，保留或还原。在67轮中从1100毫秒降低到67毫秒。
冷启动外联：定义你的检查清单：“是否提及潜在客户的公司？是否少于75字？是否以具体问题结尾？”让代理运行50个变体。
新闻简报开头：“开头是否包含个人细节？”和“是否避免了陈词滥调？”让代理自动优化你的写作。
任何你反复使用的提示词

如果你能评分，你就能对它进行自动研究。

去运行它吧#

选择你表现最差的技能。启动自动研究。回来时，你将拥有一个真正有效的技能。

点击这里下载技能（已上传至Dropbox）或查看我的GitHub这里

P.S. 如果你想要更多能帮助你获得更多客户、更多关注、完成更多工作（而无需增加工作时间）的AI工作流，我每周会免费发送给34,000名读者。

加入时，你还会获得免费的Claude Cowork大师课程：aisolo.beehiiv.com/subscribe

Agent Cookbook

如何将你的Claude技能提升10倍（使用Karpathy的自动研究方法）

方法来源#

一个循环如何自动改进你的技能#

告诉代理“好”具体意味着什么的检查清单#

如何运行它#

我的落地页技能发生了什么变化#

这适用于远不止技能的范围#

去运行它吧#

相关讨论#

我即将举办一场深入的Claude Cowork研讨会，我将教你如何…#

在此处找到他的GitHub仓库#

@henny_dot_ai https://t.co/OyrTloXQap#