初级
如何将你的Claude技能提升10倍(使用Karpathy的自动研究方法)
如何将你的Claude技能提升10倍(使用Karpathy的自动研究方法)
如何将你的Claude技能提升10倍(使用Karpathy的自动研究方法)#
你的Claude技能可能有30%的时间会失败,而你甚至没有察觉。
我构建了一种方法,可以自动持续改进任何技能,在这篇文章中,我将向你展示如何亲自运行它。
你只需启动它,代理就会在无需你干预的情况下,反复测试和优化技能。
我的落地页文案技能,通过质量检查的比例从56%提升到了92%。整个过程完全无需手动操作。
代理只是不断自行测试并优化提示词。
以下是具体方法和我构建的完整技能,你可以直接应用到自己的任务中:
P.S. 如果你想每周收到更多类似这样的AI工作流,请加入34,000名免费订阅读者:aisolo.beehiiv.com/subscribe
方法来源#
Andrej Karpathy(OpenAI联合创始人、特斯拉前AI负责人、提出“氛围编程”概念的人)发布了一种名为“自动研究”的方法。
其理念很简单:与其手动改进某件事,不如让AI代理在循环中为你完成。

它尝试一个微小的改动。检查结果是否变得更好。如果变好就保留,否则就丢弃。
然后它再次执行。如此循环。
他将其用于机器学习代码。但这种方法适用于任何可以衡量和改进的事物。
包括你在Claude中构建的技能。
我采纳了他的方法,并将其转化为一个能在Claude Code和Cowork中运行的技能。我只需在我的设置中对任何其他技能运行它。
我只需说“对我的落地页技能运行自动研究”,它就会处理整个过程。
一个循环如何自动改进你的技能#
可以这样理解。
你有一个食谱,10次中有7次效果很好。另外3次,总有些不对劲。可能是酱汁太淡,也可能是调味不对。
与其从头重写整个食谱,你只改变一种配料。你用这个改动烹饪10次。
- 效果变好了吗?保留这个改动。
- 效果变差了吗?换回原来的配料。
然后你改变下一个东西。再烹饪10次。更好还是更差?保留还是还原。
经过50轮这样的操作,你的食谱在10次中有9.5次都能成功。
这正是自动研究对你的技能所做的事情。
- “食谱”就是你的技能提示词。
- “烹饪”就是运行技能。
- “品尝”就是对输出进行评分。
你唯一需要提供的就是评分标准。
告诉代理“好”具体意味着什么的检查清单#
你给代理一个简单的检查清单,定义什么是“好”。这是你在整个过程中唯一需要做的事情。
你只需使用一个简单的“是/否”问题清单。
每个问题检查输出的一个具体方面。通过或不通过。仅此而已。
代理使用这个检查清单对每个输出进行评分,这些分数告诉它所做的改动是有帮助还是有害。
可以把它想象成老师用检查清单批改论文。
但不是“给写作质量打1-10分”(这很模糊且每次标准不同),检查清单上的每个项目都是一个清晰的“是”或“否”:
- 学生是否包含了论点陈述?是或否。
- 每个来源都引用了吗?是或否。
- 是否少于5页?是或否。
你可以用这个检查清单批改100篇论文,每次都得到一致的结果。
这里也是同样的思路。对于一个落地页文案技能,你的检查清单可能如下:
- “标题是否包含具体数字或结果?”(捕捉像“发展你的业务”这样模糊的标题)
- “文案是否避免了‘革命性的’、‘协同效应’、‘前沿的’、‘下一级的’等流行语?”
- “行动号召是否使用了具体的动词短语?”(捕捉像“了解更多”或“点击这里”这样薄弱的行动号召)
- “第一行是否指出了具体的痛点?”(捕捉像“在当今快节奏的世界中...”这样通用的开头)
- “总文案是否少于150字?”(捕捉冗长、让读者失去兴趣的页面)
你不需要自己琢磨这些。当你启动自动研究时,代理会引导你完成。
它会询问好的标准是什么,帮助你将模糊的感觉转化为具体的“是/否”问题,甚至在你已有风格指南时主动从中提取。
3-6个问题是理想范围。超过这个数量,技能就会开始“应付”检查清单(就像学生死记硬背答案而不理解材料一样)。
如何运行它#
步骤1:下载技能。点击这里获取。将其放入你在Claude Code或Cowork中的技能文件夹。
步骤2:选择一个要改进的技能。说“对我的[技能名称]技能运行自动研究”。选择最让你头疼的那个。那个一半时间输出很棒,另一半时间输出很糟糕的技能。
步骤3:代理会询问你3件事。要优化哪个技能。使用什么测试输入(例如“为AI生产力工具撰写落地页文案”)。以及你的检查清单问题是什么。
步骤4:它运行你的技能并显示你的起始分数。这是基准线。我的落地页技能开始时是56%。模糊的标题、流行语堆砌、薄弱的行动号召。超过一半的检查项都失败了。
步骤5:它在你的浏览器中打开一个实时仪表板。分数图表随时间上升。每个检查清单问题的通过/失败细分。记录每次尝试的更改日志。每10秒自动刷新。
步骤6:走开。代理进入循环。分析失败的原因。对技能提示词进行一个微小的改动。再次测试。如果分数上升则保留改动,如果下降则撤销。
然后再次执行。如此循环。它会自主持续运行,直到你停止它,或者连续三次达到95%以上。
你可以观看仪表板,或者完全走开。它无需你干预即可运行。并且它会将改进后的版本保存为单独的文件,因此你的原始技能保持不变。
我的落地页技能发生了什么变化#
我在我的落地页文案技能上运行了它。结果如下:
56% → 92%。4轮改动。3个保留,1个撤销。
以下是代理实际在我的技能提示词中更改的内容:
- 为最常见的失败添加了具体规则:“你的标题必须包含具体数字或结果。切勿使用像‘改变你的业务’这样模糊的承诺。”
- 添加了禁用流行语列表:“切勿使用:革命性的、前沿的、协同效应、下一级的、改变游戏规则的、利用、解锁、改变。”
- 添加了一个优秀落地页部分的示例,其中突出显示了痛点开头和行动号召,这样技能就能看到好的标准是什么,而不是猜测。
- 尝试了更严格的字数限制,但撤销了,因为文案变得太单薄,行动号召受到影响。(系统能捕捉到那些孤立看似乎是改进,但损害整体输出的改动。)
完成后,我得到了:
- 改进后的技能,单独保存(原始技能保持不变,以防你想恢复)
- 显示每轮分数的结果日志
- 解释每次尝试的更改、代理尝试的原因以及是否有所帮助的更改日志
- 原始技能的备份,以防我想回退
那个更改日志可能是最有价值的部分。它完整记录了该特定技能哪些有效、哪些无效。
当未来出现更智能的模型时,你可以把那个更改日志交给它们,它们就能从上一个代理停止的地方继续。
这适用于远不止技能的范围#
这种方法适用于任何你可以评分的事物。
- 网站速度:有人将此应用于页面加载时间。改变一件事,测量速度,保留或还原。在67轮中从1100毫秒降低到67毫秒。
- 冷启动外联:定义你的检查清单:“是否提及潜在客户的公司?是否少于75字?是否以具体问题结尾?”让代理运行50个变体。
- 新闻简报开头:“开头是否包含个人细节?”和“是否避免了陈词滥调?”让代理自动优化你的写作。
- 任何你反复使用的提示词
如果你能评分,你就能对它进行自动研究。
去运行它吧#
选择你表现最差的技能。启动自动研究。回来时,你将拥有一个真正有效的技能。
P.S. 如果你想要更多能帮助你获得更多客户、更多关注、完成更多工作(而无需增加工作时间)的AI工作流,我每周会免费发送给34,000名读者。
加入时,你还会获得免费的Claude Cowork大师课程:aisolo.beehiiv.com/subscribe
相关讨论#
我即将举办一场深入的Claude Cowork研讨会,我将教你如何…#
https://x.com/itsolelehmann/status/2033943462601449550
我即将举办一场深入的Claude Cowork研讨会,我将教你如何利用它来获得相当于一个年薪50万美元营销团队的产出。
上次有180人参加
你可以在此预注册以预留名额(无需付款):
https://t.co/dCh9V7FWgF
在此处找到他的GitHub仓库#
https://x.com/itsolelehmann/status/2033955085848400031
https://t.co/Zv5C1mXput
@henny_dot_ai https://t.co/OyrTloXQap#
https://x.com/itsolelehmann/status/2034172778883014891
无文本或媒体。