每个基于大语言模型（LLM）构建应用的团队最终都会遇到同一堵墙。

你编写了详细的系统提示，添加了少量示例，调整了温度参数，但你的智能体仍然有30-40%的概率出错。

最糟糕的是什么？它永远不会从这些错误中学习。

微调是你突破这堵墙的方法。#

如果你正在使用GPT或Claude，你使用的模型与其他人完全相同，拥有相同的能力、相同的成本，并且没有竞争优势。

但是，拿一个小的开源模型，针对你的特定任务进行微调呢？它的表现可以超越比它大100倍的模型，而成本与延迟却只是其一小部分。

大多数开发者将微调与痛苦的设置过程联系在一起：精心整理的数据集、标注的输出、手工制作的奖励函数。

在2026年，情况已不再如此。

使用GRPO和RULER的现代微调技术已经改变了可能性的边界。你现在可以训练出真正通过经验改进的智能体，而无需编写任何奖励函数或收集任何标注示例。

本文将详细介绍具体方法。

监督微调 vs. 强化微调#

大多数开发者都了解监督微调（SFT）。你收集输入-输出对，模型学习模仿它们。

问题在于？SFT教模型说什么，而不是如何成功。

对于需要搜索、调用API并在多个步骤中进行推理的智能体来说，模仿是不够的。你希望通过试错来获得改进。

可以这样理解：

SFT = 学习教科书（记忆已知问题的答案）
RL = 在职培训（从尝试、错误和反馈中学习）

这就是强化微调（RFT）。你给模型一个奖励信号，让它自己发现最佳策略。

GRPO 的工作原理#

那么，这一切背后的算法是什么？

GRPO（组相对策略优化）是当今最流行的RFT算法。正是这个算法为DeepSeek-R1的推理能力提供了动力。

其核心思想很简单。GRPO不是训练一个单独的模型来给回答打分，而是生成多个完成结果，并让它们相互比较评分。

以下是它对每个提示的处理流程：

采样一组：从当前模型生成N个完成结果
为每个评分：奖励函数评估每次尝试
组内归一化：计算相对于组平均值的相对优势
更新模型：强化高于平均的行为，抑制低于平均的行为

GRPO只需要相对排名，而不是绝对分数。无论完成结果的得分是0.3、0.5和0.7，还是30、50和70，都无关紧要。只有排序驱动学习。

ART：智能体强化训练器 #

GRPO很强大，但你如何将其应用到现实世界的智能体中呢？

ART（智能体强化训练器）是一个由完全开源的框架，它将GRPO带到了任何Python应用中。

大多数RL框架是为简单的聊天机器人交互构建的：一个输入，一个输出，任务就完成了。真正的智能体则完全不同。它们搜索文档、调用API，并在多个步骤中进行推理后才产生答案。

ART正是为此而构建。它提供：

对工具调用和多轮对话的原生支持
与LangGraph、CrewAI和ADK的集成
训练期间高效的GPU利用率

架构#

ART分为两部分：客户端和后端。

客户端是你的智能体代码所在之处。它向后端发送推理请求，并将每个动作记录到一个轨迹（Trajectory）中，即一次智能体运行的完整历史。

后端是繁重工作发生的地方。它运行vLLM进行快速推理，并运行基于Unsloth的GRPO进行训练。每个训练步骤后，一个新的LoRA检查点会自动加载到推理服务器中。

完整的训练循环如下：#

客户端发送推理请求
后端生成模型输出
智能体在环境中采取行动（工具调用、搜索等）
环境返回奖励
训练器通过GRPO更新模型
一个新的LoRA检查点加载到推理服务器中
重复，每个循环后模型都比之前更好一点

RULER：告别手动编写奖励函数#

这是大多数人最头疼的部分。

定义一个好的奖励函数一直是RL中最难的部分。训练一个邮件智能体需要标注正确答案。训练一个代码智能体需要测试套件。每一个都是独特的工程项目。

RULER（相对通用LLM引导奖励）完全消除了这个瓶颈。它使用一个LLM作为评判者来比较多个智能体轨迹并对其进行排名，无需任何标注数据。

它之所以有效，基于两个关键见解：

问LLM“给这个打0-10分”会产生不一致的结果
问“这4次尝试中，哪一个最好地实现了目标？”要可靠得多

而且，由于GRPO只需要相对分数，绝对值无论如何都无关紧要。

这个过程分为三步：

为一个场景生成N条轨迹
将它们传递给LLM评判者，评判者为每条轨迹从0到1打分
直接将这些分数用作GRPO中的奖励

无需编写奖励函数。无需收集标注数据。

综合应用：一个实际例子#

我整理了一个完全可运行的笔记本，它通过使用ART进行强化学习，训练一个3B模型来掌握如何使用任何MCP服务器。

只需提供一个MCP服务器URL，这个笔记本就会：

查询服务器的工具
生成一组使用这些工具的输入任务
使用自动RULER评估在这些任务上训练模型

你可以在ART的GitHub仓库中找到更多示例来适应和入门。

前往仓库 →

（别忘了点个星标 🌟）

感谢阅读！

Agent Cookbook

如何在2026年微调大语言模型

微调是你突破这堵墙的方法。#

监督微调 vs. 强化微调#

GRPO 的工作原理#

ART：智能体强化训练器 #

架构#

完整的训练循环如下：#

RULER：告别手动编写奖励函数#

综合应用：一个实际例子#

如何在2026年微调大语言模型

微调是你突破这堵墙的方法。#

监督微调 vs. 强化微调#

GRPO 的工作原理#

ART：智能体强化训练器#

架构#

完整的训练循环如下：#

RULER：告别手动编写奖励函数#

综合应用：一个实际例子#

ART：智能体强化训练器 #