技术

Fine-Tuning

在你自己的示例上继续训练模型以改变它的行为，这对于风格和格式是正确的工具，而对于注入最新事实则是错误的工具。

最近审阅: 2026-07-29 审阅人Kevin Riedl wiki ↗

Fine-Tuning 拿一个预训练模型，在一组精选的你自己的示例上进一步训练它，调整模型权重，使它倾向于你所演示的行为。你用它来固化一致的语气、特定的输出格式、领域词汇，或基础模型处理得笨拙的某项任务。它改变的是模型如何回应，而不是它能访问哪些事实。

真正要紧的决策是 Fine-Tuning 与 RAG 之争，而人们常常把它弄反。RAG 通过从你的数据中检索，在运行时注入最新的、会变化的事实，所以答案只和你最后一次更新文档一样新。Fine-Tuning 教授持久的行为，但把知识冻结在训练时刻，所以当你的事实会变化时它就是错误的工具，它也不能可靠地阻止模型编造东西，因为幻觉是靠接地来减少的，而不是靠微调。经验法则：为形式而调，为事实而取。许多真实系统两者都用，一个经过微调、以你自家风格回答的模型，再由检索为实时数据提供依据。

成本现实没有过去那么吓人，但依然真实。你需要一个干净、带标注的数据集（通常是数百到数千个示例）、训练运行本身，以及每当基础模型改进或你的需求变化时重新微调的持续成本。最后这项成本是团队会忘记的那一项。Fine-Tune 不是一次性项目，而是一项维护承诺。

如果需要一条当前且低成本的实施路线，请阅读用 Unsloth 和免费 Colab 微调 Gemma 4 的实战指南。它涵盖浏览器试点、资源限制、评测、许可证、导出以及进入生产前的差距。

Fine-Tuning 彻底取胜的场景，举个实际例子：一家公司需要在数百万次调用中，让每一次模型回应都返回严格符合某个内部 schema 的 JSON，并带有一种特定的、简洁的自家风格。Prompting 大多数时候能做到，但偶尔一次格式错误的回应就会弄坏下游系统，而把整份风格指南和 schema 塞进每个 Prompt，又会在每次调用上烧掉 token。一次微调把格式和语气固化进模型权重，于是这些指令不必再在上下文里重复，在那个调用量级上，回应既更可靠、单次又更便宜。那就是甜蜜点：持久的行为、高调用量，以及一种 Prompting 始终无法稳定拿下的格式。

Fine-Tuning 什么时候彻底取胜？当 Prompting 加检索无法可靠地产出你所需的格式或行为，而你又有足够多高质量的示例去教它时。拿不准时，先把 Prompting 和 RAG 用尽，因为它们改起来更便宜。我们在人工智能下做出这个自建还是微调的判断。

Fine-Tuning 与 RAG，我该选哪个？ +

为形式而调，为事实而取。Fine-Tuning 改变模型的行为方式（语气、格式、任务）。RAG 在运行时注入最新事实。如果你的数据经常变化，你需要的是 RAG，而不是把知识冻结的 Fine-Tune。

Fine-Tuning 要花多少钱？ +

比训练运行本身所暗示的更多。要为构建一个干净的带标注数据集、训练本身，以及每当基础模型或需求变化时重新微调的经常性成本做预算。维护是团队低估的那一部分。

什么时候 Fine-Tuning 是错误的选择？ +

当你需要答案中包含最新或频繁变化的事实时。Fine-Tuning 在训练时刻把知识固化进去。对于实时数据，使用检索。如果 Prompting 和 RAG 已经能更便宜地达到目的，它也是错误的选择。

常见问题