
OpenAI 的 GPT-5.1 是一个痴迷的研究者,Cline 赋予它焦点
在过去的几周里,我们在 Cline 内部使用 GPT-5.1 时,观察到了一些意想不到的变化。编码代理已经发展多年,从简单的代码片段生成器进步到结构化、多阶段的协作器。GPT-5.1 代表了一个显著的转变。它不仅是一个更强大的模型,它的行为方式和思考方式也不同,扩展了长期编码工作可以合理实现的目标。一旦我们理解了模型试图做什么,我们就调整了 Cline 来帮助它做得更好。
模型在行动前会绘制整个蓝图
在我们测试的早期,很明显 GPT-5.1 以不同寻常的深度来处理问题。早期的模型通常只收集足够继续前进的上下文。而 GPT-5.1 会继续阅读、追踪和合成,直到它理解了整个领域,即使对于只需要进行小修补的任务也是如此。
它的摘要非常详尽,有时比严格必要的内容还要详细,但始终连贯且基于代码库。一开始看起来像是过度思考的东西,结果证明是有条理的调查,对于复杂的变更具有实际益处。然而,这种深度也意味着当它不受约束时,模型可能会漂移到不必要的探索中。这就是结构变得至关重要的地方。
结构将本能转化为纪律
GPT-5.1 以工程师的心态对结构做出反应。规格、分阶段的工作流程、待办事项列表和其他机械指南成为它用来组织研究和执行的脚手架。
焦点链(Focus Chain)证明特别有价值。通过维护一个在每六轮后返回到上下文的持久待办事项列表,模型获得了一个稳定的锚点,防止了范围蔓延,同时保留了其深度研究的优势。它不再分支到不相关的调查中,而是保持与当前任务的一致性。
这种强大的调查本能和可靠的结构指导相结合,使得 GPT-5.1 在长期、多阶段的工程工作中具有非凡的能力。
GPT-5.1 真正擅长的地方:计划模式和 /deep-planning
GPT-5.1 痴迷于研究的特性使其在将规划与执行分离的工作流程中表现出色。当您使用/deep-planning时,模型会系统地探索您的代码库并生成架构蓝图式的实现计划——包括精确的文件路径、函数签名和执行序列。
关键洞察:GPT-5.1 的彻底性,对于快速修复来说可能显得多余,但对于复杂功能来说却是一种超能力。首先进入计划模式,让它进行研究和架构设计,然后切换到执行模式,并带有全面的计划。这种工作流程将模型的自然倾向转化为结构化、可靠的执行。
调整 Cline 以发挥 GPT-5.1 的优势
一旦我们理解了它的倾向,我们就重新设计了 Cline 的代理架构以放大其优势。
我们重新设计了代理提示词,使其更加明确和以执行为中心。更新后的角色提供了关于如何使用前导词、如何让用户保持知情以及如何迭代工作而不是尝试整体更改的清晰指导。计划与执行的划分变得更加清晰,对何时保持在计划模式以及何时请求执行有更严格的标准。
我们还加强了工具规范,以更好地匹配在实时工作空间中操作的现实。许多长期存在的怪癖,例如过早使用终端、不精确的参数和含糊不清的命令,通过收紧关于何时以及如何调用工具的提示得到了解决。与早期的模型不同,GPT-5.1 只需要很少的例子就能内化这些规则。通常一个包含一个例子的简单句子就足以产生一致、可靠的行为。
为了支持其深度研究的倾向,我们将 Cline 的工作流程扩展到五个阶段
- 用于大局上下文的静默阅读
- 用于精细细节的静默终端调查
- 有针对性的澄清问题
- 一份书面的、有范围的实现计划
- 一个独立的执行任务
分离这两个调查阶段允许 GPT-5.1 追求它自然想要的广度,而不会让用户不知所措或发出过早的工具调用。由此产生的计划比我们用早期前沿模型观察到的任何计划都更丰富、更精确、更基于上下文。
将长期任务转化为构建模块
GPT-5.1 与 Cline 自然配对。这两个系统都重视结构、清晰度和持续推理。启用焦点链后,GPT-5.1 在漫长的工作序列中保持方向,从研究干净地过渡到实现,并生成经得起时间考验的全面执行计划。
尽管我们继续为较小或常规任务完善工作流程,但 GPT-5.1 已经提供了我们所见过的最强大的编码代理性能。它的深度、纪律和稳定性相结合,将长期任务转化为实现更大目标的垫脚石。这一转变开启了以前遥不可及的雄心壮志的工作的大门,我们很高兴看到用户用它来构建什么。
入门
GPT-5.1 和 GPT-5.1-codex 今天即可通过 Cline 和 OpenAI 提供商在 Cline 中使用。我们建议启用原生工具调用以获得最佳结果。
- GPT-5.1 提供 272K 的上下文窗口
- GPT-5.1-codex 将其扩展到 400K 并针对编码任务进行了优化
- 定价:每百万输入 token $1.25,每百万输出 token $10


