
Cline 与我们对开源的承诺 - zAI GLM 4.6
专为编码设计的大型语言模型(LLM)在代理框架中有效运行所需结构化指导的程度各不相同。_通用_前沿模型在历史上需要大量的提示才能理解作为 AI 编码代理的行为方式。这是因为通用模型的原生环境是**世界**。相比之下,对于专业编码模型,原生环境是你的**代码库**。对于像 **GLM-4.6** 这样的模型,围绕编码代理行为的上下文大多是隐性的,将其包含在系统提示中会显得多余。
在 Cline,我们发现 GLM-4.6 在给定**更短、更明确、更精确**的指令时表现最佳。作为我们对开源生态系统承诺的一部分,我们投入了时间和 token 来调整 Cline 的系统提示,以实现兼容性,使用户能够以与专有模型相同的可靠性探索高性能的开源模型。
通过精简实现卓越
GLM-4.6 表现出对代码编辑工作流和工具语义的强烈内在理解。这使我们能够删除一般行为指导,专注于**技术精确性**。
- 简洁的结构。删除了多余的叙述性文本。保留的内容侧重于参数定义、执行顺序和规范示例。
- 减少行为开销。我们删除了 GLM-4.6 已经理解的通用行为指令,例如“使用工具高效完成任务”。这使得提示能够专注于特定任务的执行细节,而不是重复基本代理行为。
- 明确的调用规则。早期测试显示模型倾向于在不适当的上下文中或使用幻觉参数调用工具。收紧对调用范围的提示在很大程度上解决了这种行为。
- 严格的顺序遵守。为确保模型在修改前始终收集足够的上下文,我们强调了一个结构化的工作流:*探索 → 总结 → 实施*。这强化了在代码更改之前进行一致推理。
这些及相关调整使 Cline 的 GLM 系统提示从 **56,499** 个字符减少到 **24,111** 个字符——**减少了 57%**。同时提高了延迟,降低了 token 成本,并提高了任务成功率。
开源推理并非易事:提供商质量差异
在 GLM-4.6 的初步评估中,我们遇到了几个阻碍其在 Cline 中稳定执行的破坏性行为。工具调用偶尔会因幻觉或格式错误的参数而失败,在其他情况下则在推理跟踪中而不是在完成中发出。一些响应还包含模型未被提示使用的虚假 <think> 标签和其他内容。
左:GLM-4.6 的 :exacto 变体;右:将工具调用放在思考标签中的常规 GLM-4.6 版本
虽然这些问题暴露了 Cline 自身工具执行层的一个小错误(一线希望),但它们也凸显了一个更深层次的问题:提供商层面的推理差异。当由不同的提供商托管时,同一模型产生了截然不同的输出,从完全功能到完全无法使用的生成。对于 GLM-4.6 而言,这些差异并非准确性的微小变化;它们决定了模型是否能够在 Cline 的代理框架内运行。
在解决这些问题的同时,OpenRouter 推出了新的 **:exacto** 端点,描述为将请求路由到“具有可衡量的更好工具使用成功率”的推理后端。当时,我们正处于完善 Cline GLM-4.6 提示的中途,因此该发布非常及时,其影响立竿见影。在 :exacto 之前,通过 OpenRouter 运行 GLM-4.6 经常导致工具调用在推理跟踪中发出、幻觉参数和其他结构性故障。切换到 :exacto 后,这些问题消失了:工具调用正确执行,模型专注于编码任务本身。GLM-4.6 从间歇性损坏、经常无法使用的状态转变为稳定且高性能的状态。
Cline 团队成员对多个提供商进行了比较分析,发现未知的端点质量和可疑的量化策略是主要区别因素。较低量化或激进优化的端点经常在工具调用中引入结构性损坏。当他们的(也是开源的)模型报告此问题时,模型实验室 Moonshot 发布了分析。社区中的其他人也观察到了类似的结果,一些新兴提供商甚至宣传路由策略旨在将请求导向更高质量的推理端点。OpenRouter 的 :exacto 声称解决了糟糕的端点性能,但没有说明原因。另一种解决方案是在本地或云中运行自己的推理,这对于注重安全和质量的团队来说是一个有吸引力的选择。
责任
在企业级编码代理中支持开源模型,不仅仅是选择要运行哪个模型。它取决于精确的提示、严格的评估和高完整性的推理基础设施。GLM-4.6 在 Cline 中的集成表明,当周围的系统(提示设计、路由和验证)经过精心设计时,开源模型可以提供稳定、高吞吐量的编码性能。
然而,一些推理端点的不一致或误导性性能对开源 AI 生态系统构成了实质性风险。当用户遇到托管同一模型的提供商之间存在巨大差异时,它会侵蚀对模型本身的信心,而不是对基础设施的信心。随着时间的推移,这会损害与专有替代方案竞争的开源系统的集体可信度和感知成熟度。
Cline 的立场是,可靠性必须是模型开发人员、托管提供商和下游集成商的共同责任。量化设置、吞吐量权衡和观察到的行为差异的透明报告应成为标准做法。过度量化或优化会降低推理质量,可能会为某些人带来更大的利润,但会削弱开源模型竞争所需的更广泛信任,并希望为所有人带来繁荣。
我们的目标是看到开源和专有研究工作都取得成功。前沿和开源倡议之间的良性竞争加速了技术进步,确保了模型设计和治理的多样性。维持这种平衡取决于一致、可验证的推理质量。当开发人员选择开源模型时,他们不仅应该信任权重,还应该信任为它们服务的_基础设施_。
使用开源模型和 Cline 最大化结果
通过使用文件提及、深度规划和定义明确的任务计划为模型提供清晰的方向,以确保它有足够的上下文来取得成功。尽管 Cline 能够自主探索,但你对项目结构和意图的理解可以显著提高它对代码库推理的有效性。通过尽早将模型引向相关文件和实施细节,你为准确编辑奠定了更坚实的基础,并减少了后期过程中出现不一致更改的可能性。
使用新模型(无论是开源还是专有)时,最好暂时禁用前几个任务的自动批准,并密切审查每个操作。这使你能够观察模型如何解释你的请求、它做出了哪些假设以及它如何处理不熟悉的模式或工具行为。熟悉其响应风格和决策倾向将帮助你在问题影响代码库之前识别潜在问题。随着时间的推移,这种理解使你能够更有效地定制提示,提高可靠性,并更好地利用每个模型的优势。
亲自试用 GLM-4.6(和其他开源模型),并向 Cline 社区分享建设性反馈。特定模型的提示是一个持续的开发领域,来自真实用户的见解对于完善 Cline 与开源模型交互方式至关重要。每个新模型都会引入自己的响应模式、推理风格和对指令措辞的敏感性,所有这些都只有通过重复的实际使用才能变得更清晰。通过报告成功、失败和意外行为,用户有助于为所有人塑造一个更强大的集成管道。识别和分享这些细微差别不仅加速了 Cline 模型适配器的改进,还有助于更广泛地了解如何优化开源模型以用于代理工作流。
为了在任何用例中从开源模型获得最佳性能,请使用具有经过验证的量化质量或首选路由的端点,并避免那些持续产生不良结果的端点。或者更简单地,让我们为你或你的团队完成这项工作。
结果:开源模型正逐步实现对等
- 所有 GLM-4.6 推理路由上的稳定工具执行
- 降低延迟和 token 使用,且不损失推理质量
- 在多文件、工具繁重的任务上成功率显著提高
通过精炼的系统提示、结构化的工作流执行以及使用 OpenRouter **:exacto** 等经过验证的推理端点,我们使用 GLM-4.6 在稳定性和吞吐量方面取得了可衡量的改进。同样,对 Qwen3 Coder、DeepSeek 和其他开源模型的增强支持也即将推出。这些更改显著提高了开源模型的可靠性,使它们更接近专有替代方案的对等水平。Cline 推理用户可以立即利用这些改进。
作为开源的支持者和可访问、不断发展的 AI 的倡导者,我们相信智能工具的未来取决于一个强大且可持续的开放生态系统。能力、可负担性和透明度的进步都源于这个社区的健康。我们致力于尽自己的一份力量,你也可以。使用开源模型,分享你的经验,并通过对话和反馈帮助完善技术。我们可以共同推动开放 AI 向前发展,并让所有人都能享受到其益处。


