跑通一个 Agent Demo 容易,把它做成可用产品要难十倍。这不是模型本身的问题,而是工程的问题。
上下文是地基
Agent 的能力上限,往往不是模型决定的,而是上下文决定的。能不能精准地把”现在该让模型知道什么”放进 prompt,决定了 Agent 是否真的”懂业务”。
工具是手
工具调用看似只是个 schema,但真正难的是:
- 工具命名和描述要”模型友好”
- 失败要可恢复,而不是直接抛错给用户
- 边界要清晰,宁可拒绝执行,也不要瞎跑
评估是天花板
没有评估集就没有迭代。无论是回归用例、人审样本,还是在线 AB,至少要有一个稳定的衡量手段,否则版本越多越焦虑。
可观测性是续命药
Trace、token 用量、工具调用链、失败重试……不打日志的 Agent 一旦上线就是黑盒。出问题想复盘,连”它刚才在想什么”都说不清楚。
把这四件事做到位,再普通的模型也能撑起 80% 的场景。