精选

Agent 可观测性落地手册：用 Langfuse 做全链路追踪

结合真实落地经验，介绍如何用 Langfuse 搭建 Agent 追踪、评估与成本分析闭环。

AgentList Team · 2026年2月18日

Langfuse可观测性TracingLLMOps

Agent 可观测性落地手册：用 Langfuse 做全链路追踪

Agent 一旦进入生产，最先暴露的问题通常是“看不见”：

为什么同样请求有时成功有时失败？
Token 成本为何突然上涨？
是检索问题还是推理问题？

可观测性不是锦上添花，而是生产可用性的基础。

最小可用观测模型

建议先建立三层数据：

Trace：一次用户请求的完整链路
Span：链路中的子步骤（检索、工具调用、重排、生成）
Score：人工或自动评估结果（准确性、相关性、可执行性）

只要这三层打通，排障效率会有明显提升。

接入策略

1. 先追关键路径

首批只接三类节点：

主模型调用
检索器调用
外部工具调用

不要一开始追踪所有细节，否则维护成本会反噬。

2. 统一会话与用户标识

session_id：同一会话连续请求
user_id：聚合用户维度行为
request_id：单次请求唯一编号

这让你可以从“异常用户反馈”快速定位到具体 trace。

3. 成本与延迟要分层看

至少拆分：

模型推理耗时
检索耗时
外部 API 耗时
总响应时间

很多团队优化模型参数后发现收益有限，真正瓶颈反而是工具层接口。

评估闭环

推荐两条线并行：

在线轻评估：响应是否命中意图、是否触发重试
离线深评估：抽样回放 + 人工标注

评估指标可从三项开始：

Answer Groundedness（是否有依据）
Task Completion（任务是否完成）
Tool Success Rate（工具调用成功率）

常见反模式

只记录原始文本，不记录结构化上下文
只盯整体延迟，不看步骤级耗时
有追踪无告警，异常只能靠人盯仪表盘

总结

对 Agent 系统来说，观测能力不是可选插件，而是“质量系统”的核心。Langfuse 非常适合作为第一层统一追踪平台，再按需接 Phoenix 或内部评估流水线。

落地建议：先选一个业务场景做 2 周观测基线，再做优化迭代，避免“边改边猜”。