相关项目
Langfuse
23.1k · TypeScript
Langfuse 是开源 LLM 可观测性平台,支持 trace、评估、提示词版本管理与成本分析。
observabilitytracingllm +1
TruLens
3.2k · Python
TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能,包括上下文相关性、接地性和答案相关性等评估维度。
llmevaluationobservability +1
AgentOps
5.4k · Python
AgentOps 是一个 AI Agent 可观测性平台,提供 Agent 监控、调试和评估功能,帮助开发者优化 Agent 性能。
observabilitymonitoringdebugging +1
DeepEval
14.1k · Python
DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具,支持单元测试、集成测试,帮助开发者构建可靠的 LLM 应用。
llmevaluationtesting +1