DeepEval

活跃

GitHub Python Apache-2.0

简介

DeepEval 是一个用于 LLM 应用的开源评估框架。提供丰富的评估指标和工具，支持单元测试、集成测试，帮助开发者构建可靠的 LLM 应用。

标签

llm evaluation testing rag

分类

📊 可观测性 ⚡ Agent 工具

访问 GitHub 访问官网

相关项目

Ragas

12.9k · Python

Ragas 是一个用于评估 RAG（检索增强生成）系统的框架。提供多种评估指标，包括忠实度、答案相关性、上下文精确度等，帮助开发者优化 RAG 应用性能。

ragevaluationllm +1

TruLens

TruLens 是一个用于评估和跟踪 LLM 应用的开源工具。提供针对 RAG 应用的专门评估功能，包括上下文相关性、接地性和答案相关性等评估维度。

llmevaluationobservability +1

Helicone

5.2k · TypeScript

Helicone 是面向大模型应用的开源代理与监控平台，提供请求追踪、缓存与成本分析能力。

observabilityproxyanalytics +1

GPT Engineer

55.2k · Python

GPT Engineer 是一个根据自然语言描述生成整个代码库的 AI 工具。你只需描述想要构建的内容，AI 会提出澄清问题，然后生成完整的代码。

code-generationllmpython +1