Promptfoo
Outil open-source pour tester, comparer et évaluer des prompts et configurations LLM de manière systématique.
Framework open-source pour évaluer, tester et fiabiliser des applications LLM, agents et pipelines RAG.
DeepEval apporte une approche structurée et mesurable à l’évaluation des systèmes LLM. Sa force est la standardisation des métriques et la facilité d’intégration dans des workflows existants. Il est particulièrement utile pour éviter des régressions silencieuses. En contrepartie, la pertinence des résultats dépend de la qualité des scénarios de test et du choix des métriques.
Outil open-source pour tester, comparer et évaluer des prompts et configurations LLM de manière systématique.
Plateforme open-source d’observabilité, d’analytique et d’évaluation pour applications et agents basés sur des LLM.
Framework open-source pour programmer, optimiser et évaluer des systèmes LLM sans dépendre du prompt engineering manuel.
Plateforme open-source no-code permettant de créer des workflows LLM, chatbots et agents IA via une interface visuelle.
Framework open-source pour construire des systèmes de recherche sémantique, QA et RAG basés sur des LLM.
Framework open-source permettant de tester, comparer et évaluer prompts, modèles et pipelines LLM.
Ce hub relie DeepEval aux alternatives, comparatifs, catégories et intentions proches afin d’aider les utilisateurs et les moteurs IA à comprendre son contexte, ses concurrents et ses cas d’usage.