Définition
LLM-comme-juge est une approche d'évaluation scalable où un LLM note les sorties selon une grille. C'est beaucoup plus rapide que l'évaluation humaine, mais introduit ses propres biais (position, longueur, auto-préférence). Bonne pratique : associer LLM-comme-juge avec des contrôles humains ponctuels, utiliser des grilles avec des exemples et valider le modèle juge lui-même avec un ensemble étiqueté.
Exemple
Un harnais d'évaluation utilise Claude comme juge pour noter 1 000 réponses RAG sur la fidélité, la pertinence et la justesse des citations.
Comment Vedwix utilise ceci
Nous utilisons LLM-comme-juge pour les rounds d'évaluation à fort volume, avec une révision humaine sur un échantillon de 5-10%.
Vous travaillez sur un projet de LLM-comme-juge?
LLM-comme-juge.
Décrivez votre projet en trois phrases ou moins.
Démarrer un projet