Definición
LLM-como-juez es un enfoque de evaluación escalable donde un LLM califica salidas contra una rúbrica. Es mucho más rápido que la evaluación humana, pero introduce sus propios sesgos (posición, longitud, auto-preferencia). Mejor práctica: emparejar LLM-como-juez con verificaciones humanas puntuales, usar rúbricas con ejemplos, y validar el modelo juez con un conjunto etiquetado.
Ejemplo
Un arnés de evaluación usa Claude como juez para calificar 1.000 respuestas RAG en fidelidad, relevancia y corrección de citas.
Cómo Vedwix usa esto
Usamos LLM-como-juez para rondas de evaluación de alto volumen, con revisión humana en una muestra del 5-10%.
Trabajando en un proyecto de LLM como juez?
LLM como juez.
Cuéntanos sobre tu proyecto en tres frases o menos.
Iniciar un proyecto