Glossário · Português

Arcabouço de avaliação

Um conjunto de testes para funcionalidades de IA que mede qualidade, regressões e casos extremos.

Português · Portuguese

Definição

Um arcabouço de avaliação é para IA o que uma suíte de testes é para código. Contém um conjunto de entradas, saídas esperadas (ou qualidades esperadas) e um método de pontuação automatizado. O arcabouço roda em cada mudança de modelo, mudança de prompt, mudança de recuperação ou atualização de dependência, para que você pegue regressões antes que cheguem aos usuários. Sem um arcabouço de avaliação, o desenvolvimento de IA é tentativa e erro.

Exemplo

Um conjunto de avaliação de 200 perguntas para um assistente de IA em saúde, pontuado tanto com LLM-como-juiz quanto com revisão humana para categorias de alto risco.

Como a Vedwix usa isto

Construímos o arcabouço de avaliação antes da própria funcionalidade de IA. Sem avaliações, sem engajamento.

Trabalhando em um projeto de Arcabouço de avaliação?

Arcabouço de avaliação.

Descreva seu projeto em três frases ou menos.

Iniciar um projeto

Arcabouço de avaliação

Descreva seu projeto em três frases ou menos.

Iniciar um projeto