Définition
Le red-teaming sonde un système IA pour des défaillances : injection de prompt, jailbreaks, sorties biaisées, contenu nuisible, hallucinations. Il complète les évaluations automatisées avec une génération d'attaques humaines créatives (ou pilotées par IA). Pour les applications à enjeux élevés, le red-teaming n'est pas négociable avant le lancement.
Exemple
Un assistant santé est red-teamé avec 200 prompts tentant d'obtenir des conseils de dosage incorrects.
Comment Vedwix utilise ceci
Requis pour toute fonctionnalité IA avec implications de sécurité. Nous exécutons des passes red-team automatisées et manuelles.
Vous travaillez sur un projet de Red-teaming?
Red-teaming.
Décrivez votre projet en trois phrases ou moins.
Démarrer un projet