定義
レッドチーミングはAIシステムを失敗のために調査します: プロンプトインジェクション、ジェイルブレイク、偏った出力、有害なコンテンツ、ハルシネーション。創造的な人間(またはAI駆動)攻撃生成で自動評価を補完します。高リスクアプリケーションの場合、レッドチーミングはローンチ前に交渉の余地はありません。
例
ヘルスケアアシスタントは、誤った投薬アドバイスを引き出そうとする200のプロンプトでレッドチーミングされます。
Vedwixでの使用方法
安全性の意味を持つAI機能には必須。自動および手動のレッドチームパスを実行します。