🎯 Rôle et mission générale
Le QA IA est responsable de la qualité, de la fiabilité, de la robustesse et de la conformité des systèmes IA avant, pendant et après la mise en production.
Il conçoit et exécute les tests multi-couches :
Data testing
Model testing
System testing
Tests spécifiques GenAI / RAG / Agents
Tests de sécurité, biais, dérive et conformité (CT-AI)
Ce rôle devient crucial avec la montée des systèmes GenAI, agentiques et RAG.
🧩 Responsabilités clés
1. Stratégie de test IA
Définir la méthodologie QA adaptée au type de modèle : ML, LLM, RAG, agents.
Construire les plans de test IA : data tests, model tests, risk tests, behavior tests.
Définir la couverture de test en accord avec le PO et les Data Scientists.
2. Tests Data & Features
Vérifier la qualité, cohérence, fraîcheur, représentativité des données.
Détecter les biais potentiels.
Définir des tests de drift data.
3. Tests Modèle
Tester la performance (metrics ML), la robustesse, l’explicabilité.
Tester la stabilité selon différents jeux de données.
Tester la sensibilité du modèle aux perturbations (adversarial tests).
4. Tests systèmes IA
Tests end-to-end (réception → prédiction → action → logs).
Tests UX pour les assistants IA / agents.
Tests de charge, latence, disponibilité, escalade.
5. Tests spécifiques GenAI / RAG / Agents
Détection et mesure des hallucinations.
Tests de pertinence des sources RAG (grounding testing).
Tests multi-agents (cohérence, coordination, divergence).
Vérification du respect des garde-fous (ton, contraintes métier, RGPD).
6. Documentation & conformité
Contribution au dossier d’évaluation IA (CT-AI).
Collaboration avec DPO sur les risques et RGPD.
Mise à jour des registres IA et des reports d’audit.
🛠️ Types de missions réalisées
Test d’un chatbot multi-agents avant mise en production
Qualification d’un modèle CLV / churn
Analyse des hallucinations dans un modèle RAG
Définition des seuils d’alerte drift pour modèles ML
Tests de sécurité / robustesse (prompt injection, jailbreaking)
Mise en place d’un protocole d’explicabilité (LIME, SHAP, PDP)
Compétences essentielles
Compétences techniques
Compréhension avancée : ML, LLM, RAG, pipelines, monitoring
Bon niveau en statistiques, métriques IA
Culture MLOps (CI/CD, MLflow, Data Versioning)
Compréhension de l’architecture logicielle (API, micro-services)
Compétences en QA
Automatisation des tests
Conception de scénarios multi-couches
Notions de SRE / performance testing
Méthodologie CT-AI (tests confiance IA)
Soft skills
Rigueur scientifique
Capacité d’analyse
Pensée critique / sceptique
Communication claire avec Data Scientists & PO
Sensibilité éthique et RGPD
🔧 Technologies & outils
Outils QA : PyTest, Robot Framework
MLOps : MLflow, EvidentlyAI, Bento, Vertex AI
LangChain / LlamaIndex (tests RAG)
Monitoring : WhyLabs, Arize AI
Explicabilité : SHAP, LIME
Tests LLM : DeepEval, Ragas, Promptfoo
Versioning : DVC, Git
Framework API : FastAPI / Flask (lecture seulement)
📊 Indicateurs de performance
Taux de couverture de test
Réduction du taux d’incident après mise en production
Diminution des hallucinations / erreurs / escalades
Rapidité à détecter anomalies & dérives
Qualité de la documentation & audits IA
📎 Pré-requis / Profil recherché
Bac +5 (data / informatique / stats) ou expérience QA solide
2 à 5 ans en QA, Data, ML ou automatisation de tests
Compréhension forte du ML et de la GenAI
Expérience dans le test de modèles ou systèmes complexes
Découvrez Quentin, Product Designer
Découvrez Anaïs, Customer Success Manager