🔍 Sujet : Détection et gestion d’incertitude dans les réponses d’agents IA
🧩 Contexte :
Au sein de la Direction de la Recherche et de l’Innovation Technologique (DRIT), le Lab IA explore les nouveaux paradigmes d’intelligence artificielle, et en particulier l’intégration des modèles de langage de grande taille (LLM) dans des systèmes multi-agents intelligents.
L’un des défis majeurs de ces systèmes concerne la fiabilité et la transparence des réponses générées : les modèles peuvent produire des affirmations incorrectes tout en affichant une confiance élevée. Cette « illusion de certitude » nuit à la confiance des utilisateurs et à la robustesse globale du système.
Le stage s’inscrit dans une démarche de R&D exploratoire, visant à concevoir et expérimenter des mécanismes d’auto-évaluation et de calibration de confiance pour des agents conversationnels intégrant des LLM. Ce travail contribuera à l’amélioration de la fiabilité, de la traçabilité et de l’ergonomie cognitive de l’assistant IA développé dans le cadre du projet Athena de Berger-Levrault.
🛠️ Missions :
Concevoir un module d’évaluation de fiabilité, capable d’estimer la fiabilité d’une réponse générée à partir d’indicateurs sémantiques : évaluation de similarité de la réponse principale avec des réponses candidates, cohérence inter-agent, vérification de sources externes (API sur sites web de référence ou corpus métier de référence, etc.).
Mettre en place un système de scoring sémantique pour évaluer la cohérence interne des réponses et identifier les contradictions ou divergences logiques.
Prototyper un mécanisme de retour d’incertitude dans l’interface agentique : visualisation de la confiance (barres, couleurs, reformulations automatiques), feedback utilisateur.
Évaluer scientifiquement le dispositif, via un protocole expérimental mesurant précision, robustesse, calibrage et perception utilisateur.
Selon l’avancement de la mission d’autres pistes comme la suggestion de correction seraient envisageable.
Approches et technologies envisagées :
Livrables attendus :
Vous présentez un intérêt marqué pour la recherche appliquée et les modèles de langage (LLM).
Vous maîtrisez Python ainsi que la manipulation de modèles de langage et d’embeddings.
Vous faites preuve de curiosité scientifique, de rigueur méthodologique et d’un réel goût pour l’expérimentation.
DIVERSITE ET INCLUSION : CHEZ NOUS, C’EST PLUS QU’UNE POLITIQUE, C’EST UNE FORCE !
Nous nous engageons à :
Parce que la singularité de chacun est une richesse, nous mettons tout en place pour que chaque collaboratrice et collaborateur puisse s'exprimer et s'épanouir pleinement.
Rencontrez Xavier, Chief data Officer
Rencontrez Sandra, Développeuse Full stack