Dans le cadre des solutions qui accompagnent notre offre de signature électronique, nous éditons une solution complète de Smart Document Management, qui couvre la classification et la lecture de documents, le contrôle de l’ensemble des données du dossier et la lutte contre la fraude. Le but de l’équipe Deep Learning est d’améliorer ces modules en s’appuyant sur les récentes avancées en la matière appliqués au texte et à l’image, en visant un niveau de performances élevé, tant du point de vue de la précision des algorithmes que de leur temps d’exécution.
Les problématiques principales abordées cette année concernent : la classification des documents, avec la volonté d’une mise à jour permanente de nos modèles pour suivre les évolutions des documents rencontrés en production (cf. sujets 1 et 2). Par ailleurs, nous souhaitons aussi travailler sur les problématiques de compression et de temps d’exécution de modèles (sujet 3).
Tu auras pour objectif de mettre en application les techniques à l’état de l’art de la recherche sur des problématiques concrètes, au sein d’une équipe R&D d’une quinzaine de personnes dont 4 en Deep Learning. L’équipe bénéficie d’une base de données conséquente pour la mise en place des apprentissages en Deep Learning, point essentiel pour obtenir des bonnes performances avec ces algorithmes.
Après un premier travail bibliographique, tu devras proposer des méthodes qu’il s’agira d’implémenter et d’évaluer. Tu participeras aux réflexions sur les choix algorithmiques, d’outils et d’intégration avec le reste de l’équipe R&D.
Afin de définir la pipeline de traitement d’un document, il est nécessaire en premier lieu de déterminer son type (permis de conduire, carte d’identité, avis d’imposition, …), et ce peu importe le type d’acquisition (photo, scan, screenshot smartphone, …). Les documents et sources d’acquisition évoluant dans le temps, le but de ce stage sera de travailler sur la capacité de généralisation d’un modèle.
Par ailleurs, afin de mieux comprendre les erreurs et limites des modèles appris, nous souhaitons investiguer la compréhension des sorties du modèle, afin de compléter de façon pertinente les datasets d’apprentissage. Pour cela, nous nous appuierons sur les récents travaux autour de l’explainability des modèles Deep Learning.
Enfin, afin de déterminer la pertinence de la sortie du module de classification, nous souhaiterions pouvoir associer des notions de confiance aux prédictions du classifieur, pour ne faire intervenir un contrôle manuel que dans les cas où la prise de décision n’est pas possible automatiquement.
Bibliographie
Dans le même contexte que précédemment, nous souhaitons mettre à jour les modèles régulièrement avec de nouvelles données récentes, et ce, à coût minimum: des techniques d’apprentissage semi-supervisé doivent donc être mises en place, ainsi que des approches robustes à de potentielles erreurs d’annotations.
Il s’agira donc d’explorer les méthodes d’apprentissage semi-supervisé, ainsi que des approches de sélection des données pour les apprentissages récursifs. Par ailleurs, ayant à disposition des labels, mais parfois erronés, il sera intéressant de parcourir les méthodes d’apprentissage robuste à des erreurs d’annotations.
Bibliographie
Les architectures des réseaux de neurones convolutifs sont de plus en plus complexes et cela provoque une augmentation de la taille mémoire et de la complexité de calcul.
L’intérêt de la compression de modèles permet non seulement de réduire les temps de traitement mais aussi de réduire les coûts de production. Le stage aura pour but d’explorer les différentes méthodes de quantification, d’élagage de réseaux mais aussi la construction de nouveaux réseaux plus efficaces afin de compresser l’architecture cible sans perte de performance. L’aspect temps de traitement sera également à approfondir, afin de proposer des modèles rapides utilisant des ressources limitées.
Bibliographie
Tu es étudiant en M2 ou dernière année d’école d’ingénieur, spécialisé en Machine Learning et éventuellement en traitement d’images.
Un call pour faire connaissance, et un entretien technique avec travail bibliographique à faire en amont sur un sujet Deep Learning.
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.
Voir toutes les offres