Le logiciel Goodwill est appuyé sur un datalake alimenté quotidiennement de 50 000 documents textuels qui sont traités dans un pipeline constitué de plusieurs dizaines de micro-services AWS : scraping et collecte, OCRisation, normalisation, tâches de NLP (classification, NER, layout, etc.). Etant donné la croissance du produit, ce pipeline va être de plus en plus complexe : hausse du volume, nouveaux types de données, traitements NLP plus avancés et plus lourds, internationalisation.
Au sein d’une squad polyvalente de 5-6 personnes comprenant datascientist, dev front et dev back, le dataengineer est responsable des étapes de collecte et de normalisation des documents, ainsi que de la scalabilité et des performances du pipeline global. Grâce à son expertise, le dataengineer est capable d’identifier les architectures et les outils permettant de mettre en production des traitements avancés, opérant sur des gros volumes avec de bonnes performances.
Des exemples de sujets:
Le produit Goodwill est structuré autour d’un actif de données textuelles, qui sont collectées et traitées quotidiennement, via des providers de données ou du web scraping. Nos principaux enjeux techniques sont:
Côté FRONT
Côté BACK / DATA
Côté INFRA
Remote possible jusqu’à 2 ou 3 jours par semaine après la phase d’onboarding.
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.
Voir toutes les offres