Vos principales responsabilités :
Nous sommes des producteurs de données géolocalisées et vous serez au cœur du business model de namR.
Au sein de l’équipe Data Production, vous serez en charge des missions suivantes :
Développer les outils de récupération des fichiers issus de notre datalake de différents formats : csv, xls, json, geojson, shp, dbf ;
Implementer et gérer CI/CD pipelines ;
Sourcer, analyser, nettoyer, intégrer et documenter les datasets du datalake ;
Extraire les données issues de ces datasets pour construire les données de notre base de données (attributs) ;
Maintenir les scripts de mise à jour des flux de données ;
Développer l’outil interne de gestion et administration de nos données et métadonnées (Python, SQL) ;
Contribuer à l’évolution de notre infrastructure de données vers des technologies scalables (Spark, BigQuery, Citus) intégrant plusieurs types de données (structurées, géolocalisées, imagerie, texte, etc.) ;
Effectuer une veille systématique des technos, outils et méthodes de gestion des bases de données.
Votre parcours :
Vous êtes en Master Computer Science ou en formation d’Ingénieur en Informatique et recherchez une alternance.
Votre stack technique :
Les technologies souhaitables :
Vos qualités humaines