Nous souhaitons offrir une alternative fiable et performante aux grands acteurs du search en étant propriétaire de l’ensemble de la pile technique - de l’hébergement et de l’indexation au ranking et à la diffusion des résultats de recherche.
Nous déployons actuellement une nouvelle version de notre moteur de recherche et lançons de nouvelles fonctionnalités basées sur l’IA et intégrées directement dans l’expérience de recherche.
En plus du français, nous prévoyons d’ajouter l’allemand et l’anglais pour répondre aux besoins de nos partenaires tel qu’Ecosia, et de nos clients.
Afin de supporter cette volumétrie de données, ainsi qu’améliorer nos capacités d’évaluation et d’ingestion, nous allons moderniser notre data platform.
Nous recherchons un(e) Data Engineer expérimenté(e) pour construire la nouvelle génération de notre plateforme de données, au cœur de notre moteur de recherche souverain.
Notre ambition est de refondre notre stack data autour d’une architecture moderne (Modern Data Stack), capable de supporter à grande échelle :
Le crawling à grande échelle du web publique.
Notre index web et image (plusieurs centaines de millions de documents).
Notre tracking utilisateurs (événements front et backend).
Les données de nos partenaires.
Et les besoins avancés de nos équipes produit, IA et engineering.
Cette plateforme jouera un rôle central en tant que source de vérité pour la BI, les analyses, le training de nos algorithmes, l’enrichissement de données (calcul des signaux)…
Il s’agit d’une opportunité rare de bâtir une data platform stratégique à fort impact.
En tant que Data Engineer, vous serez responsable de :
Concevoir et implémenter l’architecture de notre nouvelle data platform (data lake, data warehouse, pipelines de traitement, ingestion temps réel et batch).
Industrialiser l’ingestion de données structurées, et semi-structurées à partir de nos services internes, flux utilisateurs, crawler et partenaires.
Mettre en œuvre un stockage efficace basé sur des formats open standards (Iceberg sur S3) pour optimiser la scalabilité, la gouvernance et la compatibilité analytique.
Construire et maintenir des pipelines robustes de transformation de données (DBT, Spark), compatibles avec les usages BI et ML.
Orchestrer les flux temps réel via Kafka et assurer leur persistance efficace.
Travailler étroitement avec les équipes Data Science, Search, Produit et BI pour exposer la donnée dans des formats exploitables, fiables et documentés.
Mettre en place des bonnes pratiques de data quality, observabilité, versioning, access control et monitoring.
Stack technique :
Cloud & Storage : S3, Iceberg
Traitement batch et streaming : Spark, Kafka
Transformation : DBT
Exploitation et reporting : Clickhouse, Metabase
CI/CD & Infra as Code : Argo, GitLab, Terraform
Vous ne vous reconnaissez pas à 100% dans les critères ci-dessous ?
Aucun problème, envoyez quand même votre CV ! Ces critères ne sont pas tous éliminatoires : votre passion, curiosité et motivation seront des atouts pour vous faire grandir avec nous ;)
Vous avez au moins 5 ans d’expérience dans la construction de pipelines de données à grande échelle ou dans la gestion de plateformes data.
Vous maîtrisez les fondamentaux du traitement de données : ingestion, transformation, modélisation, orchestration.
Vous avez une solide compréhension des formats de données modernes (Parquet, ORC, Iceberg ou Delta Lake).
Vous êtes à l’aise avec les architectures distribuées et les problématiques de scalabilité, performance et fiabilité.
Vous avez déjà travaillé avec des technologies comme Kafka, Spark, ou DBT (au moins deux d’entre elles).
Vous êtes sensibilisé(e) aux enjeux de qualité de la donnée : validation, détection d’anomalies, monitoring, alerting.
Vous savez mettre en œuvre des mécanismes de data lineage pour tracer l’origine et l’évolution des données au sein des pipelines.
Vous comprenez les principes de gouvernance des données : gestion des accès, versioning, documentation, conformité.
Vous savez travailler avec des équipes pluridisciplinaires (data science, produit, BI) pour bien cerner les besoins et exposer la donnée de manière exploitable.
Vous êtes rigoureux(se), pragmatique, autonome et attaché(e) à la qualité autant qu’à la robustesse des solutions.
Bonus appréciés :
Expérience avec des systèmes massivement distribués ou des environnements data-intensive.
Maîtrise de la gouvernance data (catalogue, access control, audit, lineage).
Connaissance du machine learning pipeline (feature store, versioning, training on lakehouse).
Intérêt pour les moteurs de recherche, les grands graphes de données ou le NLP.
Aisance à vulgariser et formaliser des choix techniques en documentation.
Nous vous proposerons un appel de 30 minutes avec un membre de l’équipe RH afin de faire connaissance et de vous présenter le poste.
Si cette première étape est concluante pour vous et pour nous, vous aurez l’opportunité de rencontrer :
Entretien technique (1h) — Échange avec un.e ingénieur / Engineering Manager.
Étude de cas (2h à faire chez vous) — Évaluation de vos compétences pratiques.
Restitution + System Design (1h30) — Discussion approfondie sur vos choix et votre approche.
Entretien final (30 min) — Avec notre CTO.
Rejoindre notre équipe, c’est l’opportunité de travailler sur des sujets complexes à fort impact sociétal, en contribuant à la construction from scratch d’une plateforme critique pour un moteur de recherche souverain. Vous évoluerez au cœur de projets concrets et ambitieux, manipulant de larges volumes de données, aux côtés d’une équipe technique exigeante, bienveillante et multidisciplinaire.
N’attends plus, rejoins-nous !
These companies are also recruiting for the position of “Données/Business Intelligence”.
See all job openings