[Mission] Data Engineer

Freelance
Paris
Télétravail occasionnel
Salaire : Non spécifié
Début : 31 août 2025
Expérience : > 5 ans
Éducation : Bac +5 / Master

beta.gouv.fr
beta.gouv.fr

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

🎯 Mission principale

En tant que Data Engineer, votre rôle sera de construire et d’automatiser l’ensemble du pipeline de données, de la collecte à l’indexation, pour alimenter le pipeline RAG.

Collaboration avec le/la Gen AI Engineer

Ce rôle est au cœur de la collaboration avec le/la Gen AI Engineer. Vous travaillerez ensemble pour :

  • Définir la stratégie de traitement des données : Vous fournissez les données, et le Gen AI Engineer les utilise pour former le modèle. Ensemble, vous optimiserez le chunking (découpage des documents), l’embedding (vectorisation) et l’indexation sémantique pour maximiser la pertinence et la performance de l’assistant.

  • Assurer la cohérence des données : Vous garantirez que les données ingérées sont toujours de la meilleure qualité possible et que le processus de vectorisation est uniforme, ce qui est essentiel pour éviter les erreurs d’interprétation par le LLM.

  • Optimiser les performances : Vous concevez les pipelines pour être performants et évolutifs, tandis que le Gen AI Engineer se concentre sur l’efficacité du modèle.

Vos responsabilités principales incluent :

  • Conception et construction des pipelines de données : Vous développez des pipelines robustes pour la collecte, le nettoyage et la transformation de données complexes, qu’elles soient structurées ou non structurées (PDF, HTML, Markdown…).

  • Gestion de la qualité des données : Vous mettez en place des contrôles de qualité, des tests et des alertes pour garantir l’intégrité et la fiabilité des données.

  • Opérations de données (DataOps) : Vous automatisez l’ensemble du pipeline, du scraping à l’indexation, en utilisant des outils d’orchestration pour garantir la fraîcheur et la disponibilité des données.

  • Administration de la base de données vectorielle : Vous êtes responsable de la gestion, de la maintenance et de l’optimisation des bases de données vectorielles (par exemple, PGVector).

  • Publication et maintenance : Vous publiez et mettez à jour les données publiques vectorisées sur Hugging Face et les mettez à disposition via l’Albert API.

  • Documentation et traçabilité : Vous assurez une documentation complète des pipelines et de l’architecture pour faciliter la maintenance et les audits.


Profil recherché

🧠 Compétences attendues

Expertise Technique

  • Langages et outils : Maîtrise de Python (avec des bibliothèques de manipulation de données comme pandas, Polars ou Pyspark). Bonne connaissance de SQL. Expérience avec les frameworks web comme FastAPI ou Flask.

  • Pipelines de données : Solide expérience avec des outils d’orchestration de données tels que Airflow ou Prefect. Connaissance des processus ETL/ELT et de la modélisation de données (dbt est un plus).

  • Bases de données : Maîtrise des bases de données relationnelles (PostgreSQL) et NoSQL (MongoDB). Expérience avec les bases de données vectorielles (PGVector, Pinecone ou ChromaDB).

  • Analyse et BI : Expérience avec les outils de Business Intelligence (Metabase, Superset) est un atout pour le monitoring et la visualisation des données.

  • IA Générative : Connaissance fondamentale du fonctionnement des architectures RAG et des embeddings, notamment les enjeux techniques liés à leur performance et à leur cohérence.

Pratiques et méthodologie

  • Rigueur : Qualité du code, tests unitaires et revues de code systématiques.

  • Méthodes Agiles : Capacité à s’intégrer dans une équipe agile et à délivrer des incréments de valeur régulièrement.

  • Documentation : Capacité à documenter clairement les processus, les architectures et les décisions techniques.

DevOps / Environnement

  • CI/CD : Expérience avec Git et GitHub, et mise en place de workflows CI/CD.

  • Conteneurisation : Maîtrise de Docker pour le déploiement des services. Connaissance de Kubernetes est un plus.

  • Cloud : Familiarité avec les environnements et services cloud.

Soft Skills

  • Travail d’équipe : Collaboration active et efficace avec le Gen AI Engineer et les équipes métier.

  • Autonomie et Transparence : Capacité à prendre des initiatives et à communiquer de manière claire et régulière sur l’avancement du projet.

  • Communication : Aptitude à vulgariser des concepts techniques pour des interlocuteurs non-techniques (intrapreneur, lead métier).


Déroulement des entretiens

⭐️ Informations complémentaires

Contrat : Poste de freelance (consultant·e).

Durée : Mission d’une durée de 3 mois minimum, à pourvoir dès septembre.

Rémunération : Taux journalier moyen (TJM) à discuter, basé sur la grille indicative de BetaGouv.

Conditions de travail : Temps partiel possible (4 jours/semaine, à discuter). Mode de travail hybride à discuter.

Embarquement: Un embarquement est obligatoire. Il est composé d’une journée en présentiel et de 6 visios de 1h répartie sur deux mois. Il vous permettra de rencontrer la communauté, de comprendre l’écosystème publique et de connaitre les standards de qualité beta.gouv.fr

Ressources: Documentation sur les indépendants.

Processus de recrutement :

  1. Examen des candidatures

  2. Entretien technique et test pratique

  3. Entretien d’équipe/culture (30 min)

  4. Rencontre dans les locaux

Fin de diffusion: 15 août 2025

Offre de mission via La Zone, le titulaire de notre marché public.

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.