En tant que Data Engineer, votre rôle sera de construire et d’automatiser l’ensemble du pipeline de données, de la collecte à l’indexation, pour alimenter le pipeline RAG.
Collaboration avec le/la Gen AI Engineer
Ce rôle est au cœur de la collaboration avec le/la Gen AI Engineer. Vous travaillerez ensemble pour :
Définir la stratégie de traitement des données : Vous fournissez les données, et le Gen AI Engineer les utilise pour former le modèle. Ensemble, vous optimiserez le chunking (découpage des documents), l’embedding (vectorisation) et l’indexation sémantique pour maximiser la pertinence et la performance de l’assistant.
Assurer la cohérence des données : Vous garantirez que les données ingérées sont toujours de la meilleure qualité possible et que le processus de vectorisation est uniforme, ce qui est essentiel pour éviter les erreurs d’interprétation par le LLM.
Optimiser les performances : Vous concevez les pipelines pour être performants et évolutifs, tandis que le Gen AI Engineer se concentre sur l’efficacité du modèle.
Vos responsabilités principales incluent :
Conception et construction des pipelines de données : Vous développez des pipelines robustes pour la collecte, le nettoyage et la transformation de données complexes, qu’elles soient structurées ou non structurées (PDF, HTML, Markdown…).
Gestion de la qualité des données : Vous mettez en place des contrôles de qualité, des tests et des alertes pour garantir l’intégrité et la fiabilité des données.
Opérations de données (DataOps) : Vous automatisez l’ensemble du pipeline, du scraping à l’indexation, en utilisant des outils d’orchestration pour garantir la fraîcheur et la disponibilité des données.
Administration de la base de données vectorielle : Vous êtes responsable de la gestion, de la maintenance et de l’optimisation des bases de données vectorielles (par exemple, PGVector
).
Publication et maintenance : Vous publiez et mettez à jour les données publiques vectorisées sur Hugging Face et les mettez à disposition via l’Albert API.
Documentation et traçabilité : Vous assurez une documentation complète des pipelines et de l’architecture pour faciliter la maintenance et les audits.
Expertise Technique
Langages et outils : Maîtrise de Python (avec des bibliothèques de manipulation de données comme pandas
, Polars
ou Pyspark
). Bonne connaissance de SQL. Expérience avec les frameworks web comme FastAPI
ou Flask
.
Pipelines de données : Solide expérience avec des outils d’orchestration de données tels que Airflow
ou Prefect
. Connaissance des processus ETL/ELT et de la modélisation de données (dbt est un plus).
Bases de données : Maîtrise des bases de données relationnelles (PostgreSQL
) et NoSQL (MongoDB
). Expérience avec les bases de données vectorielles (PGVector
, Pinecone
ou ChromaDB
).
Analyse et BI : Expérience avec les outils de Business Intelligence (Metabase
, Superset
) est un atout pour le monitoring et la visualisation des données.
IA Générative : Connaissance fondamentale du fonctionnement des architectures RAG et des embeddings, notamment les enjeux techniques liés à leur performance et à leur cohérence.
Pratiques et méthodologie
Rigueur : Qualité du code, tests unitaires et revues de code systématiques.
Méthodes Agiles : Capacité à s’intégrer dans une équipe agile et à délivrer des incréments de valeur régulièrement.
Documentation : Capacité à documenter clairement les processus, les architectures et les décisions techniques.
DevOps / Environnement
CI/CD : Expérience avec Git et GitHub, et mise en place de workflows CI/CD.
Conteneurisation : Maîtrise de Docker pour le déploiement des services. Connaissance de Kubernetes
est un plus.
Cloud : Familiarité avec les environnements et services cloud.
Soft Skills
Travail d’équipe : Collaboration active et efficace avec le Gen AI Engineer et les équipes métier.
Autonomie et Transparence : Capacité à prendre des initiatives et à communiquer de manière claire et régulière sur l’avancement du projet.
Communication : Aptitude à vulgariser des concepts techniques pour des interlocuteurs non-techniques (intrapreneur, lead métier).
Contrat : Poste de freelance (consultant·e).
Durée : Mission d’une durée de 3 mois minimum, à pourvoir dès septembre.
Rémunération : Taux journalier moyen (TJM) à discuter, basé sur la grille indicative de BetaGouv.
Conditions de travail : Temps partiel possible (4 jours/semaine, à discuter). Mode de travail hybride à discuter.
Embarquement: Un embarquement est obligatoire. Il est composé d’une journée en présentiel et de 6 visios de 1h répartie sur deux mois. Il vous permettra de rencontrer la communauté, de comprendre l’écosystème publique et de connaitre les standards de qualité beta.gouv.fr
Ressources: Documentation sur les indépendants.
Processus de recrutement :
Examen des candidatures
Entretien technique et test pratique
Entretien d’équipe/culture (30 min)
Rencontre dans les locaux
Fin de diffusion: 15 août 2025
Offre de mission via La Zone, le titulaire de notre marché public.
Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.