L'envoi d'un CV est-il obligatoire pour postuler à cette offre ?

Pour postuler à cette offre, l'envoi de votre CV est obligatoire.

Le télétravail est-il possible pour ce poste ?

Le télétravail occasionnel est autorisé pour ce poste.

Quel est le type de contrat pour ce poste ?

Le contrat pour ce poste est de type {contract_type}.

Une lettre de motivation est-elle obligatoire pour postuler à cette offre ?

La lettre de motivation est optionnelle pour postuler à cette offre.

Quelle est la date de début du contrat?

Le contrat pour cette offre de job démarre le {start_date}

[Mission] Data Engineer - beta.gouv.fr

beta.gouv.fr

[Mission] Data Engineer

Freelance

Paris

Télétravail occasionnel

Salaire : Non spécifié

Début : 31 août 2025

Expérience : > 5 ans

Éducation : Bac +5 / Master

il y a 3 jours

beta.gouv.fr

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

🎯 Mission principale

En tant que Data Engineer, votre rôle sera de construire et d’automatiser l’ensemble du pipeline de données, de la collecte à l’indexation, pour alimenter le pipeline RAG.

Collaboration avec le/la Gen AI Engineer

Ce rôle est au cœur de la collaboration avec le/la Gen AI Engineer. Vous travaillerez ensemble pour :

Définir la stratégie de traitement des données : Vous fournissez les données, et le Gen AI Engineer les utilise pour former le modèle. Ensemble, vous optimiserez le chunking (découpage des documents), l’embedding (vectorisation) et l’indexation sémantique pour maximiser la pertinence et la performance de l’assistant.
Assurer la cohérence des données : Vous garantirez que les données ingérées sont toujours de la meilleure qualité possible et que le processus de vectorisation est uniforme, ce qui est essentiel pour éviter les erreurs d’interprétation par le LLM.
Optimiser les performances : Vous concevez les pipelines pour être performants et évolutifs, tandis que le Gen AI Engineer se concentre sur l’efficacité du modèle.

Vos responsabilités principales incluent :

Conception et construction des pipelines de données : Vous développez des pipelines robustes pour la collecte, le nettoyage et la transformation de données complexes, qu’elles soient structurées ou non structurées (PDF, HTML, Markdown…).
Gestion de la qualité des données : Vous mettez en place des contrôles de qualité, des tests et des alertes pour garantir l’intégrité et la fiabilité des données.
Opérations de données (DataOps) : Vous automatisez l’ensemble du pipeline, du scraping à l’indexation, en utilisant des outils d’orchestration pour garantir la fraîcheur et la disponibilité des données.
Administration de la base de données vectorielle : Vous êtes responsable de la gestion, de la maintenance et de l’optimisation des bases de données vectorielles (par exemple, PGVector).
Publication et maintenance : Vous publiez et mettez à jour les données publiques vectorisées sur Hugging Face et les mettez à disposition via l’Albert API.
Documentation et traçabilité : Vous assurez une documentation complète des pipelines et de l’architecture pour faciliter la maintenance et les audits.

Profil recherché

🧠 Compétences attendues

Expertise Technique

Langages et outils : Maîtrise de Python (avec des bibliothèques de manipulation de données comme pandas, Polars ou Pyspark). Bonne connaissance de SQL. Expérience avec les frameworks web comme FastAPI ou Flask.
Pipelines de données : Solide expérience avec des outils d’orchestration de données tels que Airflow ou Prefect. Connaissance des processus ETL/ELT et de la modélisation de données (dbt est un plus).
Bases de données : Maîtrise des bases de données relationnelles (PostgreSQL) et NoSQL (MongoDB). Expérience avec les bases de données vectorielles (PGVector, Pinecone ou ChromaDB).
Analyse et BI : Expérience avec les outils de Business Intelligence (Metabase, Superset) est un atout pour le monitoring et la visualisation des données.
IA Générative : Connaissance fondamentale du fonctionnement des architectures RAG et des embeddings, notamment les enjeux techniques liés à leur performance et à leur cohérence.

Pratiques et méthodologie

Rigueur : Qualité du code, tests unitaires et revues de code systématiques.
Méthodes Agiles : Capacité à s’intégrer dans une équipe agile et à délivrer des incréments de valeur régulièrement.
Documentation : Capacité à documenter clairement les processus, les architectures et les décisions techniques.

DevOps / Environnement

CI/CD : Expérience avec Git et GitHub, et mise en place de workflows CI/CD.
Conteneurisation : Maîtrise de Docker pour le déploiement des services. Connaissance de Kubernetes est un plus.
Cloud : Familiarité avec les environnements et services cloud.

Soft Skills

Travail d’équipe : Collaboration active et efficace avec le Gen AI Engineer et les équipes métier.
Autonomie et Transparence : Capacité à prendre des initiatives et à communiquer de manière claire et régulière sur l’avancement du projet.
Communication : Aptitude à vulgariser des concepts techniques pour des interlocuteurs non-techniques (intrapreneur, lead métier).

Déroulement des entretiens

⭐️ Informations complémentaires

Contrat : Poste de freelance (consultant·e).

Durée : Mission d’une durée de 3 mois minimum, à pourvoir dès septembre.

Rémunération : Taux journalier moyen (TJM) à discuter, basé sur la grille indicative de BetaGouv.

Conditions de travail : Temps partiel possible (4 jours/semaine, à discuter). Mode de travail hybride à discuter.

Embarquement: Un embarquement est obligatoire. Il est composé d’une journée en présentiel et de 6 visios de 1h répartie sur deux mois. Il vous permettra de rencontrer la communauté, de comprendre l’écosystème publique et de connaitre les standards de qualité beta.gouv.fr

Ressources: Documentation sur les indépendants.

Processus de recrutement :

Examen des candidatures
Entretien technique et test pratique
Entretien d’équipe/culture (30 min)
Rencontre dans les locaux

Fin de diffusion: 15 août 2025

Offre de mission via La Zone, le titulaire de notre marché public.

Envie d’en savoir plus ?

Rencontrez Annie, Product Owner & Chargée de Déploiement

Découvrez l'entreprise

Explorez la vitrine de l’entreprise ou suivez-la pour savoir si elle vous correspond vraiment !

Explorer l’entreprise

Ils sont sociables

L'entreprise

beta.gouv.fr

SaaS / Cloud Services, Administration publique, SocialTech / GreenTech

1200 collaborateurs

Créée en 2013

Âge moyen : 35 ans

40%

60%

Qui sont-ils ?

La Direction Générale de l’Administration et de la Fonction Publique (DGAFP) pilote la politique des ressources humaines (RH) de la fonction publique. Elle élabore les règles statutaires, coordonne la gestion des carrières et accompagne les transformations de l’action publique. Accompagné par la Direction Interministérielle du Numérique (DINUM), un intrapreneur nommé à la DGAFP doit mettre en place un assistant IA spécialisé sur le domaine des RH. Cet assistant, basé sur une architecture RAG (Retrieval-Augmented Generation), permettra de simplifier la recherche d’informations complexes pour nos équipes métier.

Cet assistant se basera sur des briques techniques déjà existants au sein de l’Etat :

Albert API, infrastructure publique de services d’intelligence artificielle générative. (Lien GitHub)
Assistant IA, plateforme auto-hébergée OpenWebUI (Lien GitHub)
EvalAP, plateforme publique d’évaluation de modèles (Lien GitHub)
Bibliothèque de données publiques vectorisées en cours de construction

Vous venez aider une équipe pluridisciplinaire et agile pour concevoir, implémenter et améliorer cette solution de bout en bout, en garantissant sa performance, sa fiabilité et sa sécurité.

Le lieu de travail

20 Avenue de Ségur, 75007 Paris, France

Besoin de plus d’infos ?

Vie d’entreprise, ambiance, réalisations... On a encore plein de choses à vous dire !

Découvrir

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

[Mission] Gen-AI Engineer
beta.gouv.fr
Freelance
Paris
Télétravail occasionnel
SaaS / Cloud Services, Administration publique
1 200 collaborateurs
il y a 3 jours
Freelance - Sr. Azure Data Engineer
Lenstra
Freelance
Paris
Télétravail fréquent
Logiciels, Intelligence artificielle / Machine Learning
30 collaborateurs
il y a 19 jours
Ingénieur Support & Exploitation Data (H/F)
KOLABS GROUP
Freelance
Paris
Télétravail fréquent
IT / Digital, SaaS / Cloud Services
54 collaborateurs
il y a 2 mois