Ingénieur DevOps / LLM & RAG

Résumé du poste
Freelance
Paris
Télétravail fréquent
Salaire : < 800 € par jour
Début : 28 septembre 2025
Compétences & expertises
Gestion de l’infrastructure cloud
Communication
Programmation fonctionnelle
Conteneurisation et orchestration
FastAPI
+15

beta.gouv.fr
beta.gouv.fr

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Le service

Mon assistant parquet est une startup d’Etat co-intubée par le ministère de la Justice et la direction interministérielle du numérique, dédiée au développement d’outils basés sur l’intelligence artificielle pour faciliter le traitement des dossiers pénaux par les magistrats. Plus précisément, ces outils auront pour objectif :

  • de rechercher des informations précises dans des dossiers complexes ;

  • de synthétiser et restituer aux magistrats ces éléments pour qu’ils puissent prendre connaissance des dossiers plus rapidement.

Contexte du recrutement

Le ministère de la Justice s’est doté d’une infrastructure Cloud GPU (SecNumCloud) que nous allons utiliser pour les besoins de l’application.

Le challenge est de parvenir à y installer des services tournant sur GPU et appelable par API (LLM, RAG et OCR) pour les besoins de l’application

Pour cela, nous prévoyons de répliquer les services déjà installés par la DINUM par l’équipe Albert (sur qui nous pourrons nous appuyer)

Responsabilités

  • Installation et automatisation de l’infrastructure GPU

  • Déploiement de modèles LLM

  • Déploiement de l’infrastructure RAG

  • Sécurité & Monitoring de l’infastructure


Profil recherché

Profil DEVOPs avec une expérience sur des infra GPU ou profil ingénieur IA avec l’envie et la motivation de prendre la responsabilité DEVOPs pour instancier les modèles sur une infra GPU

Compétences clés

Cloud & Infra

Outscale (ou AWS/GCP/AZUR), VPC, Security Groups, Load Balancer

IaC & Automatisation

OpenTofu/Terraform, Ansible, CI/CD (GitLab CI/GitHub Actions)

GPU & Drivers

Installation drivers NVIDIA, CUDA/cuDNN, nvidia-smi, nvidia-container-toolkit

Containers & Orchestration

Docker, Compose, notions Kubernetes

Serveurs de LLM

vLLM, HuggingFace Text Generation Inference, configuration des modèles

Gateways & API

OpenGateLLM, REST API design, auth, performance tuning

RAG

Qdrant, embeddings (OpenAI, Instructor, E5), pipeline ingestion

Programmation

Python (FastAPI/Django/Flask, LangChain), scripting Bash

Monitoring & Logs

Grafana (Promtail), Prometheus, Loki, ELK


Déroulement des entretiens

  • 1 premier échange visio de 30 mn pour tester la motivation et permettre un temps de question / réponse

  • 1 deuxième entretien technique (1H)

Envie d’en savoir plus ?