Administrateur Système et Réseau – AI Factory

CDI
Paris
Télétravail occasionnel
Salaire : Non spécifié

Ples Convergence
Ples Convergence

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Notre client est un acteur Cloud, opérateur souverain et durable de l’Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.

Nous recherchons un Administrateur Système et Réseau. Votre mission est de garantir la disponibilité, la latence ultrafaible et la sécurité des plateformes de stockage, tout en offrant une observabilité complète (métriques, tableaux de bord) et en assurant la continuité de service pour les charges de travail IA à très forte intensité de données.

Conception & déploiement de fabrics haut débit :
– Architecture InfiniBand HDR/NDR et Ethernet Spectrum (RoCEv2)
– Dimensionnement pour un service IA à très grande échelle
Développement & optimisation des communications RDMA
– Implémentation de piles RDMA (libibverbs, NVPeerMemory)
– Optimisation GPUDirect / GPUDirectRDMA pour un transfert de données ultrarapide sans surcharge CPU
Intégration RDMA / Kubernetes
– Utilisation du deviceplugin NVIDIA pour l’exposition des interfaces RDMA aux pods
– Garantir le bon fonctionnement des workloads conteneurisés (MPI, NCCL)
Collaboration avec les équipes d’infrastructure
– Accélération des pipelines de données et des communications collectives (NCCL, MPI, CUDAAware MPI)
– Partage de bonnes pratiques et recettes d’optimisation
Détection et remontée des goulots de performance
– Analyse de la latence et de la bande passante avec Prometheus, Grafana, NetQ, UFM
– Propositions d’ajustements (MTU, affinage CPUGPU, tuning du firmware)
Gestion d’incident / Ticketing Niveau 2 :
– Prise en charge des tickets
Documentation
– Rédaction de procédures, schémas d’infrastructure
– Mise à jour du wiki Confluence et du CMDB (NetBox)
Veille technologique
– Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
– Proofofconcept sur les nouvelles générations de NIC (RoCE v2, InfiniBand Enhanced Speed)

Périmètre d’intervention : Europe, Amérique du Nord, Asie


Profil recherché

Formation : ingénieur ou équivalent BAC+5.
Expérience professionnelle antérieure :
Expérience professionnelle : Minimum 2 ans d’expérience pratique avec les technologies
NVIDIA RDMA (GPUDirect, RoCE, InfiniBand) dans des environnements HPC ou IA.

Compétences techniques souhaitées :
– GPU NVIDIA & cartes réseau Mellanox (InfiniBand, RoCE)
– Protocoles RDMA : GPUDirect RDMA, RoCEv2
– Programmation basniveau C/C++ ou Rust
– Maîtrise de la pile NVIDIA : pilotes Mellanox, libibverbs, NVPeerMemory
Compétences complémentaires (au moins 2 parmi les suivantes) :
– Kubernetes (deviceplugin, SRIOV, CNI)
– MPI & NCCL (CUDAAware)
– Automatisation – Ansible, Terraform, Python/Bash, Git/GitLab CI
– Administration Linux (kernel tuning, netfilter)
– Outils de supervision – Prometheus, Grafana, UFM, NetQ, Zabbix, NetBox
Langues : Français et anglais courants (écrit & oral).

Softskills :
– Analyse & résolution de problèmes complexes
– Esprit d’équipe et bonnes capacités de communication
– Autonomie, sens de l’initiative
Certification (optionnelle mais appréciée) : NVIDIA DLI


Déroulement des entretiens

  • Entretien cabinet de recrutement

  • Entretiens client

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Ingénierie et administration des réseaux”.

Voir toutes les offres