Ingénieur système et opération – Usine à GPU – AI Factory

CDI
Paris
Télétravail occasionnel
Salaire : Non spécifié

Ples Convergence
Ples Convergence

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Notre client est un acteur Cloud, opérateur souverain et durable de l’Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.

Nous recherchons un Ingénieur système et opération. Intégré à l’équipe AI Factory, vous êtes en charge d’opérer les usines à GPU de notre client.

Vos missions :
– Le déploiement des couches logicielles, depuis les OS de base jusqu’aux couches d’abstraction de type hyperviseur de virtualisation, orchestrateur de container
– La configuration des serveurs, des couches réseaux, en particulier du réseau Infiniband et des commutateurs Nvlink
– La mise en place des outils de supervision et de monitoring, en particulier :
o La surveillance matérielle de l’usine à IA allant des moyens de refroidissement (CDU / échangeurs thermiques, identification des fuites d’eau), les moyens de calcul (serveurs), les équipements de communication réseau et fabric internes aux serveurs (Nvlink), les GPU (température, performance, utilisation)
o La surveillance système pour toutes les couches logicielles de bas niveau
o La surveillance des services qui seront définis
o La surveillance de la disponibilité et de la performance du stockage
o La surveillance des performances d’ensemble de bout-en-bout
o La mise en place d’un cockpit de supervision permettant de visualiser de manière synthétique l’état de l’usine à GPU
o La mise en place d’un dashboard management permettant de visualiser des éléments simplifiés à l’usage du management de l’entreprise et permettant de visualiser l’état de disponibilité des services et l’état des performances des
services
– L’élaboration de dispositifs permettant l’automatisation des opérations, en particulier :
o La mise à jour des composants logiciels
o La relance / réparation (self-healing) des composants logiciels lorsque c’est faisable
o L’isolation de GPU / nœuds / serveurs qui ne seraient plus en mesure d’exécuter des traitements
o La relance des traitements sur un autre serveur lorsque cela est faisable au niveau applicatif
– L’élaboration des process de support, de gestion des incidents, de mise à jour des environnements (GPU / BIOS / NvSwitch / NIC)
– La gestion de la capacité avec identification en avance de phase des saturations, identification des usages principaux et mise en place de dashboards permettant la prise de décision sur les investissements à réaliser
– La gestion de la sécurité en relation avec les équipes Cyber Sécurité
– La gestion du réseau au sein des serveurs en relation avec les ingénieurs réseaux dédiés à l’AI Factory
– Le paramétrage des outils de management de l’usine à GPU
– Le paramétrage des accès au stockage, la vérification de la performance d’accès au stockage pour l’ensemble des nœuds
– La sauvegarde et la restauration des configurations permettant la relance de l’usine à GPU en cas de dysfonctionnement
– L’élaboration d’un plan de débordement afin d’utiliser une autre usine à GPU en cas de saturation
– L’élaboration d’un plan de secours permettant de redémarrer le service sur une autre usine à GPU en cas d’indisponibilité majeure
– Le support aux utilisateurs internes
– L’intégration de services nouveaux développés par les équipes internes ou basés sur des solutions tierces (par exemple Nvidia)
– Mise en œuvre des outils Nvidia Mission Control et Nvidia Run:ai
– Mise en place de métrique de coût (€/TFLOPS, €/VM, €/heure GPU)


Profil recherché

– Formation : ingénieur ou équivalent BAC+5.
Expérience professionnelle antérieure :
– Si possible 2 ans d’expérience
– Débutant accepté à condition que la personne soit un passionné d’informatique, de hardware, etc. ou qu’il soit déjà favorablement connu de nos équipes en ayant par exemple fait un stage ou un apprentissage chez nous
– Langue : maîtrise du français et de l’anglais obligatoire.

Compétences techniques : à minima 2 compétences parmi celles ci-dessous :
– Administration système d’exploitation Linux (pas uniquement utilisateur)
– Déploiement et opération de containers en particulier Docker et/ou Kubernetes
– Déploiement et/ou administration d’infrastructure de supercalcul (HPC / High performance computing)
– Administration réseau / connaissance de la stack IP / déploiement de réseaux Cisco / certification Cisco
– Cloud Expert AWS ou GCP ou Azure
– Déploiement / administration d’hyperviseurs de virtualisation, ou de logiciels d’orchestration Cloud
– Administration des outils de gestion d’infrastructure Nvidia : Mission Control et/ou Run:ai
– L’une des certification suivante: Kubernetes CKA/CKS, Nvidia Certified, Cisco CCNP/CCIE, RedHat RHCE


Déroulement des entretiens

  • Entretien cabinet de recrutement

  • Entretiens client

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Voir toutes les offres