L'envoi d'un CV est-il obligatoire pour postuler à cette offre ?

Pour postuler à cette offre, l'envoi de votre CV est obligatoire.

Le télétravail est-il possible pour ce poste ?

Le télétravail occasionnel est autorisé pour ce poste.

Quel est le type de contrat pour ce poste ?

Le contrat pour ce poste est de type {contract_type}.

Une lettre de motivation est-elle obligatoire pour postuler à cette offre ?

La lettre de motivation est optionnelle pour postuler à cette offre.

Ingénieur système et opération – Usine à GPU – AI Factory - Ples Convergence

Ples Convergence

Ingénieur système et opération – Usine à GPU – AI Factory

Résumé du poste

CDI

Paris

Télétravail occasionnel

Salaire : Non spécifié

Compétences & expertises

Conteneurisation et orchestration

Intégration de technologies

Déploiement d'infrastructures virtuelles

Gestion de réseaux

Suivi des performances

+12

il y a 4 heures

Ples Convergence

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Notre client est un acteur Cloud, opérateur souverain et durable de l’Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.

Nous recherchons un Ingénieur système et opération. Intégré à l’équipe AI Factory, vous êtes en charge d’opérer les usines à GPU de notre client.

Vos missions :
– Le déploiement des couches logicielles, depuis les OS de base jusqu’aux couches d’abstraction de type hyperviseur de virtualisation, orchestrateur de container
– La configuration des serveurs, des couches réseaux, en particulier du réseau Infiniband et des commutateurs Nvlink
– La mise en place des outils de supervision et de monitoring, en particulier :
o La surveillance matérielle de l’usine à IA allant des moyens de refroidissement (CDU / échangeurs thermiques, identification des fuites d’eau), les moyens de calcul (serveurs), les équipements de communication réseau et fabric internes aux serveurs (Nvlink), les GPU (température, performance, utilisation)
o La surveillance système pour toutes les couches logicielles de bas niveau
o La surveillance des services qui seront définis
o La surveillance de la disponibilité et de la performance du stockage
o La surveillance des performances d’ensemble de bout-en-bout
o La mise en place d’un cockpit de supervision permettant de visualiser de manière synthétique l’état de l’usine à GPU
o La mise en place d’un dashboard management permettant de visualiser des éléments simplifiés à l’usage du management de l’entreprise et permettant de visualiser l’état de disponibilité des services et l’état des performances des
services
– L’élaboration de dispositifs permettant l’automatisation des opérations, en particulier :
o La mise à jour des composants logiciels
o La relance / réparation (self-healing) des composants logiciels lorsque c’est faisable
o L’isolation de GPU / nœuds / serveurs qui ne seraient plus en mesure d’exécuter des traitements
o La relance des traitements sur un autre serveur lorsque cela est faisable au niveau applicatif
– L’élaboration des process de support, de gestion des incidents, de mise à jour des environnements (GPU / BIOS / NvSwitch / NIC)
– La gestion de la capacité avec identification en avance de phase des saturations, identification des usages principaux et mise en place de dashboards permettant la prise de décision sur les investissements à réaliser
– La gestion de la sécurité en relation avec les équipes Cyber Sécurité
– La gestion du réseau au sein des serveurs en relation avec les ingénieurs réseaux dédiés à l’AI Factory
– Le paramétrage des outils de management de l’usine à GPU
– Le paramétrage des accès au stockage, la vérification de la performance d’accès au stockage pour l’ensemble des nœuds
– La sauvegarde et la restauration des configurations permettant la relance de l’usine à GPU en cas de dysfonctionnement
– L’élaboration d’un plan de débordement afin d’utiliser une autre usine à GPU en cas de saturation
– L’élaboration d’un plan de secours permettant de redémarrer le service sur une autre usine à GPU en cas d’indisponibilité majeure
– Le support aux utilisateurs internes
– L’intégration de services nouveaux développés par les équipes internes ou basés sur des solutions tierces (par exemple Nvidia)
– Mise en œuvre des outils Nvidia Mission Control et Nvidia Run:ai
– Mise en place de métrique de coût (€/TFLOPS, €/VM, €/heure GPU)

Profil recherché

– Formation : ingénieur ou équivalent BAC+5.
Expérience professionnelle antérieure :
– Si possible 2 ans d’expérience
– Débutant accepté à condition que la personne soit un passionné d’informatique, de hardware, etc.
– Langue : maîtrise du français et de l’anglais obligatoire.

Compétences techniques : à minima 2 compétences parmi celles ci-dessous :
– Administration système d’exploitation Linux (pas uniquement utilisateur)
– Déploiement et opération de containers en particulier Docker et/ou Kubernetes
– Déploiement et/ou administration d’infrastructure de supercalcul (HPC / High performance computing)
– Administration réseau / connaissance de la stack IP / déploiement de réseaux Cisco / certification Cisco
– Cloud Expert AWS ou GCP ou Azure
– Déploiement / administration d’hyperviseurs de virtualisation, ou de logiciels d’orchestration Cloud
– Administration des outils de gestion d’infrastructure Nvidia : Mission Control et/ou Run:ai
– L’une des certification suivante: Kubernetes CKA/CKS, Nvidia Certified, Cisco CCNP/CCIE, RedHat RHCE

Déroulement des entretiens

Entretien cabinet de recrutement
Entretiens client

Envie d’en savoir plus ?

Découvrez l'entreprise

Explorez la vitrine de l’entreprise ou suivez-la pour savoir si elle vous correspond vraiment !

Explorer l’entreprise

Ils sont sociables

L'entreprise

Ples Convergence

IT / Digital, Ressources humaines, Recrutement

Âge moyen : 31 ans

Chiffre d'affaires : 1.2 millions euro en 2021

70%

30%

Qui sont-ils ?

PLES Convergence est un cabinet de chasse de têtes dans le secteur du digital, des télécoms et de l’IT. Concrètement, que font-ils? Ils accompagnent leurs clients dans leurs recrutements, en France comme à l’international.
Le Groupe Kering, la FDJ, CANAL+, mais aussi des starts ups et licornes françaises comme Criteo, Mooncard, Ledger…, sont autant de clients qui font confiance au cabinet au quotidien.

En quelques mots, PLES Convergence c’est un environnement responsabilisant pour les passionnés de technologies et de relations humaines.

Le lieu de travail

Paris, Ile-de-France, France

Les +

Psst... On a plein de choses à vous dire sur les avantages que nous offrons à nos employés.

Découvrir

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Senior Data Engineer (H/F)
Code Busters
CDI
Courbevoie
Télétravail fréquent
Logiciels, IT / Digital
70 collaborateurs
il y a 9 heures
Architecte IA H/F
Thiga
CDI
Paris
Télétravail fréquent
Design, IT / Digital
196 collaborateurs
il y a 10 heures
Consultant(e) Senior Machine Learning Engineer - F/H
CGI
CDI
Paris
Télétravail fréquent
IT / Digital, Transformation
16 000 collaborateurs
il y a 3 jours
Lead Data Engineer (H/F) – MPdata
MP DATA
CDI
Boulogne-Billancourt
Télétravail fréquent
Intelligence artificielle / Machine Learning, IT / Digital
150 collaborateurs
il y a 3 jours
Manager BI / Data Analytics [Luxe-Retail]
Adone Conseil
CDI
Paris
Télétravail occasionnel
IT / Digital, Transformation
500 collaborateurs
il y a 3 jours
Data Engineer Senior H/F/X
Eleven Labs
CDI
Paris
Télétravail fréquent
Logiciels, IT / Digital
100 collaborateurs
il y a 3 jours