Ingénieur Stockage – AI Factory

CDI
Paris
Télétravail occasionnel
Salaire : Non spécifié

Ples Convergence
Ples Convergence

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Notre client est un acteur Cloud, opérateur souverain et durable de l’Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.

Nous recherchons un Ingénieur système et opération. Intégré à l’équipe AI Factory, vous êtes en charge d’opérer les usines à GPU de notre client.

Vos missions :
– Le déploiement des couches logicielles, depuis les OS de base jusqu’aux couches d’abstraction de type hyperviseur de virtualisation, orchestrateur de container
– La configuration des serveurs, des couches réseaux, en particulier du réseau Infiniband et des commutateurs Nvlink
– La mise en place des outils de supervision et de monitoring, en particulier :
o La surveillance matérielle de l’usine à IA allant des moyens de refroidissement (CDU / échangeurs thermiques, identification des fuites d’eau), les moyens de calcul (serveurs), les équipements de communication réseau et fabric internes aux serveurs (Nvlink), les GPU (température, performance, utilisation)
o La surveillance système pour toutes les couches logicielles de bas niveau
o La surveillance des services qui seront définis
o La surveillance de la disponibilité et de la performance du stockage
o La surveillance des performances d’ensemble de bout-en-bout
o La mise en place d’un cockpit de supervision permettant de visualiser de manière synthétique l’état de l’usine à GPU
o La mise en place d’un dashboard management permettant de visualiser des éléments simplifiés à l’usage du management de l’entreprise et permettant de visualiser l’état de disponibilité des services et l’état des performances des
services
– L’élaboration de dispositifs permettant l’automatisation des opérations, en particulier :
o La mise à jour des composants logiciels
o La relance / réparation (self-healing) des composants logiciels lorsque c’est faisable
o L’isolation de GPU / nœuds / serveurs qui ne seraient plus en mesure d’exécuter des traitements
o La relance des traitements sur un autre serveur lorsque cela est faisable au niveau applicatif
– L’élaboration des process de support, de gestion des incidents, de mise à jour des environnements (GPU / BIOS / NvSwitch / NIC)
– La gestion de la capacité avec identification en avance de phase des saturations, identification des usages principaux et mise en place de dashboards permettant la prise de décision sur les investissements à réaliser
– La gestion de la sécurité en relation avec les équipes Cyber Sécurité
– La gestion du réseau au sein des serveurs en relation avec les ingénieurs réseaux dédiés à l’AI Factory
– Le paramétrage des outils de management de l’usine à GPU
– Le paramétrage des accès au stockage, la vérification de la performance d’accès au stockage pour l’ensemble des nœuds
– La sauvegarde et la restauration des configurations permettant la relance de l’usine à GPU en cas de dysfonctionnement
– L’élaboration d’un plan de débordement afin d’utiliser une autre usine à GPU en cas de saturation
– L’élaboration d’un plan de secours permettant de redémarrer le service sur une autre usine à GPU en cas d’indisponibilité majeure
– Le support aux utilisateurs internes
– L’intégration de services nouveaux développés par les équipes internes ou basés sur des solutions tierces (par exemple Nvidia)
– Mise en œuvre des outils Nvidia Mission Control et Nvidia Run:ai
– Mise en place de métrique de coût (€/TFLOPS, €/VM, €/heure GPU)


Profil recherché

  • Formation : ingénieur ou équivalent BAC+5.
    Expérience professionnelle antérieure :
    – Si possible 2 ans d’expérience
    – Débutant accepté à condition que la personne soit un passionné d’informatique, de hardware, etc.
    – Langue : maîtrise du français et de l’anglais obligatoire.

  • Compétences techniques : à minima 2 compétences parmi celles ci-dessous :
    – Administration système d’exploitation Linux (pas uniquement utilisateur)
    – Déploiement et opération de containers en particulier Docker et/ou Kubernetes
    – Déploiement et/ou administration d’infrastructure de supercalcul (HPC / High performance computing)
    – Administration réseau / connaissance de la stack IP / déploiement de réseaux Cisco / certification Cisco
    – Cloud Expert AWS ou GCP ou Azure
    – Déploiement / administration d’hyperviseurs de virtualisation, ou de logiciels d’orchestration Cloud
    – Administration des outils de gestion d’infrastructure Nvidia : Mission Control et/ou Run:ai
    – L’une des certification suivante: Kubernetes CKA/CKS, Nvidia Certified, Cisco CCNP/CCIE, RedHat RHCE


Déroulement des entretiens

  • Entretien cabinet de recrutement

  • Entretiens client

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

  • Eviden

    Machine Learning Engineer F/H

    Eviden
    Eviden
    CDI
    Bezons
    Télétravail fréquent
    IT / Digital, SaaS / Cloud Services
    4 200 collaborateurs

  • MP DATA

    Data Scientist - IAGen 3D, Confirmé(e)

    MP DATA
    MP DATA
    CDI
    Boulogne-Billancourt
    Télétravail fréquent
    Salaire : 50K à 65K €
    Intelligence artificielle / Machine Learning, IT / Digital
    150 collaborateurs

  • Klint

    Consultant senior Data

    Klint
    Klint
    CDI
    Levallois-Perret
    Télétravail fréquent
    Salaire : 55K à 70K €
    Logiciels, Digital Marketing / Data Marketing
    120 collaborateurs

  • Talan

    Consultant senior ETL / Talend

    Talan
    Talan
    CDI
    Paris
    Télétravail fréquent
    IT / Digital, Transformation
    7 100 collaborateurs

  • Bial-X

    Datascientist Confirmé Energie

    Bial-X
    Bial-X
    CDI
    Paris, Lyon, Strasbourg…+1
    Télétravail fréquent
    Intelligence artificielle / Machine Learning, IT / Digital
    72 collaborateurs

  • Theodo Data & AI

    Lead AI Engineer - CDI Paris - Theodo Data & AI

    Theodo Data & AI
    Theodo Data & AI
    CDI
    Paris
    Télétravail fréquent
    Intelligence artificielle / Machine Learning, IT / Digital
    70 collaborateurs

Voir toutes les offres