Rejoignez la tech company PMU et devenez acteur(trice) de la fiabilité de notre SI !
Votre mission ? Garantir la robustesse, la performance et la disponibilité de nos systèmes critiques en automatisant les processus industriels, dans un contexte agile et en pleine transformation.
Votre terrain de jeu :
· Veillez à la fiabilité, observabilité et résilience de nos systèmes en production : mise en place d’outils de surveillance, gestion des alertes, coordination des incidents, post-mortem.
· Assurez la continuité de service via des astreintes 24/7, rétablissements rapides et support aux développeurs.
· Automatisez les opérations (CI/CD) et développez des outils pour améliorer les processus.
· Identifiez les points de faiblesse, proposez les optimisations et participez à l’évolution architecturale du SI.
· Pilotez les bonnes pratiques SRE, structurez les comités (SRE CoE) et promouvez l’industrialisation et l’observabilité auprès des équipes projets.
Votre environnement
Vous êtes en relation avec?:
· Rattaché à la direction Opérations IT, pour?:
o Favoriser l’adoption du nouvel SI
o Faciliter la transition vers les nouvelles méthodes de travail
o Partager les bonnes pratiques SRE et d’ingénierie logicielle
· Les System Teams des trains “?Safe?” PPO (Prise de Paris et Opérations) et C&P (Clients et Partenaires), les lignes de développements de ces deux trains
· Les équipes du département “?Disponibilité & Performance?” en charge de l’APM Dynatrace et autres outils de Monitoring en place au PMU
· Les différents départements et équipes de la direction “?Opérations IT?”?: équipes systèmes, réseaux, pilotage informatique, méthode & qualité, …
· Les architectes de la direction “?Technologie et Innovation?”
· Le CCOE pour industrialiser la mise en disponibilité et la conformité des outils, la configuration et l’application des bonnes pratiques.
Ce que nous attendons de vous :
· Minimum 3 ans d’expérience dans un rôle SRE ou équivalent.
· Solides compétences en programmation et en scripting (Python, Shell, Java, SQL, etc.) ainsi que de l’environnement AWS.
· Maîtrise des concepts de l’infrastructure en tant que code (IaC) et des outils associés (Terraform, Kubernetes, etc.).
· Connaissance approfondie des principes de gestion des incidents et des meilleures pratiques en matière de fiabilité des systèmes.
· Expérience dans la mise en place et la gestion de solutions de surveillance et de métriques (ex?: Dynatrace, ELK, etc.).
· Excellente communication, esprit collaboratif, proactivité et rigueur.
· Être créatif, polyvalent, “ Sherlock Holmes “ des incidents, avec vision globale de la fiabilité.
Votre profil :
· Diplôme en informatique, génie logiciel ou système.
· Curieux(se), orienté(e) résultats, capable à travailler de manière de transverse et de propulser l’équipe vers l’excellence.