Lieu : La Ciotat, France
Thales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et plus inclusif. Le Groupe investit près de 4 milliards d’euros par an en Recherche & Développement, notamment dans des domaines clés de l’innovation tels que l’IA, la cybersécurité, le quantique, les technologies du cloud et la 6G. Thales compte près de 81 000 collaborateurs dans 68 pays.
Une réussite portée par notre excellence technologique, votre expérience et notre ambition partagée
Un package de rémunération attractif
Un développement des compétences en continu : parcours de formation, académies et communautés internes
Un environnement inclusif, bienveillant et respectant l’équilibre des collaborateurs
Un engagement sociétal et environnemental reconnu
Au sein de Cybersécurité et Identité Numérique (CDI), le Cloud Center of Excellence (CCoE) centralise l'expertise cloud pour accélérer la transformation numérique de Thales.
Le CCoE opère sur Cloud Start, Cloud Boost, et Cloud Scale, au service de plusieurs Business Lines (MCS, PAY, IBS).
Le département SRE protège la santé opérationnelle de cinq produits cœur :- Synapse (passerelle IA gérée)- Jarvis (tour de contrôle développeur)- Oxygen (services de plateforme et API)- Photon (services de données et calcul)- Foundations (infrastructure et fondations de plateforme)
Le poste dirige les ingénieurs SRE responsables de la fiabilité, de l'observabilité et de l'excellence incident à l'échelle CCoE, avec Datadog comme colonne vertébrale stratégique de l'observabilité.
Vos missions
### People Management- Assumer le développement de carrière, les revues de performance et le mentorat des ingénieurs SRE- Construire des plans de croissance avec un fort développement des capacités Datadog (infra, APM, logs, synthetics, RUM, sécurité, automation)- Favoriser les post-mortems sans blâme, la sécurité psychologique et des pratiques d'astreinte durables- Équilibrer la préparation aux incidents avec le développement à long terme de l'équipe
### Delivery & Strategy- S'associer à toutes les équipes produit pour définir et gouverner les SLOs, error budgets et cibles de fiabilité- Améliorer la réponse aux incidents et le MTTR via des garde-fous automatisés et la maturité des runbooks- Définir les standards de fiabilité et les processus d'excellence opérationnelle- Piloter l'adoption et la maturité de Datadog dans l'ensemble de l'organisation- Traduire la croissance business en plans de capacité et de résilience opérationnelle
### Technical Oversight- Orienter l'architecture de fiabilité sur Synapse, Jarvis, Oxygen, Photon et Foundations- Garantir une couverture d'observabilité de haute qualité et une intelligence incident fiable- Soutenir l'adoption des pratiques avancées Datadog (SLO/error budgets, prévision, détection d'anomalies, corrélation)- Agir comme référent technique sans devenir un goulot d'étranglement opérationnel
### Cross-functional Collaboration- Co-responsabiliser les engagements de fiabilité avec les Product Owners et Engineering Managers- Agir comme point de contact exécutif lors des incidents et revues de fiabilité- Faire remonter les risques tôt et négocier les compromis innovation vs. stabilité- Aligner les pratiques SRE sur le modèle opérationnel délégué du CCoE
Votre profil
- Vous êtes diplômé d'un Master 2 en ingénierie ou d'une école d'ingénieur
- Expérience avérée dans la gestion d'équipes SRE ou de plateforme engineering, incluant le management humain direct- Solide background en site reliability engineering, observabilité et systèmes distribués- Expérience pratique sur Datadog ou plateformes d'observabilité équivalentes à grande échelle- Expérience démontrée dans la propriété de cadres SLO, error budgets et gestion d'incidents de production- Exposition antérieure aux environnements cloud (AWS/Azure/GCP) et aux plateformes conteneurs (Kubernetes/EKS/AKS)
- Expérience dans la création d'automatisation opérationnelle, garde-fous et modèles d'auto-réparation
- Courant en anglais ; le français est un plus
- Leadership de fiabilité : conception des SLOs, commande d'incidents, boucles d'amélioration post-incident- Expertise en observabilité : métriques/logs/traces/signaux utilisateur et qualité d'alerte actionnable- Prise de décision opérationnelle sous pression avec une communication claire avec les parties prenantes- Influence inter-équipes pour aligner la vélocité engineering sur les standards de fiabilité- Discipline d'exécution forte dans les contextes astreinte et critiques pour la production
Idéalement vous disposez :
- Expertise avancée de l'écosystème Datadog (gouvernance entreprise, templates réutilisables, workflows)- Expérience de support des plateformes centrées sur l'IA et gestion des risques de dépendances tierces- Familiarité avec la planification de fiabilité informée par FinOps et compromis coût-performance cloud
Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !Rencontrez Imane, Développeuse Logiciel
Rencontrez Edgar, Manageur des Analystes SOC pour Activités Cyber
These companies are also recruiting for the position of “Cloud computing et DevOps”.