About the Role
We are looking for a Senior DevOps Engineer to join our engineering team and drive the scalability, performance, and reliability of our infrastructure. You will play a critical role in building and maintaining a modern DevOps stack that powers real-time & batch data processing, distributed systems, and machine learning pipelines.
You will be responsible for infrastructure automation, monitoring, deployment pipelines, and ensuring high availability for mission-critical services in production.
Key Responsibilities
- Design, build, and manage cloud infrastructure (AWS/GCP/Azure) using IaC tools (Terraform, etc.)
- Deploy and manage Kubernetes clusters and workloads across environments.
- Set up and manage Apache Kafka clusters for event-driven architectures.
- Develop and maintain CI/CD pipelines for backend services, data pipelines, and ML workflows.
- Support & Maintain Airflow DAGs for data and task automation across environments.
- Optimize system performance and ensure infrastructure reliability, scalability, and security.
- Implement observability solutions: logging, monitoring, alerting (e.g., Prometheus, Grafana, ELK, Loki, Sentry).
- Work with development, data, and ML teams to ensure smooth integration and deployments.
- Mentor junior DevOps or SRE engineers and contribute to infrastructure roadmap.
Required Qualifications
- 5+ years of hands-on experience in DevOps, Site Reliability Engineering, or Infrastructure Engineering.
- Deep expertise with Kubernetes, including Helm, operators, and managing multi-cluster environments.
- Strong experience with Kafka setup, tuning, and monitoring in production.
- Experience with maintaining & supporting Apache Airflow deployments..
- Proficiency in CI/CD pipelines using tools like GitHub Actions, GitLab CI, ArgoCD, Jenkins, or Spinnaker.
- Strong scripting and automation skills (Python, Bash, Go, etc.).
- Experience with Terraform, Ansible, or other infrastructure-as-code tools.
- Familiarity with containerization (Docker) and cloud-native tooling.
- Solid understanding of networking, security best practices, and distributed system operations.
Preferred Qualifications
- Experience in a cloud-native environment with autoscaling & service meshes.
- Hands-on experience with ML Ops infrastructure or data platform operations.
Recruitment process
Pre-selection interview
Case study
Interviews with the hiring manager, the head of department, a member of the team and the CEO.
À propos du poste
Nous recherchons un ingénieur DevOps senior pour rejoindre notre équipe d'ingénieurs et améliorer l'évolutivité, les performances et la fiabilité de notre infrastructure. Vous jouerez un rôle essentiel dans la création et la maintenance d'une pile DevOps moderne qui alimente le traitement des données en temps réel et par lots, les systèmes distribués et les pipelines d'apprentissage automatique.
Vous serez responsable de l'automatisation de l'infrastructure, de la surveillance, des pipelines de déploiement et de la haute disponibilité des services critiques en production.
Principales responsabilités
- Concevoir, construire et gérer l'infrastructure cloud (AWS/GCP/Azure) à l'aide d'outils IaC (Terraform, etc.)
- Déployer et gérer les clusters Kubernetes et les charges de travail dans tous les environnements.
- Configurer et gérer les clusters Apache Kafka pour les architectures événementielles.
- Développer et maintenir des pipelines CI/CD pour les services backend, les pipelines de données et les workflows ML.
- Prendre en charge et maintenir les DAG Airflow pour l'automatisation des données et des tâches dans tous les environnements.
- Optimiser les performances du système et garantir la fiabilité, l'évolutivité et la sécurité de l'infrastructure.
- Mettre en œuvre des solutions d'observabilité : journalisation, surveillance, alertes (par exemple, Prometheus, Grafana, ELK, Loki, Sentry).
- Collaborer avec les équipes de développement, de données et de ML pour assurer une intégration et des déploiements fluides.
- Encadrer les ingénieurs DevOps ou SRE juniors et contribuer à la feuille de route de l'infrastructure.
Qualifications requises
Plus de 5 ans d'expérience pratique dans le domaine du DevOps, de l'ingénierie de fiabilité des sites ou de l'ingénierie des infrastructures.
Expertise approfondie de Kubernetes, y compris Helm, les opérateurs et la gestion d'environnements multi-clusters.
Solide expérience dans la configuration, le réglage et la surveillance de Kafka en production.
Expérience dans la maintenance et le support des déploiements Apache Airflow.
Maîtrise des pipelines CI/CD à l'aide d'outils tels que GitHub Actions, GitLab CI, ArgoCD, Jenkins ou Spinnaker.
Solides compétences en script et en automatisation (Python, Bash, Go, etc.).
Expérience avec Terraform, Ansible ou d'autres outils d'infrastructure en tant que code.
Connaissance de la conteneurisation (Docker) et des outils natifs du cloud.
Solide compréhension des réseaux, des meilleures pratiques en matière de sécurité et des opérations des systèmes distribués.
Qualifications souhaitées
Expérience dans un environnement natif du cloud avec autoscaling et service meshes.
Expérience pratique avec l'infrastructure ML Ops ou les opérations de plateformes de données.
Process recrutement
Entretetien de préselection
Case study
Entretiens avec le Hiring Manager, le responsable de département, une personne de l'équipe et le CEO.