L'envoi d'un CV est-il obligatoire pour postuler à cette offre ?

Pour postuler à cette offre, l'envoi de votre CV est obligatoire.

Le télétravail est-il possible pour ce poste ?

Ce poste n'est pas possible en télétravail.

Quel est le type de contrat pour ce poste ?

Le contrat pour ce poste est de type {contract_type}.

Une lettre de motivation est-elle obligatoire pour postuler à cette offre ?

La lettre de motivation est optionnelle pour postuler à cette offre.

Quelle est la date de début du contrat?

Le contrat pour cette offre de job démarre le {start_date}

Data engineer NLP - Explain

Cette offre n’est plus disponible.

Explain

Data engineer NLP

CDI

Paris

Télétravail non autorisé

Salaire : 52K à 57K €

Début : 14 septembre 2022

Expérience : > 2 ans

Éducation : Bac +5 / Master

il y a 4 ans

Explain

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Mission

Le logiciel Goodwill est appuyé sur un datalake alimenté quotidiennement de 50 000 documents textuels qui sont traités dans un pipeline constitué de plusieurs dizaines de micro-services AWS : scraping et collecte, OCRisation, normalisation, tâches de NLP (classification, NER, layout, etc.). Etant donné la croissance du produit, ce pipeline va être de plus en plus complexe : hausse du volume, nouveaux types de données, traitements NLP plus avancés et plus lourds, internationalisation.

Au sein d’une squad polyvalente de 5-6 personnes comprenant datascientist, dev front et dev back, le dataengineer est responsable des étapes de collecte et de normalisation des documents, ainsi que de la scalabilité et des performances du pipeline global. Grâce à son expertise, le dataengineer est capable d’identifier les architectures et les outils permettant de mettre en production des traitements avancés, opérant sur des gros volumes avec de bonnes performances.

Des exemples de sujets:

paralléliser un algorithme de classification des documents administratifs,
collecter en continu les documents sur les sites des administrations américaines,
mettre en place une architecture de tracking de l’activité utilisateur

Principaux enjeux techniques

Le produit Goodwill est structuré autour d’un actif de données textuelles, qui sont collectées et traitées quotidiennement, via des providers de données ou du web scraping. Nos principaux enjeux techniques sont:

Assurer une collecte robuste et rapide de données non structurées et hétérogènes (web scraping).
Apporter de la valeur ajoutée à la données et la structurer via des traitements de NLP (OCR, Reconnaissance d’entité, architecture serverless, architecture de datalake).
Rendre accessible aux utilisateurs la donnée dans un front intuitif (UX/UI, Moteur de recherche, Backend).

Stack

Côté FRONT
- Angular 8
Côté BACK / DATA
- Python (SQL Alchemy, Alembic, Flask)
- Sklearn, Spacy, Scrapy, Hugging Face, pour le machine learning
Côté INFRA
- AWS
- Elasticbeanstalk pour nos microservices
- Lambda / SQS pour nos scripts serverless
- S3
- Cloudfront
Côté qualité : Rollbar, Sonarcloud, Swagger, Openapi, Bitbucket
Outillage divers : Jira, Prodigy, Mixpanel, Segment, Confluence, Draw.io …

Méthode de travail

Politique de remote

Remote possible jusqu’à 2 ou 3 jours par semaine après la phase d’onboarding.

Comment l’équipe produit / tech travaille chez eXplain ?

Idéation - L’équipe produit construit la roadmap en impliquant fortement l’équipe tech dans l’idéation, l’évaluation de la faisabilité, le découpage des sujets.
Spécifications fonctionnelles - Des spécifications fonctionnelles sont rédigées, précisant les fonctionnalités et le comportement attendu.
Conception technique - Un tech est responsable du sujet, et doit mettre sur papier la manière dont il va être réalisée techniquement. A ce stade, pas de code ! Il s’agit d’identifier a priori la bonne architecture, les points difficiles, les interactions avec les autres sujets (cf. https://medium.com/qonto-way/reintroducing-engineering-thinking-in-the-development-world-1541f7cbf1d1).
Réalisation - Une fois la conception technique validée (via une pull request), les tickets sont écrits et le sujet entre dans le backlog. On gère le backlog en Kanban, en réévaluant régulièrement la priorité des sujets. Les tickets sont rassemblés au sein d’une release cohérente qui a lieu toutes les 6 semaines environ.

Implémentation et qualité

Pull request - Elles sont systématiques avec en règle général deux reviewers. Elles sont un moyen pour nous de faciliter la montée en compétence et d’assurer la cohérence de notre base de code.
Code coverage - Sur tous les projets back, une pull request ne peut être fusionnée qu’avec 80% de coverage ou plus.

Profil recherché

Pré requis

Bac+5 : ingénieur ou master informatique
Entre 2 et 5 ans d’expérience professionnelle (hors stage/alternance/freelance),
Maîtrise avancée d’un langage back orienté objet (Python idéalement, sinon Java ou Ruby)
Maîtrise en base de données relationnelle (par exemple postgresql)
A travaillé dans un contexte de production sur un pipeline de traitement de données ou d’ETL
Expérience en modélisation de données
État d’esprit ingénieur : optimisation des performances, architecture

Apprécié

Experience avec ElasticSearch/OpenSearch
Expérience avec les outils et l’environnement AWS (s3, Athena, Glacier),
Appétence pour le NLP, et idéalement première expérience sur des pipeline de traitement de données textuelles,
Appétence pour les sujets de société.

Déroulement des entretiens

Entretien filtre avec le CTO (30min): validation du fit et de l’adéquation du profil au poste
Test technique à regarder chez soi. Les points évalués: conception et modélisation du problème, qualité de l’implémentation
Entretien avec CTO et Lead architect (1h30min): debriefing du test technique, passage en revue détaillé des expériences passées.
Entretien avec un fondateur (30min): validation du fit et de la motivation.

Envie d’en savoir plus ?

Découvrez l'entreprise

Explorez la vitrine de l’entreprise ou suivez-la pour savoir si elle vous correspond vraiment !

Explorer l’entreprise

Ils sont sociables

L'entreprise

Explain

SaaS / Cloud Services, Big Data, Marketing / Communication

40 collaborateurs

Créée en 2013

Âge moyen : 30 ans

Turnover : 10%

40%

60%

Qui sont-ils ?

Explain est une scale-up française spécialisée dans l’IA générative. Nous avons développé la première technologie appliquant les Large Language Models (la technologie derrière ChatGPT) à la donnée publique.

Lancée en 2022, notre solution transforme fondamentalement la manière dont les entreprises travaillent avec le secteur public, en particulier la réponse aux appels d’offres publics et la veille territoriale. Aujourd’hui, en France, demain, à l’échelle mondiale.
Début 2024, nous comptons plus de 70 clients, dont un quart du CAC 40, dans les secteurs de l’énergie, de l’environnement, des télécoms, du BTP, de l’efficacité énergétique, des smart cities.

Après les premiers mois d’utilisation, nos clients disent traiter 3x plus de données en 5x moins de temps, et économiser 10 heures en moyenne chaque semaine.
Explain les déleste de leurs tâches les plus répétitives et fastidieuses pour se concentrer sur des domaines où ils font vraiment la différence : aller sur le terrain et s’engager dans des interactions à forte valeur ajoutée avec leurs clients.

L’ambition est de faire émerger un acteur mondial de l’IA générative développé à partir d’une technologie 100% européenne, jouant ainsi notre rôle dans la construction d’un écosystème d’IA européen qui peut venir concurrencer les Etats-Unis et la Chine.

Le lieu de travail

1 Cité Paradis, 75010 Paris, France

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Data Engineer
Dedale Intelligence
CDI
Paris
Télétravail fréquent
Stratégie, SaaS / Cloud Services
180 collaborateurs
il y a 7 heures
Analytics Engineer
Mirakl
CDI
Paris
Télétravail fréquent
SaaS / Cloud Services, E-commerce
750 collaborateurs
hier
Senior Machine Learning Engineer
Aive
CDI
Paris
Télétravail fréquent
Salaire : 55K à 85K €
Intelligence artificielle / Machine Learning, SaaS / Cloud Services
33 collaborateurs
avant-hier
Data Analytics Engineer - CDI
Recept AI
CDI
Paris
Télétravail occasionnel
Salaire : 45K à 60K €
Logiciels, SaaS / Cloud Services
15 collaborateurs
avant-hier
Analytics Engineer
Skello
CDI
Paris
Télétravail fréquent
Application mobile, SaaS / Cloud Services
350 collaborateurs
avant-hier
TechLead Data H/F
Open
CDI
Levallois-Perret
Télétravail non autorisé
IT / Digital, SaaS / Cloud Services
4 000 collaborateurs
avant-hier