Este puesto ya no está disponible.

Data Scientist H/F

Indefinido
Pessac
Salario: No especificado
Sin trabajo a distancia

HelloWork
HelloWork

¿Te interesa esta oferta?

jobs.faq.title

El puesto

Descripción del puesto

Composée de 6 personnes réparties entre Bordeaux et Rennes, l'équipe Data science mène des travaux de recherche appliquée en machine learning et plus particulièrement en Natural Language Processing (NLP) pour nourrir les solutions du groupe HelloWork : parsing de CV, analyse automatique d’offres d’emploi ou de formation, algorithmes de recommandation, modèles prédictifs, clustering, études adhoc, etc.

Ce poste est l’occasion de rejoindre une équipe transverse, dynamique, aux profils variés et complémentaires : ingénieurs R&D avec un background en maths appliquées, linguistes spécialisés en traitement automatique du langage ou encore experte métier. Le tout en collaboration étroite avec des ingénieurs web sémantique, des data ingés et un architecte Data (mais pas que ).

Vos missions : Mener des projets R&D, de la bibliographie à un prototype exploratoire, jusqu’à l’implémentation en production d’une solution robuste et efficace Challenger l’existant, proposer de nouvelles idées, méthodes et étudier de nouveaux algos Faire progresser l’expertise de l’équipe Data, en délivrant vous-même et en étant un référent technique capable de mentorer d’autres data scientists plus junior S’assurer que la méthodologie suivie est rigoureuse scientifiquement, et contribuer à l’excellence tant intellectuelle qu’opérationnelle des solutions Data Contribuer à la montée en compétences de l’équipe, en partageant ses connaissances et en ayant un penchant marqué pour la veille et l’apprentissage Echanger avec les équipes Produits et convertir leurs remontées en sujets data science : formuler les questions auxquelles on devra répondre Identifier et collecter la donnée nécessaire pour un sujet, explorer les datasets à disposition et créer ceux de training / validation selon les besoins Contribuer à faire rayonner la data Science chez HelloWork, en interne lors de démos aux autres équipes ou en externe en participant à des conférences ou des meetups

Notre stack technique : Langages : Python, Java ML / R&D : scikit-learn, pytorch, tensorflow, spacy, fasttext, transformers,… Storage : Elasticsearch, Mongo, Big Query, SQL, SKOS/OWL/RDF sur triple store Data viz : Data Studio, Kibana Ops : Gitlab CI/CD, Jenkins


Requisitos

Notre futur collègue idéal est autonome, débrouillard, curieux, rigoureux, organisé, pragmatique, aime apprendre, partager et travailler à plusieurs !

Vous êtes diplômé d’une école d’ingénieur ou d’un master en mathématiques appliquées, machine learning ou domaine connexe.

Vous avez au moins 5 ans d’expérience professionnelle sur des sujets R&D variés, vous permettant d’avoir une bonne vision de l’état de l’art sur les algos usuels en data science, et d’avoir réussi à les mettre en pratique sur des cas d’usage concrets.

Vous vous intéressez aux aspects théoriques des sujets et vous êtes capable de comprendre (et expliquer) les maths et statistiques sous-jacentes aux modèles que vous manipulez.

Vous êtes aussi attentifs aux points techniques : vous cherchez à évaluer et optimiser les performances non seulement des algos mais aussi de votre code, vous aimez échanger avec l’architecte Data et les data ingés pour mettre en place un pipeline qui tiendra la route

Et vous êtes capable également de prendre du recul sur les sujets, comprendre la vision produit, synthétiser et vulgariser les résultats obtenus.

Les compétences recherchées :

Vous êtes expert en analyse de données, statistiques et apprentissage automatique (supervisé ou non). Sélectionner un algo, choisir des hyperparamètres, entraîner/valider un modèle, le mettre en production font partie de vos compétences.

Vous maîtrisez Python, et si vous avez des connaissances en Java, Scala ou un autre langage, c’est bonus ! De manière générale, vous êtes sensible aux bonnes pratiques de développement : code propre et lisible, commenté, revu, etc.

Vous êtes à l’aise avec git, le versioning de code et les merge requests

Vous connaissez les principales librairies et frameworks usuels pour l’analyse de données : scikit-learn, pytorch/tensorflow, spacy, les lib Hugging Face, etc.

De l’expérience sur des projets NLP serait un plus mais l’envie et la capacité de se plonger dans les notions de tokenisation, lemmatisation, recherche d’entités nommées, word embeddings et réseaux de types Transformer reste la plus importante, même sans expérience préalable. ;)

¿Quieres saber más?