Cette offre n’est plus disponible.

Stage Backend: Backend Internship: Crawler/parser des documents au format PDF

Stage(3 à 6 mois)
Salaire : Non spécifié
Télétravail fréquent
Expérience : < 6 mois
Éducation : Bac +5 / Master

Qwant
Qwant

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

Mission :
Qwant recherche un étudiant pour un stage de fin d’étude, ouvrant potentiellement sur un recrutement.
Dans le cadre du développement de notre crawler et de notre index web, nous souhaiterions prendre en compte plus de formats textuels qu’actuellement, en commençant par l’ajout du format PDF.
Le stagiaire devra développer un outil de parsing de PDF et l’extraction des signaux dans un format compréhensible par notre index. Une fois collectés, les documents seront intégrer à notre index.

L’équipe:
Tu travailles au sein de l’équipe Core Search, chargée de la maintenance et des évolutions du Moteur de Recherche Web propre à Qwant.

L’équipe est essentiellement composée de Data Scientists, Data Engineers et développeurs backend, intervenant sur des problématiques Big Data et Machine Learning, Information Retrieval et NLP (Traitement du Langage Naturel).

Activités et résultats attendus
Après 2 mois :

Prise en main des outils utilisés par l'équipeParsing des documents au format PDFEvaluation de la solution 

Après 5 mois :

Extraire les signaux depuis les documents parsésIndexation des documents dans notre index webSynthèse du travail effectué et analyse des résultats

Tools/technologies

RustVespa indexing and retrieval platform (https://vespa.ai/)Git version control

Profil recherché

Pré-requis
Parcours

Bac+5 / Master 

Hard skills

A l’aise avec un langage type Rust ou C++ Être familier avec la programmation asynchrone Programmation sous linux os

Soft skills

Esprit d’équipe et bonne communicationFort esprit académiqueProactivité et agilitéOwnership

Déroulement des entretiens

Entretiens techniques avec l’équipe CoreSearch

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Développement de logiciels et de sites Web”.

Voir toutes les offres