Mission :
Qwant recherche un étudiant pour un stage de fin d’étude, ouvrant potentiellement sur un recrutement.
Dans le cadre du développement de notre crawler et de notre index web, nous souhaiterions prendre en compte plus de formats textuels qu’actuellement, en commençant par l’ajout du format PDF.
Le stagiaire devra développer un outil de parsing de PDF et l’extraction des signaux dans un format compréhensible par notre index. Une fois collectés, les documents seront intégrer à notre index.
L’équipe:
Tu travailles au sein de l’équipe Core Search, chargée de la maintenance et des évolutions du Moteur de Recherche Web propre à Qwant.
L’équipe est essentiellement composée de Data Scientists, Data Engineers et développeurs backend, intervenant sur des problématiques Big Data et Machine Learning, Information Retrieval et NLP (Traitement du Langage Naturel).
Activités et résultats attendus
Après 2 mois :
Prise en main des outils utilisés par l'équipeParsing des documents au format PDFEvaluation de la solution
Après 5 mois :
Extraire les signaux depuis les documents parsésIndexation des documents dans notre index webSynthèse du travail effectué et analyse des résultats
Tools/technologies
RustVespa indexing and retrieval platform (https://vespa.ai/)Git version control
Pré-requis
Parcours
Bac+5 / Master
Hard skills
A l’aise avec un langage type Rust ou C++ Être familier avec la programmation asynchrone Programmation sous linux os
Soft skills
Esprit d’équipe et bonne communicationFort esprit académiqueProactivité et agilitéOwnership
Entretiens techniques avec l’équipe CoreSearch
Ces entreprises recrutent aussi au poste de “Développement de logiciels et de sites Web”.
Voir toutes les offres