Stage Junior NLP Engineer - F/H

Stage
Paris
Télétravail fréquent
Salaire : Non spécifié

ChapsVision
ChapsVision

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

💻 PRESENTATION DE CHAPSVISION 

Fondé en 2019, ChapsVision est un éditeur de logiciels en pleine croissance, membre du NEXT40 de la French Tech parmi les 40 start-ups françaises les plus prometteuses. 

Avec 1200 collaborateurs et plus de 1000 clients grands comptes et régaliens, nous avons pour ambition de devenir un leader européen du traitement souverain de la donnée. 

Notre objectif est de poursuivre notre développement en renforçant nos équipes pour concevoir, commercialiser, déployer et supporter des produits innovants de plus en plus ambitieux. 

Parallèlement, notre engagement social se manifeste à travers la fondation HappyCap, adossée au groupe, qui vise à soutenir les enfants atteints de troubles de développement mental et cognitif et leurs familles. 

👋 CONTEXTE DU POSTE 

Vous rejoignez l’équipe spécialisée en NLP et extraction d’information, dont les travaux sont au cœur des solutions de renseignement, d’analyse et de structuration de la donnée de ChapsVision.

Le stage porte sur un défi émergent : la Relation Resolution, un nouveau sous-domaine du NLP visant à aligner des relations extraites automatiquement (OpenIE) avec des schémas d’ontologies, ou à induire ces schémas à partir d’un corpus.

Vous travaillerez à la frontière entre extraction d’information, clustering, embeddings sémantiques et ontologies, en vous appuyant sur la littérature récente


💡VOS FUTURES MISSIONS

  •   Réaliser un état de l’art sur l’OpenIE, l’alignement d’ontologies et la Relation Resolution
  • Concevoir une pipeline capable de mapper des relations OpenIE vers un schéma ontologique existant
  • Implémenter et tester différentes approches : similarité d’embeddings, heuristiques graphe, clustering, LLM léger…
  • Développer une méthode de génération automatique d’un schéma relationnel depuis un corpus
  • Étudier l'utilisation de techniques frugales (modèles spécialisés, règles, agents SLM) pour améliorer la précision à moindre coût
  • Documenter les résultats et proposer des pistes d’intégration dans les pipelines produits


    🤝 LES COMPETENCES ET QUALITES QUE NOUS RECHERCHONS  

    • Intérêt pour le NLP, l’extraction d’information ou les ontologie
    • Bon niveau en Pytho
    • Connaissances souhaitées : embeddings, clustering, graphes, KG 
    • Curiosité, autonomie, bon esprit d’analyse

      🎁 CE QUE NOUS OFFRONS À NOS STAGIAIRES 

      • Carte SWILE : 10€ / jour pris en charge à 60% 
      • Transport en commun : Pris en charge à 50% 
      • Télétravail : 3 jours/semaine maximum avec une indemnité de 26 euros par mois 

      📞 NOTRE PROCESS DE RECRUTEMENT 

      1. Un entretien téléphonique avec l’un de nos recruteurs techniques pour faire connaissance. 
      1. Un échange avec votre futur tuteur pour évaluer vos compétences et discuter du déroulement de votre futur stage.  

      Tous nos postes sont ouverts aux personnes en situation de handicap. 

      Bibliograhie : 

      1. Liu, P. et al. (2024) – A Survey on Open Information Extraction from Rule-based Model to Large Language Model. arXiv:2208.08690.
      Latest broad survey on OpenIE, covering rule-based, neural and LLM-based approaches.
      Link: https://arxiv.org/abs/2208.08690 arXiv
      2. Bian, H. (2025) – LLM-empowered knowledge graph construction: A survey. arXiv:2510.20345.
      Systematic review of how LLMs are used for (semi-)automatic KG/ontology construction across schema design, extraction, and fusion.
      Link: https://arxiv.org/abs/2510.20345 arXiv
      3. Vashishth, S., Jain, P., & Talukdar, P. (2018) – CESI: Canonicalizing Open Knowledge Bases Using Embeddings and Side Information. WWW 2018.
      Canonicalizes OpenIE-style triples (entities + relations) via embeddings and side information; classic reference for relation/entity clustering.
      Link: https://doi.org/10.1145/3178876.3186030 GitHub
      4. Dash, S., Rossiello, G., Mihindukulasooriya, N., Bagchi, S., & Gliozzo, A. (2021) – Open Knowledge Graphs Canonicalization using Variational Autoencoders. EMNLP 2021.
      Proposes CUVA, a VAE-based joint model for entity and relation canonicalization in open KGs.
      Link: https://aclanthology.org/2021.emnlp-main.811/ ACL Anthology
      5. Lomaeva, M., & Jain, N. (2022) – Relation Canonicalization in Open Knowledge Graphs: A Quantitative Analysis. ESWC 2022 Satellite Events.
      Focuses specifically on relation canonicalization, with quantitative analysis and datasets built from OpenIE relations.
      Link: https://link.springer.com/chapter/10.1007/978-3-031-11609-4_4 OUCI

      Envie d’en savoir plus ?

      D’autres offres vous correspondent !

      Ces entreprises recrutent aussi au poste de “Ingénierie et administration des réseaux”.

      • ChapsVision

        Stage Junior NLP Engineer - F/H

        ChapsVision
        ChapsVision
        Stage
        Paris
        Télétravail fréquent
        Intelligence artificielle / Machine Learning, Big Data
        1 200 collaborateurs

      • Groupe SII

        Ingénieur.e Réseau informatique & sécurité (F/H)

        Groupe SII
        Groupe SII
        Stage
        Vélizy-Villacoublay
        Télétravail non autorisé
        Salaire : 16,8K €
        Logiciels, Intelligence artificielle / Machine Learning
        16 000 collaborateurs

      • Greenerwave

        RF Engineer (F/H) - Stage

        Greenerwave
        Greenerwave
        Stage
        Paris
        Télétravail non autorisé
        Salaire : 950 à 1 150 € par mois
        Métallurgie, Intelligence artificielle / Machine Learning
        124 collaborateurs