jobs.faq.contractType_question

jobs.faq.contractType_answer_defined

jobs.faq.coverLetter_question

jobs.faq.coverLetter_answer_mandatory

Stage data scientist LLM H/F – VIGINUM

This position is no longer available.

VIGINUM

Stage data scientist LLM H/F

Internship(6 months)

Paris

Salary: Not specified

Starting date: March 31, 2024

No remote work

Experience: > 6 months

Education: Master's Degree

2 months ago

VIGINUM

Interested in this job?

jobs.faq.title

The position

Job description

De nombreuses analyses des phénomènes de manipulation de l’information sont aujourd’hui menées par un écosystème d’entités gouvernementales et privées, et sont publiées sous la forme de rapports. Ce stage propose d’utiliser des Large Language Models (LLMs) pour traiter ces rapports et en extraire les connaissances clefs sur les opérations de désinformation, en identifiant les acteurs, leurs ressources et les modes opératoires employés. Cela permet à la fois la capitalisation des marqueurs techniques individuels, ainsi que l’analyse globale de la menace informationnelle visant la France, à l’instar d’efforts similaires au niveau européen [1].

Une telle démarche nécessite la structuration des informations textuelles et visuelles dans un format structuré et avec une nomenclature prédéfinie. Cela est effectué à l’aide du language STIX [2], qui permet une représentation en knowledge graph spécifique à la manipulation de l’information. L’approche de référence, à dépasser au cours du stage, constitue l’application d’un LLM générique en zero-shot, se basant uniquement sur les données textuelles, pour produire une telle représentation. Des approches plus complexes seront évaluées, avec notamment un réapprentissage partiel d’un LLM grâce à des techniques de Parameter-Efficient Fine-Tuning comme LORA [3]. Les illustrations présentes dans les rapports, qui sont souvent des captures d’écran et des schémas illustratifs, constituent des compléments essentiels du texte brut, et leur inclusion sera investiguée avec des LLMs transformant les images en texte tel LLAVA [4]. Quantitativement, les modèles et leurs incréments successifs seront évalués avec des métriques de similarité de graphes, afin de calculer l’adéquation entre la production automatisée et une collection de knowledge graphs de référence.

[1] 1st EEAS Report on Foreign Information Manipulation and Interference Threats

[2] https://oasis-open.github.io/cti-documentation/stix/intro

[3] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, et al. (2021). Lora: Low-rank adaptation of large language models

[4] Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2023). Visual instruction tuning

[5] RRN: A complex and persistent information manipulation campaign, VIGINUM 19/07/2023

Preferred experience

Étudiant(e) en dernière année d’un cursus Bac+5 (Ingénieur ou M2) spécialisé en Data Science ou Machine Learning, vous justifiez de premiers projets personnels ou académiques en deep learning. La maîtrise de Python, Pandas, ainsi que des librairies usuelles est nécessaire, ainsi qu’une bonne connaissance des mathématiques et statistiques et une aisance avec l’environnement GNU/Linux. Vous démontrez également un fort intérêt pour les dernières avancées sur les LLMs et la computer vision.

Want to know more?

Discover the company

Explore the company’s profile or follow them to find out if they’re the right fit!

Explore the company

Follow them!

The company

VIGINUM

Public Administration

45 employees

Founded in 2021

Average age: 32 years old

55%

45%

Who are they?

VIGINUM est le service technique et opérationnel de l’État chargé de la vigilance et de la protection contre les ingérences numériques étrangères.

Créé en 2021, il répond à un défi majeur : préserver le débat public numérique des manipulations de l’information impliquant des acteurs étrangers et qui ont pour but de nuire à la France et à ses intérêts.

Ses missions sont de détecter ces campagnes et d’en comprendre les caractéristiques (mode opératoire, construction narrative, origine).

The workplace

51 Boulevard de La-Tour-Maubourg, 75007 Paris, France

Need more info?

Company life, atmosphere, achievements... We still have a lot more to tell you!

Discover

Stage data scientist LLM H/F

Interested in this job?

The position

Job description

Preferred experience

Want to know more?

Élise, Data Scientist

Rencontrez Ivann, Ingénieur DevOps