This position is no longer available.

Stage data scientist LLM H/F

Internship(6 months)
Paris
Salary: Not specified
Starting date: March 31, 2024
No remote work
Experience: > 6 months
Education: Master's Degree

VIGINUM
VIGINUM

Interested in this job?

jobs.faq.title

The position

Job description

De nombreuses analyses des phénomènes de manipulation de l’information sont aujourd’hui menées par un écosystème d’entités gouvernementales et privées, et sont publiées sous la forme de rapports. Ce stage propose d’utiliser des Large Language Models (LLMs) pour traiter ces rapports et en extraire les connaissances clefs sur les opérations de désinformation, en identifiant les acteurs, leurs ressources et les modes opératoires employés. Cela permet à la fois la capitalisation des marqueurs techniques individuels, ainsi que l’analyse globale de la menace informationnelle visant la France, à l’instar d’efforts similaires au niveau européen [1].

Une telle démarche nécessite la structuration des informations textuelles et visuelles dans un format structuré et avec une nomenclature prédéfinie. Cela est effectué à l’aide du language STIX [2], qui permet une représentation en knowledge graph spécifique à la manipulation de l’information. L’approche de référence, à dépasser au cours du stage, constitue l’application d’un LLM générique en zero-shot, se basant uniquement sur les données textuelles, pour produire une telle représentation. Des approches plus complexes seront évaluées, avec notamment un réapprentissage partiel d’un LLM grâce à des techniques de Parameter-Efficient Fine-Tuning comme LORA [3]. Les illustrations présentes dans les rapports, qui sont souvent des captures d’écran et des schémas illustratifs, constituent des compléments essentiels du texte brut, et leur inclusion sera investiguée avec des LLMs transformant les images en texte tel LLAVA [4]. Quantitativement, les modèles et leurs incréments successifs seront évalués avec des métriques de similarité de graphes, afin de calculer l’adéquation entre la production automatisée et une collection de knowledge graphs de référence.

[1] 1st EEAS Report on Foreign Information Manipulation and Interference Threats

[2] https://oasis-open.github.io/cti-documentation/stix/intro

[3] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, et al. (2021). Lora: Low-rank adaptation of large language models

[4] Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2023). Visual instruction tuning

[5] RRN: A complex and persistent information manipulation campaign, VIGINUM 19/07/2023


Preferred experience

Étudiant(e) en dernière année d’un cursus Bac+5 (Ingénieur ou M2) spécialisé en Data Science ou Machine Learning, vous justifiez de premiers projets personnels ou académiques en deep learning. La maîtrise de Python, Pandas, ainsi que des librairies usuelles est nécessaire, ainsi qu’une bonne connaissance des mathématiques et statistiques et une aisance avec l’environnement GNU/Linux. Vous démontrez également un fort intérêt pour les dernières avancées sur les LLMs et la computer vision.

Want to know more?