En janvier 2019, le Gouvernement français a mis en place le Grand Débat national (GDN) afin de recueillir les doléances de l’ensemble de la population, comme une des réponses au mouvement des Gilets jaunes. Deux modalités de contributions ont été proposées : des cahiers papier ouverts en mairie d’expression libre sans consignes de thème, nommés les Cahiers citoyens, et une plateforme en ligne contenant des questions de quatre thématiques. Les Cahiers ont été numérisés puis transcrits sous la supervision de la Bibliothèque nationale de France (BnF) et les réponses aux questions de la plateforme numérique ont été sauvegardées telles qu’écrites numériquement.
Le stage s’insère dans les travaux du groupe de recherche Geosem (EHESS et IGN) sur l’analyse sémantique et géographique du GDN. Des stages ont déjà été réalisés en 2023, 2024 et 2025 sur les thèmes de l’énergie, notamment éolienne, et de la densification périurbaine. Le thème de ce stage est la biodiversité, c’est-à-dire les espèces animales et végétales, et les milieux de vie dans lesquels elles évoluent.
L’enjeu du stage est d’identifier les préoccupations et les opinions concernant la biodiversité tels que formulés dans les contributions du GDN, et de les interroger dans un contexte de transition écologique et de recherche de conciliations entre développement économique et préservation des écosystèmes. Les missions prévues sont les suivantes :
- constitution d’un sous-corpus biodiversité : il s’agira d’extraire dans les contributions les phrases évoquant la biodiversité. Des ressources pour construire un vocabulaire pourront être utilisées ;
- analyse des aspects constitutifs du thème de la biodiversité : l’hypothèse, à confirmer ou infirmer, est que les phrases du sous-corpus sont réparties selon des thématiques telles que les changements des populations et des milieux de vie, les mesures de préservation et les réglementations, les interactions avec des activités économiques et des projets d’aménagement du territoire, etc. ;
- caractérisation des regards que portent les contributeurs sur le thème : éventuelles prépondérances de préoccupations, polarités d’opinions, émotions ;
- étude de la géographie des informations extraites : par la localisation des contributions à la commune (code INSEE dans les Cahiers citoyens et code postal dans la plateforme numérique) et par les entités nommées spatiales dans les contributions.
Le stage utilisera des méthodes de traitement automatique des langues (modèles de langue et encodages de mots et de phrases correspondants, outils de classification), et de géomatique (méthodes d’analyse spatiale à partir de données complémentaires de description des territoires). Les productions attendues sont les suivantes :
- une méthode d’extraction des phrases sur le thème de la biodiversité et le sous-corpus correspondant ;
- des traitements permettant d’identifier les différents aspects constitutifs du thème et les regards portés ;
- des méthodes d’analyse spatiale, et les données et ressources permettant de les mettre en oeuvre ;
- un rapport de stage ou un document technique détaillant les réalisations du stage.
Le code produit devra être rendu disponible et commenté dans le but d’en faciliter le partage et la réutilisation.
Étudiant niveau M2, ou TFE ingénieur. Éventuellement, niveau M1.
Laboratoire sur le campus, bibliothèque universitaire. Station de RER à proximité.
Rencontrez Maud, Chargée de GPEEC et formation
Rencontrez Marion, cheffe de projet