Stage - Recherche Data Science audio F/H - SAINT GREGOIRE

Job summary
Internship(6 months)
Saint-Grégoire
No remote work
Salary: Not specified
Starting date: March 31, 2026
Experience: < 6 months
Education: Master's Degree
Skills & expertise
Creativity and innovation
Git
Foundation
Pytorch
Liquid
+3
Apply

Groupe BPCE
Groupe BPCE

Interested in this job?

Apply
Questions and answers about the job

The position

Job description

Poste et missions

L'entreprise

BPCE Vie conçoit des solutions d'assurances de personnes (assurance vie, épargne, retraite, prévoyance individuelle, assurance des emprunteurs) pour les clients des réseaux bancaires du Groupe BPCE, notamment les Banques Populaires et les Caisses d'Epargne. BPCE Vie est une compagnie de BPCE Assurances, le pôle assurances du Groupe BPCE. Groupe coopératif de banque universelle, il est le deuxième acteur bancaire en France. Avec 100 000 collaborateurs, le Groupe BPCE est au service de 36 millions de clients.

Au sein de la Direction Intelligence de la donnée de BPCE Vie, le pôle d'expertise Data Science et Intelligence artificielle (DS&IA) conçoit et pilote des modèles d'IA au service des métiers de BPCE Vie.

Le traitement de données audio (conversations par exemple) a connu d'importants progrès ces dernières années grâce aux modèles génératifs multimodaux. Les derniers modèles sont capables de traiter de l'audio avec une latence très faible, permettant des usages en temps réel (transcription, traduction, voire réponse automatique). On parle aujourd'hui de LALM (Large Audio-Language Model).

Dans la continuité de ses travaux sur les Large Language Models (LLM), le pôle DS&IA cherche à développer des outils internes de traitement de l'audio. Nous cherchons en particulier à comparer des approches séquentielles classiques (comme Whisper) à des approches multimodales (comme LFM2). Nous sommes aussi intéressés par la compréhension et le raisonnement sur de l'audio (Flamingo 2, Qwen2-Audio…), la génération d'audio synthétique, ainsi que par l'inférence sur des end-device (comme Gemma 3n).

Rejoignez BPCE en tant que stagiaire Recherche Data Science audio pour une durée de 6 mois à partir du 1er semestre 2026 !

Les missions c'est important, l'équipe et l'environnement aussi … !

Le stage se déroulera en trois phases : documentation et lecture d'articles de recherche, développement de solutions en Python (Google Cloud Platform disponible) et tests dans notre environnement interne.

Concrètement votre quotidien ? En collaboration avec votre tuteur, vous :

  • Réalisez un état de l'art sur les Large Audio-Language Model. Exemples de ressources :
    • https://www.liquid.ai/blog/lfm2-audio-an-end-to-end-audio-foundation-model ;
    • https://arxiv.org/abs/2212.04356 ;
    • https://arxiv.org/abs/2311.07919 ;
    • https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/ …
  • Testez des modèles retenus sur Google Cloud Platform (GCP) ;
  • Optimisez l'inférence du modèle afin d'utiliser au maximum les capacités de calcul ;
  • Développez un outil complet de traitement de l'audio en respectant les bonnes pratiques Python ;
  • Evaluez l'outil sur des jeux de données internes ;
  • Restituiez des résultats de l'étude et des méthodes employées à l'équipe DS&IA, ainsi qu'aux instances Data Science du groupe BPCE.

Stack technique : Python, PyTorch, llama.cpp, Transformers, Google Cloud Platform, Git.


Preferred experience

Vous préparez un niveau d'étude en Master d'une école d'ingénieur ou d'informatique.

Pour réussir votre mission, vous :

  • Avez une bonne connaissance de Python ;
  • Possédez une solide compréhension des algorithmes de Machine Learning et de Deep Learning ;
  • Manifestez un intérêt pour la recherche, avec la capacité à lire et analyser des articles scientifiques ;
  • Êtes capable de proposer des idées novatrices ;
  • Avez des connaissances en traitement de l'audio, ce qui constituerait un atout appréciable.

Saurez-vous relever le challenge ? N'attendez plus, rejoignez-nous !

Want to know more?

Apply