• Formation
  • Numérique
  • Recherche
  • Partenariats
25 mai 2023

LMJL - Sciences des Données - Réduction de dimensions

Séminaire nantais inter-établissements

Succès pour le séminaire du 25 mai 2023 présenté en collaboration du cluster DELPHI de l'ISite NExT avec le Laboratoire des Mathématiques Jean Leray au Laboratoire des Sciences du Numériques organisé par : L. BELLANGER (ALEA, LMJL UMR CNRS 6629), V. CARIOU (StatSC, ONIRIS), E. DANTAN (SPHERE INSERM UMR 1246), P.-A. GOURRAUD (ITUN - CRTI - UMR INSERM 1064 - CHU), P. KUNTZ (DUKe, LS2N).

Dans le cadre des Séminaires nantais inter-établissements en Science des Données, plus de 60 participantes et participants se sont déplacés pour écouter Julien CHIQUET (Senior Researcher in Statistical Learning, Head of UMR MIA Paris, Univ. Paris Saclay - AgroParisTech - INRAE) :

 

Réduction de dimension : quelques approches récentes en statistique et en apprentissage


La réduction de dimension est une tâche standard de la statistique et du machine-learning, qui donne lieu à une riche boîte à outils, vitale à de nombreux champs d’application, et sans cesse renouvelée du fait de l'évolution de la nature des jeux données disponibles. Sa vocation première est la visualisation dans un espace à 2 ou 3 dimensions de données collectées dans un espace potentiellement beaucoup plus grand, afin d’en dégager les principales tendances. Elle est également souvent utilisée comme prétraitement, pour réduire le niveau de bruit ou extraire des caractéristiques résumées des données, utilisées dans un second temps pour une autre tâche de la statistique ou du machine-learning (prédiction, classification, modélisation). Dans cet exposé, je dresserai un rapide panorama distinguant deux catégories: i) les méthodes visant à réduire un jeu de données en conservant ses propriétés globales et ii) des méthodes cherchant à conserver les relations entre individus dans l'espace projeté. Pour la première catégorie, je m'appuierai sur une vision géométrique de l'analyse en composantes principales avant d'en présenter des généralisations probabilistes permettant de traiter des données discrètes et de grande taille, qui sont devenues la norme dans divers domaines (génomique, écologie, et même certaines observations en archéologie et astronomie). Je ferai également le lien entre ces méthodes et les approches populaires issues de l'apprentissage profond, notamment les auto-encodeurs variationnels. Pour la seconde catégorie, je discuterai les récentes et très populaires approches t-SNE et UMAP, souvent présentées comme des méthodes heuristiques: j'en proposerai une interprétation probabiliste unifiée permettant de mieux en saisir les fondements. Cette présentation s'appuie sur des travaux originaux publiés avec de nombreux collègues et co-auteurs, notamment Stéphane Robin, Mahendra Mariadassou, Bastien Batardière, Franck Picard, Thibault Espinasse et Hugues van Assel.

 
LMJL - Séminaire Sciences des données

 
Mis à jour le 09 octobre 2023.
https://www.univ-nantes.fr/universite/vision-strategie-et-grands-projets/lmjl-sciences-des-donnees-reduction-de-dimensions