Rechercher

sur ce site


Accueil du site > Equipes_Fr_En_It > SIMPAS

SIMPAS - Signal IMage Probabilités numériques Apprentissage Statistique

Equipe SIMPAS

(Signal IMage Probabilités numériques Apprentissage Statistique)

Responsables scientifiques : E. Gobet et E. Le Pennec

Cette équipe regroupe des chercheurs du CMAP dans le domaine de l’aléatoire (au sens large), dont les travaux sont axés sur le traitement numérique des données ou des modèles aléatoires, allant des fondements théoriques des algorithmes et méthodes, aux développements informatiques efficaces.

Chercheurs confirmés :
- Stéphanie Allassonnière (Professeur Chargé de Cours Ecole Polytechnique)
- Emmanuel Bacry (Chargé de Recherches CNRS)
- Antonin Chambolle (Directeur de Recherches CNRS)
- Stefano De Marco (Professeur Chargé de Cours Ecole Polytechnique)
- Gersende Fort (Directeur de Recherches CNRS et Professeur Chargé de Cours Ecole Polytechnique)
- Stéphane Gaiffas (Professeur Chargé de Cours Ecole Polytechnique)
- Emmanuel Gobet (Professeur Ecole Polytechnique)
- Erwan Le Pennec (Professeur Associé Ecole Polytechnique)
- Eric Moulines (Professeur École Polytechnique)
- Guillaume Lecué (2012-2015, Chargé de Recherches CNRS)

Chercheurs Associés
- Agathe Guilloux (Maitre de Conférences Université Pierre et Marie Curie)
- Sophie Laruelle (Maitre de Conférences Université Paris-Est Créteil)
- Marc Lavielle (Directeur de Recherches INRIA)
- Marc Lelarge (Chargé de Recherches INRIA)

Post-doctorants et Ingénieurs :
- Christos Giatsidis (2015- ) : Data Science initiative
- Jacopo Mastromatteo (2014-2015) : statistique des carnets d’ordre
- Maryan Morel (2015- ) : projet CNAM
- Roque Porchetto (2015- ) : projet TEMPO
- Plamen Turkedjiev (2013-2015) : simulation des processus non-linéaires
- Samuel Vaiter (2014- ) : variational regularization in signal and image processing

Doctorants encadrés au laboratoire : Massil Achab (2014- ), encadré par E. Bacry et S. Gaiffas
- Martin Bompaire (2015- ), encadré par E. Bacry et S. Gaiffas
- Romain Bompis (2010-2013), encadré par E. Gobet : Développements asymptotiques pour l’approximation de processus de diffusions
- Etienne Corman (2013- ), encadré par A. Chambolle et M. Ovsjanikov (LIX) : Matching de formes
- Raphael Deswartes (2014- ), encadré par G. Lecué
- Loïc Devilliers (2015- ), encadré par S. Allassonnière
- Adrian Iuga (2010-2013), encadré par E. Bacry et M. Hoffmann (Univ. Paris-Dauphine) : Modélisation et analyse statistique de la formation de prix à travers les échelles
- Thibault Jaisson (2012-2015), encadré par E. Bacry et M. Rosenbaum (UPMC) : Etudes de problèmes statistiques venant de la microstructure des marchés
- Gang Liu (2013- ), encadré par E. Gobet et P. Del Moral (INRIA Alea) : Simulation d’évènements rares
- Gustaw Matulewicz (2014- ), encadré par S. Gaiffas, E. Gobet et M. Varzigiannis
- Isaque Pimentel (2015- ), encadré par E. Gobet et X. Warin (EDF)
- Jean-Baptiste Schiratti (2014- ), encadré par S. Allassonnière
- Qihao She (2013- ), encadré par E. Gobet et N. Privault (NTU, Singapore)
- Pauline Tan (2013- ), encadrée par A. Chambolle et P. Monasse (CERTIS, ENPC) : vision stéréo
- Alain Virouleau (2015- ), encadré par E. Bacry et S. Gaiffas
- Hao Xu (2011-2014), encadré par S. Allassonnière et B. Thirion (INRIA Parietal)

Doctorants encadrés en dehors du laboratoire :
- Islem Rekik (2010-2013), encadré par S. Allassonnière et J. Wardlaw (Neuroradiologue, Univ. Edimbourg)
- Mokhtar Alaya (Univ Paris 6), encadré par S. Gaiffas
- Benoit Baylin (2015- , Telecom Paris), encadré par G. Fort
- Hajer Braham (2012-2015, Telecom Paris), encadré par G. Fort
- Alain Durmus (2014- ), encadré par G. Fort et E. Moulines
- Lucie Montuelle (2011-2014, Univ. Paris Sud), encadré par E. Le Pennec
- Solenne Thivin (2012-2015 , Univ. Paris Sud), encadré par E. Le Pennec

Principaux partenaires industriels et institutionnels : Chaire Axa Data Science for Insurance Sector (2015- )
- Chaire Data Scientist (Keyrus, Orange, Thales) (2014- )
- Chaire Havas, Economie des nouvelles données (2013- )
- CNAM (2015- )
- Data Science Initiative
- EDF
- Initiative de Recherche "Méthodes numériques pour le contrôle stochastique" du laboratoire FiME
- INRIA Select, INRIA Parietal
- Partenariat avec le fournisseur de données haute fréquences QUANTHOUSE
- Thales

Principaux financements : ANR CAESARS "Contrôle et simulation des systèmes électriques, interaction et robustesse", E. Gobet (2015-2019)
- ANR Blanc international EANOI "Efficient Algorithms for Nonsmooth Optimization in Imaging", A. Chambolle, avec Thomas Pock, TU. Graz (2012-2015).
- Projet Digiteo MMoVNI "Modélisation Mathématique de la Variabilité inter-sujets en Neuro-Imagerie", S. Allassonnière (2010-2014)

Thèmes de recherches :

Apprentissage machine : web mining, big data, grande dimension, apprentissage non supervisé ou faiblement supervisé


Nous étudions l’apprentissage sur des données en grandes dimensions : cela présuppose l’existence d’une structure sous-jacente de faible dimension, comme par exemple des matrices de très grandes tailles mais de rang faible, des fonctions définies sur des espaces de grandes dimensions mais ne dépendant que d’un petit nombre de variables, de grands graphes mais organisés en petites communautés, etc. en lien à autant d’applications comme en réseaux sociaux, analyse textuelle et sémantique, prévision via aggrégation d’experts, fouille de données web, big-data… L’identification de chaque structure à partir de données (parfois bruitées) demande de développer des procédures statistiques spécifiques. L’exemple des méthodes par pénalisation utilisant des critères forçant la parcimonie est typique du domaine de l’apprentissage en grande dimension. Concernant l’analyse de matrices en grandes dimensions mais de faible rang, nous avons proposé des procédures avec des pénalités incitant certaines structures ou avec pénalisation d’estimateurs classiques. Les performances de ces procédures ne dépendent que de la dimension intrinsèque du problème et pas de la dimension de l’espace ambiant.


Approximations stochastiques : méthodes asymptotiques, optimisation et algorithmes stochastiques, MCMC et inférence bayésienne 


Nous étudions des approximations de la loi de diffusion brownienne (approximation de densité marginale et d’espérance de fonctionnelle des trajectoires) sous forme de perturbation gaussienne (méthode de proxy et calcul de Malliavin), sous des hypothèses de régularité limitée. Les outils de grandes déviations permettent également de capter les comportements en temps court. Toutes ces techniques conduisent à de nouvelles représentations explicites, soit par formules analytiques soit par simulations gaussiennes avec termes correctifs. Les extensions aux processus non-linéaires (EDS rétrogrades, interaction à la McKean-Vlasov) et à des bruits non-browniens sont en cours. Ces résultats forment une palette d’approximations très utiles dans de multiples applications et autres méthodes numériques aléatoires. D’autre part, nous développons des algorithmes stochastiques efficaces pour l’estimation bayésienne et la classification ; les applications notamment en imagerie médicale sont très importantes et nécessitent des méthodes très performantes pour l’imagerie temps-réel.
 D’autres applications concernent l’inférence paramétrique et semi-paramétrique pour des modèles hiérarchiques. Sur le plan de la théorie des MCMC, nous analysons des chaines de Markov à états généraux, ayant des convergences sous-géométriques, avec un focus sur le mélange en grande dimension et sur les problèmes à champs moyens. Nous étudions également les méthodes de MCMC adaptatives.

Méthodes de Monte-Carlo : régressions empiriques en grande dimension et processus stochastiques non-linéaires, méthodes particulaires et évènements rares, grandes déviations


Nous étudions la résolution efficace par simulations Monte-Carlo et régressions empiriques des équations de programmation dynamique apparaissant en contrôle stochastique, d’équations stochastiques progressives rétrogrades ou/et en interaction. Nous cherchons à englober des non-linéarités de plus en plus générales pour lesquelles il n’existe pas encore de méthodes numériques. Cela nécessite de développer des outils dédiés pour prendre en compte les effets dimension, la non-bornitude des fonctions approximantes, les lois de probabilité générale (parfois en feedback loop), la parcimonie des représentations… Les jeux à champs moyen constituent un cadre ambitieux. Par ailleurs, nous couplons les techniques de grande déviation à temps continu et les méthodes particulaires à temps discrets pour simuler plus efficacement les grandes déviations des processus à temps continu.
 Nous développons également des versions parallèles des méthodes particulaires (itots de particules).

Statistique mathématique : estimation non-paramétrique, sélection de modèles, classification, réduction de dimension


Nous étudions des problèmes théoriques de sélection ou d’agrégation d’estimateurs dans un contexte de grande dimension. Concernant le problème d’agrégation d’estimateurs, nous avont pu construire deux procédures optimales alors que ce cadre est ardu car les procédures classiques en statistiques sont ici sous-optimales. D’autres résultats ont été obtenu sur la méthode de validation-croisée, l’agrégat à poids exponentiels pour le problème d’agrégation convexe et sur le modèle du single-index.
 Nous avons également obtenu des résultats de sélection de modèle dans des problèmes d’estimation de densité conditionnelle avec des applications à la segmentation d’image.

Statistique des processus : 
Les phénomènes invariants d’échelle sont couramment observés en finance et en turbulence : nous y consacrons une partie de nos travaux, notamment autour des approches multifractales (cf la marche aléatoire multifractale de Bacry) qui sont devenues aujourd’hui une référence dans le domaine. Nous nous intéressons notamment aux problèmes d’estimation dans ce cadre multifractal. D’autre part, nous étudions la statistique des processus ponctuels tant d’un point de vue probabiliste (notamment le lien avec l’invariance d’échelle à un niveau diffusif), statistique (estimation) et applicatif. Nous travaillons également sur les processus de Hawkes en grande dimension en vue de comprendre la dynamique de diffusion d’informations sur un réseau (applications au réseau social twitter et aux problèmes de risque systémique sur les marchés financiers). 


Traitement du signal et de l’image : méthodes adaptatives, représentation adaptées, analyse multi-échelle, analyse multi-fractales, compressed sensing, méthodes variationnelles, classification non supervisée par mélange et sélection de modèles



Une partie des recherches du groupe concerne l’analyse statistique d’images avec application à l’imagerie médicale. Typiquement, on souhaite estimer un atlas complet du cerveau humain à partir de population d’images, tout en ayant des garanties théoriques sur l’estimé. Cela passe par (1) la modélisation des grandes variétés d’images en particulier multimodales, (2) estimer numériquement l’atlas à partir de ces modèles (par apprentissage statistique) et (3) prouver la pertinence statistique de l’estimateur permettant de fournir aux médecins un atlas dont on peut estimer la confiance. Des résultats théoriques d’estimation de densité ont par ailleurs été utilisé dans le cadre de segmentation d’images hyperspectrales par des méthodes de mélanges. Le cadre des méthodes variationnelles en traitement d’image est également abordé dans l’équipe.


CMAP UMR 7641 École Polytechnique CNRS, Route de Saclay, 91128 Palaiseau Cedex France, Tél: +33 1 69 33 46 23 Fax: +33 1 69 33 46 46