Skip to Main content Skip to Navigation
Habilitation à diriger des recherches

De la classification à la classification croisée : une approche basée sur la modélisation

Christine Keribin 1, 2
1 CELESTE - Statistique mathématique et apprentissage
Inria Saclay - Ile de France, LMO - Laboratoire de Mathématiques d'Orsay
Résumé : Ce mémoire d’habilitation retrace des travaux portant principalement sur la classification non supervisée par modélisation probabiliste et sur la question connexe du choix de modèle. Après avoir rappelé l’apport des modèles de mélange à la classification non supervisée (clustering), le modèle des blocs latents (LBM), un modèle de mélange étendu à la classification simultanée (co-clustering) des lignes et des colonnes d’un tableau de données, est introduit. Des contributions théoriques (identifiabilité, consistance et normalité asymptotique des estimateurs) et méthodologiques (estimation par EM variationnel, EM stochastique, EM variationnel bayésien, échantillonneur de Gibbs, choix de modèle via le critère ICL) sont présentés. Le LBM est étendu au modèle de blocs latents multiples (MLBM) pour traiter des données individuelles en pharmacovigilance et un algorithme glouton de parcours des modèles est proposé. L’étude de données d’IRM fonctionnelle, pour lesquelles le nombre d’individus est très inférieur au nombre de variables, a permis d’explorer le problème de la grande dimension suivant deux directions : utilisation de l’inférence bayésienne à des fins de régularisation (modèle MSBR –Multi Sparse Bayesian Regression) ; réduction drastique de la dimension tout en gardant des résultats interprétables (clustering de variables contraintes spatialement supervisé par la prédiction de la cible). Enfin, quelques contributions dans des domaines plus éloignés de modélisation de données applicatives (génomiques, météorologiques, phylogénétiques ou financières) illustrent comment des besoins applicatifs font surgir des questions théoriques ou méthodologiques intéressantes.
Complete list of metadatas

Cited literature [144 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02397429
Contributor : Christine Keribin <>
Submitted on : Friday, December 6, 2019 - 3:12:22 PM
Last modification on : Wednesday, July 1, 2020 - 10:12:03 AM
Document(s) archivé(s) le : Saturday, March 7, 2020 - 3:40:52 PM

File

KERIBIN-HDRParisSud - TEL.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-02397429, version 1

Citation

Christine Keribin. De la classification à la classification croisée : une approche basée sur la modélisation. Statistiques [math.ST]. Université Paris Sud XI, 2019. ⟨tel-02397429⟩

Share

Metrics

Record views

148

Files downloads

239