Contributions to robust estimation : minimax optimality vs. computational tractability - Centre de Recherche en Économie et Statistique Accéder directement au contenu
Thèse Année : 2022

Contributions to robust estimation : minimax optimality vs. computational tractability

Contributions à l'estimation robuste : optimalité minimax vs. efficacité calculatoire

Résumé

In statistics and learning theory, it is common to assume that samples are independently and identically distributed according to a reference probability distribution. A more realistic approach could be to relax this assumption by allowing a fraction of samples to not necessarily follow the reference distribution. These disobeying samples, called outliers, may drastically skew the classical estimators. In this work, we aim to estimate the mean of reference distributions by estimators robust to outliers. We are interested in the non-asymptotic behavior of the estimators. At the first stage, we describe various contamination models which determine the nature of the outliers among our observations. Then, we consider the problem of estimating the mean of a distribution supported by the k-dimensional probability simplex in the setting where an fraction of observations are outliers generated by an adversary. A simple particular example is the problem of estimating the distribution of a discrete random variable. At the second stage, we study the problem of robust estimation of the mean of a Gaussian distribution. The known minimax-optimal estimators for this problem are not computationally tractable. We introduce a computationally efficient estimator based on spectral dimension reduction and establish a finite sample upper bound on its error that is minimax-optimal up to a logarithmic factor.
En statistique et en théorie de l'apprentissage statistique, on suppose souvent que les échantillons sont distribués indépendamment et identiquement selon une distribution de probabilité de référence. Une approche plus réaliste pourrait consister à relaxer cette hypothèse en permettant à une fraction des échantillons de ne pas nécessairement suivre la distribution de référence. Ces échantillons désobéissants, appelés données aberrantes, peuvent considérablement détériorer la performance des estimateurs classiques. Dans ce travail, nous cherchons à estimer la moyenne des distributions de référence par des estimateurs robustes aux données aberrantes. Nous nous intéressons au comportement non-asymptotique des estimateurs. Dans un premier temps, nous décrivons divers modèles de contamination qui déterminent la nature des données aberrantes parmi nos observations. Puis, nous considérons le problème de l'estimation de la moyenne d'une distribution dont le support est le simplexe de probabilité de dimension k dans le cas où une fraction d'observations sont des données aberrantes générées par un adversaire. Un exemple particulier simple est le problème de l'estimation de la distribution d'une variable aléatoire discrète. Dans un deuxième temps, nous étudions le problème de l'estimation robuste de la moyenne d'une distribution gaussienne. Les estimateurs minimax-optimaux connus pour ce problème ne sont pas calculables en temps polynomial. Nous introduisons un estimateur efficace basé sur la réduction spectrale de dimension et établissons une borne supérieure sur son erreur qui est minimax-optimale modulo un facteur logarithmique.
Fichier principal
Vignette du fichier
104459_BATENI_2022_archivage.pdf (1.41 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03828199 , version 1 (25-10-2022)

Identifiants

  • HAL Id : tel-03828199 , version 1

Citer

Amir-Hossein Bateni. Contributions to robust estimation : minimax optimality vs. computational tractability. Statistics [math.ST]. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAG004⟩. ⟨tel-03828199⟩
92 Consultations
42 Téléchargements

Partager

Gmail Facebook X LinkedIn More