Domain Adaptation for Urban Scene Segmentation

Antoine Saporta

Résumé

This thesis tackles some of the scientific locks of perception systems based on neural networks for autonomous vehicles. This dissertation discusses domain adaptation, a class of tools aiming at minimizing the need for labeled data. Domain adaptation allows generalization to so-called target data that share structures with the labeled so-called source data allowing supervision but nevertheless following a different statistical distribution. First, we study the introduction of privileged information in the source data, for instance, depth labels. The proposed strategy, BerMuDA, bases its domain adaptation on a multimodal representation obtained by bilinear fusion, modeling complex interactions between segmentation and depth. Next, we examine self-supervised learning strategies in domain adaptation, relying on selecting predictions on the unlabeled target data, serving as pseudo-labels. We propose two new selection criteria: first, an entropic criterion with ESL; then, with ConDA, using an estimate of the true class probability. Finally, the extension of adaptation scenarios to several target domains as well as in a continual learning framework is proposed. Two approaches are presented to extend traditional adversarial methods to multi-target domain adaptation: Multi-Dis. and MTKT. In a continual learning setting for which the target domains are discovered sequentially and without rehearsal, the proposed CTKT approach adapts MTKT to this new problem to tackle catastrophic forgetting.

Cette thèse attaque certains des verrous scientifiques des systèmes de perception à base de réseaux de neurones des véhicules autonomes. Une classe d'outils abordée dans cette thèse pour limiter les besoins de données étiquetées est celle de l'adaptation de domaine. Celle-ci permet la généralisation à des données dites cibles qui partagent des structures avec les données annotées dites sources permettant la supervision mais qui suivent néanmoins une distribution statistique différente. D'abord, nous étudions l'introduction d'information privilégiée dans les données sources, par exemple des annotations de profondeur. La stratégie proposée BerMuDA appuie son adaptation de domaine sur une représentation multimodale obtenue par fusion bilinéaire, modélisant des interactions complexes entre segmentation et profondeur. Ensuite, nous examinons les stratégies d'auto-apprentissage en adaptation de domaine, reposant sur la sélection de prédictions sur les données cibles non étiquetées, servant de pseudo-étiquettes. Nous proposons deux nouveaux critères de sélection: d'abord, un critère entropique avec ESL; puis, avec ConDA, utilisant une estimation de la probabilité de la vraie classe. Enfin, l'extension des scénarios d'adaptation à plusieurs domaines cibles ainsi que dans un cadre d'apprentissage continu est proposée. Deux approches sont présentées pour étendre les méthodes adversaires traditionnelles à l'adaptation de domaine multi-cible: Multi-Dis. et MTKT. Dans un cadre d'apprentissage continu, les domaines cibles sont découverts séquentiellement et sans répétition. L'approche proposée CTKT adapte MTKT à ce nouveau problème pour lutter contre l'oubli catastrophique.

Domain Adaptation for Urban Scene Segmentation

Adaptation de domaine pour la segmentation de scènes urbaines

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager