Content combination strategies for Image Classification
Stratégies de combinaison de contenus pour la classification d’images
Résumé
In this thesis, we tackle the question of deep image classification, a fundamental
issue for computer vision and visual understanding in general. Faced with neural
networks’ need for large training datasets, we look into the common practice of
engineering new examples to augment the dataset. We take this as an opportunity
to teach neural algorithms to reconcile information mixed from different samples
with Mixing Sample Data Augmentation so as to better understand the problem.
To this end, we study both how to edit the content in a mixed image, and what
the model should predict for the mixed images.
We first propose a new type of data augmentation that helps model generalize
by embedding the semantic content of samples into the non-semantic context of
other samples to generate in-class mixed samples. To this end, we design new
neural architectures capable of generating such mixed samples, and then show
the resulting mixed inputs help train stronger classifiers in a semi-supervised
setting where few labeled samples are available.
In a second part, we show input mixing can be used as an input compression
method to train multiple subnetworks in a base network from compressed inputs.
Indeed, by formalizing the seminal multi-input multi-output (MIMO) framework
as a mixing data augmentation and changing the underlying mixing mechanisms,
we obtain strong improvements of over standard models and MIMO models.
Furthermore, we shine a light on these models’ tendency to train subnetworks
that share no features and propose a solution by leveraging knowledge on the
underlying input mixing.
Finally, we adapt this MIMO technique to the emerging Vision Transformer
(ViT) models. Our work shows ViTs present unique challenges for MIMO training,
but that they are also uniquely suited for it. We leverage ViTs’ unique token based
representations to introduce a source attribution mechanism that allows us to only
train subnetworks in the last layers of the model. This causes the subnetworks
to train a very strong shared feature extracting base while still being somewhat
diverse and beneficial to model performance.
Dans cette thèse, nous nous attaquons au problème de la classification d’images,
un problème fondamental pour la vision par ordinateur et le raisonnement visuel
en général. Face la quantité énorme de données nécessaires pour entrainer des
réseaux profonds, nous nous intéressons aux différentes façons d’augmenter ar-
tificiellement la taille du jeu de données. Plus précisément, nous mettons cette
technique à profit pour apprendre au algorithmes neuronaux à réconcilier l’infor-
mation mixée à partir de différents exemples par le biais des augmentation de
données mixantes afin de mieux comprendre le problème sous-jacent. A cette fin,
nous étudions à la fois comment éditer le contenu mixé dans un exemple mixte
et ce qu’un modèle devrait prédire sur une telle image.
Nous proposons d’abord un nouveau type d’augmentation qui aide le modèle
à généraliser en incrustant le contenu sémantique d’un exemples dans le contexte
non-sémantique d’un autre pour générer des exemples mixtes appartenant à une
unique classe. Pour ce faire, nous proposons de nouvelles architectures permettant
de générer de tels exemples, et montrons ensuite comment ces exemples mixtes
aident à entraîner de meilleures classificateurs dans un contexte semi-supervisé.
Dans un second temps, nous montrons que le mixage d’image peut être utilisé
comme un schéma de compression d’entrées permettant d’entraîner de multiples
sous-réseaux au sein d’un réseau de base. En effet, en formalisant la méthode
séminal “multi-input multi-output” (MIMO) comme un schéma d’augmentation
de données par mixage d’images et en changeant le mécanisme de mixage sous-
jacent nous obtenons des gains en performance par rapports au modèles clas-
siques. De plus, nous mettons en lumière la tendance de ces modèles à entraîner
des sous-réseaux ne partageant aucune feature et proposons une solution exploi-
tant notre compréhension de mécanisme de mixage des entrées en jeu dans ces
méthodes.
Finalement, nous adaptons ces derniers modèles MIMO aux récents modèles
Vision Transformer. Nos travaux montrent que ces nouvelles architectures pré-
sentent leurs propres uniques incompatibilités avec l’entraînement MIMO, mais
qu’elles y sont aussi extrêmement adaptées à d’autres égards. Nous tirons avan-
tage de la représentation par tokens des ViTs pour introduire un nouveau mé-
canisme d’attribution de source qui permet d’entrainer des sous-réseaux uni-
quement dans les dernières couches du modèle. Cela mène les sous-réseaux à
entraîner un tronc commun très robuste tout en conservant des sous réseaux
relativement diverses et bénéficie à la performance des modèles.
Origine : Fichiers produits par l'(les) auteur(s)