Content combination strategies for Image Classification

Rémy Sun

Résumé

In this thesis, we tackle the question of deep image classification, a fundamental issue for computer vision and visual understanding in general. Faced with neural networks’ need for large training datasets, we look into the common practice of engineering new examples to augment the dataset. We take this as an opportunity to teach neural algorithms to reconcile information mixed from different samples with Mixing Sample Data Augmentation so as to better understand the problem. To this end, we study both how to edit the content in a mixed image, and what the model should predict for the mixed images. We first propose a new type of data augmentation that helps model generalize by embedding the semantic content of samples into the non-semantic context of other samples to generate in-class mixed samples. To this end, we design new neural architectures capable of generating such mixed samples, and then show the resulting mixed inputs help train stronger classifiers in a semi-supervised setting where few labeled samples are available. In a second part, we show input mixing can be used as an input compression method to train multiple subnetworks in a base network from compressed inputs. Indeed, by formalizing the seminal multi-input multi-output (MIMO) framework as a mixing data augmentation and changing the underlying mixing mechanisms, we obtain strong improvements of over standard models and MIMO models. Furthermore, we shine a light on these models’ tendency to train subnetworks that share no features and propose a solution by leveraging knowledge on the underlying input mixing. Finally, we adapt this MIMO technique to the emerging Vision Transformer (ViT) models. Our work shows ViTs present unique challenges for MIMO training, but that they are also uniquely suited for it. We leverage ViTs’ unique token based representations to introduce a source attribution mechanism that allows us to only train subnetworks in the last layers of the model. This causes the subnetworks to train a very strong shared feature extracting base while still being somewhat diverse and beneficial to model performance.

Dans cette thèse, nous nous attaquons au problème de la classification d’images, un problème fondamental pour la vision par ordinateur et le raisonnement visuel en général. Face la quantité énorme de données nécessaires pour entrainer des réseaux profonds, nous nous intéressons aux différentes façons d’augmenter ar- tificiellement la taille du jeu de données. Plus précisément, nous mettons cette technique à profit pour apprendre au algorithmes neuronaux à réconcilier l’infor- mation mixée à partir de différents exemples par le biais des augmentation de données mixantes afin de mieux comprendre le problème sous-jacent. A cette fin, nous étudions à la fois comment éditer le contenu mixé dans un exemple mixte et ce qu’un modèle devrait prédire sur une telle image. Nous proposons d’abord un nouveau type d’augmentation qui aide le modèle à généraliser en incrustant le contenu sémantique d’un exemples dans le contexte non-sémantique d’un autre pour générer des exemples mixtes appartenant à une unique classe. Pour ce faire, nous proposons de nouvelles architectures permettant de générer de tels exemples, et montrons ensuite comment ces exemples mixtes aident à entraîner de meilleures classificateurs dans un contexte semi-supervisé. Dans un second temps, nous montrons que le mixage d’image peut être utilisé comme un schéma de compression d’entrées permettant d’entraîner de multiples sous-réseaux au sein d’un réseau de base. En effet, en formalisant la méthode séminal “multi-input multi-output” (MIMO) comme un schéma d’augmentation de données par mixage d’images et en changeant le mécanisme de mixage sous- jacent nous obtenons des gains en performance par rapports au modèles clas- siques. De plus, nous mettons en lumière la tendance de ces modèles à entraîner des sous-réseaux ne partageant aucune feature et proposons une solution exploi- tant notre compréhension de mécanisme de mixage des entrées en jeu dans ces méthodes. Finalement, nous adaptons ces derniers modèles MIMO aux récents modèles Vision Transformer. Nos travaux montrent que ces nouvelles architectures pré- sentent leurs propres uniques incompatibilités avec l’entraînement MIMO, mais qu’elles y sont aussi extrêmement adaptées à d’autres égards. Nous tirons avan- tage de la représentation par tokens des ViTs pour introduire un nouveau mé- canisme d’attribution de source qui permet d’entrainer des sous-réseaux uni- quement dans les dernières couches du modèle. Cela mène les sous-réseaux à entraîner un tronc commun très robuste tout en conservant des sous réseaux relativement diverses et bénéficie à la performance des modèles.

Content combination strategies for Image Classification

Stratégies de combinaison de contenus pour la classification d’images

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager