Synthesis of Multi-Modal Socially Intelligent Human-Robot Interaction - Archive ouverte HAL Access content directly
Theses Year : 2022

Synthesis of Multi-Modal Socially Intelligent Human-Robot Interaction

Synthèse de l’interaction multimodale homme-robot socialement intelligente

(1)
1

Abstract

By merely observing humans, one can directly infer that no social interaction takes place without cues, whether verbal or nonverbal, that allow others to interpret behaviors and reasonably estimate intentions. These powerful social signals and nonverbal behaviors are complex and multi-modal, which means they are made of different combinations of modalities and cues like gestures, gaze behavior, and proxemics (e.g., management of space and environment). Thus for a robot to be perceived as a socially-intelligent agent by humans, it is expected to be able to hold a successful social interaction, adapt to the social environment, and exhibit appropriate multi-modal behavior. This thesis first investigates how one of these modalities can help adapt another one, then explores the effects of the modalities when performed multi-modally on behavioral interaction outcomes and perception of the robot’s social intelligence, and finally presents an architecture using reinforcement learning for the robot to learn to combine its multi-modal behaviors with a reward function based on the multi-modal social signals of the human in an interaction. Modalities are coupled in nature and for one to adapt to the changes in the environment it may need to rely on other sensory modalities. For instance, in the first work, the robot would autonomously adapt its gaze pattern to social interaction changes, i.e groups being formed around it, based on its proxemics, which was used to estimate the roles of participants in group formations around the robot, such as active speaker, bystander, or overhearer. A pilot study looked into group formations made of a robot and two users. Results showed that participants stood closer to the adaptive robot and ranked it higher in perceived adaptability and perceived sociability as well as feeling attended to by the robot in comparison to a robot that switched its gaze attention based on new sensory detection. In the second work, multi-modal behaviors made up of gaze mechanisms, which are turn-taking, turn-yielding, floor-holding, and joint attention, social gestures, which are emblem, deictic, and beat gestures, proxemics, through social navigation, and social dialogue were implemented autonomously and studied by extracting one modality in each condition and looking into behavioral outcomes and subjective measurements. The data collection included 105 participants in a seven minutes interaction alone with the robot to investigate behavioral outcomes including but are not limited to distances of the users, speaking time, greetings performed, as well as backchannels. The study showed the extent of which each modality within the multi-modal behavior allows the robot to influence how close the human stands, how they address the robot, whether they take its suggestions or not, and how they greet and end the interaction by mirroring nonverbal behaviors of the robot. Finally and after diving into a review of reinforcement learning for adaptation in social robotics presented in the thesis, the last work looks into the multi-modal social signals of the human, including distances, time spent looking and deciding, as well as decisions made, to formulate the reward signal, which also includes cost functions for the complexity of the multi-modal behavior performed by the robot and whether or not the human followed the robot’s recommendation. This reward function was then used to adapt the robot’s multi-modal behavior creating various possible combinations, which are made of gaze, gestures, proxemics, and emotional expressions, with the goal to increase the robot’s social intelligence and influence. In conclusion, this thesis work dives into understanding how nonverbal modalities forming multi-modal behavior shape the success of interactions as well human behaviors and attitudes about and towards the robot and thus paving the way for a learning architecture allowing the robot to further adapt to human preferences and social [...]
En observant les humains, on peut en déduire directement qu'aucune interaction sociale n'a lieu sans indices, verbaux ou non verbaux, qui permettent aux autres d'interpréter les comportements et d'estimer raisonnablement les intentions. Ces signaux sociaux puissants et ces comportements non verbaux sont complexes et multimodaux, ce qui signifie qu'ils sont constitués de différentes combinaisons de modalités et d'indices comme les gestes, le comportement du regard et la proxémie (par exemple, la gestion de l'espace et de l'environnement). Ainsi, pour qu'un robot soit perçu comme un agent socialement intelligent par les humains, il doit être capable de maintenir une interaction sociale réussie, de s'adapter à l'environnement social et d'afficher un comportement multimodal approprié. Cette thèse étudie d'abord comment l'une de ces modalités peut aider à en adapter une autre, puis explore les effets des modalités lorsqu'elles sont exécutées de manière multimodale sur les résultats d'interaction comportementale et la perception de l'intelligence sociale du robot, et enfin présente une architecture utilisant l'apprentissage par renforcement pour le robot. apprendre à combiner ses comportements multimodaux avec une fonction de récompense basée sur les signaux sociaux multimodaux de l'humain dans une interaction. Les modalités sont couplées dans la nature et pour s'adapter aux changements de l'environnement, il peut être nécessaire de s'appuyer sur d'autres modalités sensorielles. Par exemple, dans le premier travail, le robot adaptait de manière autonome son schéma de regard aux changements d'interaction sociale, c'est-à-dire aux groupes qui se formaient autour de lui, en fonction de sa proxémie, qui servait à estimer les rôles des participants aux formations de groupe autour du robot, telles que en tant qu'orateur actif, spectateur ou auditeur. Une étude pilote s'est penchée sur des formations de groupe composées d'un robot et de deux utilisateurs. Les résultats ont montré que les participants se tenaient plus près du robot adaptatif et l'avaient classé plus haut en termes d'adaptabilité perçue et de sociabilité perçue, ainsi que de sentiment d'être pris en charge par le robot par rapport à un robot qui changeait son attention en fonction d'une nouvelle détection sensorielle. Dans le deuxième travail, les comportements multimodaux constitués de mécanismes du regard que sont le tour de rôle, le tour de parole, le maintien au sol et l'attention conjointe, les gestes sociaux qui sont les gestes emblème, déictique et de battement, la proxémie, à travers les la navigation et le dialogue social ont été mis en œuvre de manière autonome et étudiés en extrayant une modalité dans chaque condition et en examinant les résultats comportementaux et les mesures subjectives. La collecte de données comprenait 105 participants dans une interaction de sept minutes seul avec le robot pour étudier les résultats comportementaux, y compris, mais sans s'y limiter, les distances des utilisateurs, le temps de parole, les salutations effectuées, ainsi que les canaux de retour. L'étude a montré dans quelle mesure chaque modalité du comportement multimodal permet au robot d'influencer la proximité des humains, la façon dont ils s'adressent au robot, s'ils acceptent ou non ses suggestions, et comment ils saluent et mettent fin à l'interaction en se reflétant. comportements non verbaux du robot. Enfin et après avoir plongé dans une revue de l'apprentissage par renforcement pour l'adaptation en robotique sociale présentée dans la thèse, le dernier travail se penche sur les signaux sociaux multimodaux de l'humain, y compris les distances, le temps passé à chercher et à décider, ainsi que les décisions prises, pour formuler le signal de récompense, qui comprend également des fonctions de coût pour la complexité du comportement multimodal effectué par le robot et si l'humain a suivi ou non la recommandation du robot. Cette fonction de récompense a ensuite [...]
Fichier principal
Vignette du fichier
TATARIAN_Karen_these_2022.pdf (13.39 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03863734 , version 1 (21-11-2022)

Identifiers

  • HAL Id : tel-03863734 , version 1

Cite

Karen Tatarian. Synthesis of Multi-Modal Socially Intelligent Human-Robot Interaction. Artificial Intelligence [cs.AI]. Sorbonne Université, 2022. English. ⟨NNT : 2022SORUS041⟩. ⟨tel-03863734⟩
0 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More