La vitrine de diffusion des mémoires et thèses de l'ÉTS

A paradigm of an interaction context-aware pervasive multimodal multimedia computing system

Hina, Manolo Dulva (2010). A paradigm of an interaction context-aware pervasive multimodal multimedia computing system. Thèse de doctorat électronique, Montréal, École de technologie supérieure.

Télécharger (6MB) | Prévisualisation
Télécharger (3MB) | Prévisualisation


Communication is a very important aspect of human life; it is communication that helps human beings to connect with each other as individuals and as independent groups. Communication is the fulcrum that drives all human developments in all fields. In informatics, one of the main purposes of the existence of computer is information dissemination – to be able to send and receive information. Humans are quite successful in conveying ideas to one another, and reacting appropriately. This is due to the fact that we share the richness of the language, have a common understanding of how things work and an implicit understanding of everyday situations. When humans communicate with humans, they comprehend the information that is apparent to the current situation, or context, hence increasing the conversational bandwidth. This ability to convey ideas, however, does not transfer when humans interact with computers. On its own, computers do not understand our language, do not understand how the world works and cannot sense information about the current situation. In a typical computing set-up where we have an impoverished typical mechanism for providing computer with information using mouse, keyboard and screen, the end result is we explicitly provide information to computers, producing an effect that is contrary to the promise of transparency and calm technology in Weiser’s vision of ubiquitous computing (Weiser 1991; Weiser and Brown 1996). To reverse this trend, it is imperative that we researchers find ways that will enable computers to have access to context. It is through context-awareness that we can increase the richness of communication in human-computer interaction, through which we can reap the most likely benefit of more useful computational services.

Context is a subjective idea as demonstrated by the state-of-the art in which each researcher has his own understanding of the term, which continues to evolve nonetheless. The acquisition of contextual information is essential but it is the end user, however, that will have the final say as to whether the envisioned context is correctly captured/acquired or not. Current literature informs us that some contextual information is already predefined by some researchers from the very beginning – this is correct if the application domain is fixed but is incorrect if we infer that a typical user does different computing tasks on different occasions. With the aim of coming up with more conclusive and inclusive design, we conjecture that what contextual information should be left to the judgment of the end user who is the one that has the knowledge determine which information is important to him and which is not. This leads us to the concept of incremental acquisition of context where context parameters are added, modified or deleted one context parameter at a time.

In conjunction with our idea of inclusive context, we broaden the notion of context that it has become context of interaction. Interaction context is the term that is used to refer to the collective context of the user (i.e. user context), of his working environment (i.e. environmental context) and of his computing system (i.e. system context). Logically and mathematically, each of these interaction context elements – user context, environment context and system context – is composed of various parameters that describe the state of the user, of his workplace and his computing resources as he undertakes an activity in accomplishing his computing task, and each of these parameters may evolve over time. For example, user location is a user context parameter and its value will evolve as the user moves from one place to another. The same can be said about noise level as an environment context parameter; its value evolves over time. The same can be said with available bandwidth that continuously evolves which we consider as a system context parameter. To realize the incremental definition of incremental context, we have developed a tool called the virtual machine for incremental interaction context. This tool can be used to add, modify and delete a context parameter on one hand and determine the sensor-based context (i.e. context that is based on parameters whose values are obtained from raw data supplied by sensors) on the other.

In order to obtain the full benefit of the richness of interaction context with regards to communication in human-machine interaction, the modality of interaction should not be limited to the traditional use of mouse-keyboard-screen alone. Multimodality allows for a much wider range of modes and forms of communication, selected and adapted to suit the given user’s context of interaction, by which the end user can transmit data to the computer and computer can respond or yield results to the user’s queries. In multimodal communication, the weaknesses of one mode of interaction, with regards to its suitability to a given situation, is compensated by replacing it with another mode of communication that is more suitable to the situation. For example, when the environment becomes disturbingly noisy, using voice may not be the ideal mode to input data; instead, the user may opt for transmitting text or visual information. Multimodality also promotes inclusive informatics as those with a permanent or temporary disability are given the opportunity to use and benefit from information technology advancement. For example, the work on presentation of mathematical expressions to visually-impaired users (Awdé 2009) would not have been made possible without multimodality. With mobile computing within our midst coupled with wireless communication that allows access to information and services, pervasive and adaptive multimodality is more than ever apt to enrich communication in human-computer interaction and in providing the most suitable modes for data input and output in relation to the evolving interaction context.

A look back at the state of the art informs us that a great amount of effort was expended in finding the definition of context, in the acquisition of context, in the dissemination of context and the exploitation of context within a system that has a fixed domain of application (e.g. healthcare, education, etc.). Also, another close look tells us that much research efforts on ubiquitous computing were devoted to various application domains (e.g. identifying the user whereabouts, identifying services and tools, etc.) but there is rarely, if ever, an effort made to make multimodality pervasive and accessible to various user situations. In this regard, we come up with a research work that will provide for the missing link. Our work – the paradigm of an interaction context-sensitive pervasive multimodal multimedia computing system is an architectural design that exhibits adaptability to a much larger context called interaction context. It is intelligent and pervasive, meaning it is functional even when the end user is stationary or on the go. It is conceived with two purposes in mind. First, given an instance of interaction context, one which evolves over time, our system determines the optimal modalities that suit such interaction context. By optimal, we mean a selection decision on appropriate multimodality based on the given interaction context, available media devices that support the modalities and user preferences. We designed a mechanism (i.e. a paradigm) that will do this task and simulated its functionality with success. This mechanism employs machine learning (Mitchell 1997; Alpaydin 2004; Hina, Tadj et al. 2006) and uses case-based reasoning with supervised learning (Kolodner 1993; Lajmi, Ghedira et al. 2007). An input to this decision-making component is an instance of interaction context and its output is the optimal modality and its associated media devices that are for activation. This mechanism is continuously monitoring the user’s context of interaction and on behalf of the user continuously adapts accordingly. This adaptation is through dynamic reconfiguration of the pervasive multimodal system’s architecture. Second, given an instance of interaction context and the user’s task and preferences, we designed a mechanism that allows the automatic selection of user’s applications, the preferred suppliers to these applications and the preferred quality of service (QoS) dimensions’ configurations of these suppliers. This mechanism does its task in consultation with computing resources, sensing the available suppliers and possible configuration restrictions within the given computing set-up.

Apart from the above-mentioned mechanisms, we also formulated scenarios as to how a computing system must provide the user interface given that we have already identified the optimal modalities that suit the user’s context of interaction. We present possible configurations of unimodal and bimodal interfaces based on the given interaction context as well as user preferences.

Our work is different from previous work in that while other systems capture, disseminate and consume context to suit the preferred domain of application, ours captures the interaction context and reconfigures its architecture dynamically in generic fashion in order that the user could continue working on his task anytime, anywhere he wishes regardless of the application domain the user wishes to undertake. In effect, the system that we have designed along with all of its mechanisms, being generic in design, can be adapted or integrated with ease or with very little modification into various computing systems of various domains of applications.

Simulations and mathematical formulations were provided to support our ideas and concepts related to the design of the paradigm. An actual program in Java was developed to support our concept of a virtual machine for incremental interaction context.

Titre traduit

Le paradigme d'un système multimodal multimédia ubiquitaire sensible au contexte d'interaction

Résumé traduit

La communication est un aspect très important de la vie humaine ; elle permet aux êtres humains de se rapprocher les uns avec les autres comme individus et en tant que groupes indépendants. En informatique, le but même de l'existence de l'ordinateur est la diffusion de l'information - de pouvoir envoyer et recevoir l'information. Cependant, la capacité d’échanger de l’information entre humains ne se transfère pas quand l'humain interagit avec l'ordinateur. Sans intervention externe, les ordinateurs ne comprennent pas notre langue, ne comprennent pas comment le monde fonctionne et ne peuvent percevoir des informations sur une situation donnée. Dans une installation typique traditionnelle (souris - clavier - écran) l'information explicite fournie à l'ordinateur produit un effet contraire à la promesse de transparence et à la technologie calme ; c’était la vision du calcul omniprésent de Weiser (Weiser 1991 ; Weiser et Brown 1996). Pour renverser cette tendance, nous devons trouver les moyens et la méthodologie qui permettent à des ordinateurs d'avoir accès au contexte.

C'est par ce dernier que nous pouvons augmenter la richesse de la communication dans l'interaction personne-ordinateur, et donc de bénéficier des avantages le plus susceptibles des services informatiques. Comme le montre bien la littérature, le contexte est une idée subjective qui évolue dans le temps. Son interprétation est généralement propre au chercheur. L'acquisition de l'information contextuelle est essentielle. Cependant, c'est l'utilisateur qui décidera si le contexte envisagé est correctement capturé/acquis ou pas.

La littérature montre que l'information contextuelle est prédéfinie par quelques chercheurs dès le début – ceci est correcte si le domaine d'application est fixe. Cette définition devient incorrecte si nous admettons qu'un utilisateur typique réalise différentes tâches de calcul à différentes occasions. Dans le but de proposer une conception plus concluante et plus inclusive, nous pensons que le contenu de l’information contextuelle ne devrait être défini que par l'utilisateur. Ceci nous mène au concept de l'acquisition incrémental du contexte où des paramètres de contexte sont ajoutés, modifiés ou supprimés, un paramètre de contexte à la fois.

Dans ce même ordre d’idée, nous élargissons la notion du contexte au contexte de l’interaction (CI). Le CI est le terme qui est employé pour se rapporter au contexte collectif de l'utilisateur (c.-à-d. contexte d'utilisateur), de son milieu de travail (c.-à-d. contexte d'environnement) et de son système de calcul (c.-à-d. contexte de système). Logiquement et mathématiquement, chacun de ces éléments de CI - contexte d'utilisateur, contexte d'environnement et contexte de système - se compose de divers paramètres qui décrivent l'état de l'utilisateur, de son lieu de travail et de ses ressources informatiques pendant qu'il entreprend une activité en accomplissant sa tâche de calcul. Chacun de ces paramètres peut évoluer avec le temps. Par exemple, la localisation de l'utilisateur est un paramètre de contexte d'utilisateur et sa valeur évoluera selon le déplacement de l'utilisateur. Le niveau de bruit peut être considéré comme paramètre de contexte d'environnement ; sa valeur évolue avec le temps. De la même manière, la largeur de bande disponible qui évolue sans interruption est considérée comme paramètre de contexte de système. Pour réaliser une définition incrémentale du contexte, nous avons développé un outil appelé machine virtuelle à couches pour le contexte de l’interaction. Cet outil peut être utilisé pour : a) ajouter, modifier et supprimer un paramètre de contexte d'une part et b) déterminer le contexte dépendamment des senseurs (c.-à-d. le contexte est déterminé selon les paramètres dont les valeurs sont obtenues à partir des données brutes fournies par des senseurs).

Afin de maximiser les bienfaits de la richesse du CI dans la communication personnemachine, la modalité de l'interaction ne devrait pas être limitée à l'utilisation traditionnelle souris-clavier-écran. La multimodalité tient compte d'un éventail de modes et de formes de communication, choisis et adaptés au contexte de l'utilisateur. Dans la communication multimodale, les faiblesses d'un mode d'interaction sont compensées en le remplaçant par un autre mode de communication qui est plus appropriée à la situation. Par exemple, quand l'environnement devient fâcheusement bruyant, l’utilisation de la voix n’est pas appropriée ; l'utilisateur peut opter pour la transmission de texte ou l'information visuelle. La multimodalité favorise également l'informatique inclusive comme ceux ayant un handicap permanent ou provisoire. Par exemple, la multimodalité permet d’utiliser une façon originale pour présenter des expressions mathématiques aux utilisateurs malvoyants (Awdé 2009).

Avec le calcul mobile, la multimodalité ubiquitaire et adaptative est plus que toujours susceptible d'enrichir la communication dans l'interaction personne-machine et de fournir les modes les plus appropriés pour l'entrée / la sortie de données par rapport à l’évolution du CI.

Un regard à la situation actuelle nous informe qu'un grand effort a été déployé en trouvant la définition du contexte, dans l'acquisition du contexte, dans la diffusion du contexte et l'exploitation du contexte dans un système qui a un domaine d'application fixe (par exemple soins de santé, l’éducation, etc.). Par ailleurs, des efforts de recherches sur le calcul ubiquitaire étaient développés dans divers domaines d'application (par exemple localisation de l'utilisateur, identification des services et des outils, etc.). Cependant, il ne semble pas y avoir eu un effort pour rendre la multimodalité ubiquitaire et accessible à diverses situations de l'utilisateur. À cet égard, nous fournissons un travail de recherche qui comblera le lien absent. Notre travail – Le paradigme du système multimodal multimédia ubiquitaire sensible au contexte de l’intéraction – est une conception architecturale qui montre l'adaptabilité à un contexte beaucoup plus large appelé le contexte d'interaction. Il est intelligent et diffus, c.-àd. fonctionnel lorsque l'utilisateur est stationnaire, mobile ou sur la route. Il est conçu avec deux buts à l'esprit. D'abord, étant donné une instance de CI qui évolue avec le temps, notre système détermine les modalités optimales qui s’adaptent à un tel CI. Par optimal, nous entendons le choix des modalités appropriées selon le contexte donné de l'interaction, les dispositifs multimédias disponibles et les préférences de l'utilisateur. Nous avons conçu un mécanisme (c.-à-d. un paradigme) qui réalise cette tâche. Nous avons également simulé sa fonctionnalité avec succès. Ce mécanisme utilise l'apprentissage de la machine (Mitchell 1997 ; Alpaydin 2004 ; Hina, Tadj et al. 2006) et un raisonnement à base de cas avec apprentissage supervisé (Kolodner 1993 ; Lajmi, Ghedira et al. 2007). L’entrée à ce composant est une instance de CI. Les sorties sont a) la modalité optimale et b) les dispositifs associés. Ce mécanisme contrôle continuellement le CI de l'utilisateur et s'adapte en conséquence. Cette adaptation se fait par la reconfiguration dynamique de l'architecture du système multimodal diffus. En second lieu, étant donné une instance de CI, la tâche et les préférences de l'utilisateur, nous avons conçu un mécanisme qui permet le choix automatique des applications de l'utilisateur, les fournisseurs préférés à ces applications et les configurations préférées de la qualité du service de ces fournisseurs. Ce mécanisme fait sa tâche en consultation avec les ressources informatiques, percevant les fournisseurs disponibles et les restrictions possibles de configuration.

Indépendamment des mécanismes mentionnés ci-dessus, nous avons également formulé des scénarios quant à la façon dont un système doit présenter l'interface utilisateurs étant donné que nous avons déjà identifié les modalités optimales qui s’adaptent au CI de l'utilisateur.

Nous présentons des configurations possibles d’interfaces unimodales et bimodales fondées sur le CI donné et les préférences de l'utilisateur.Notre travail est différent du reste des travaux précédents dans le sens que notre système capture le CI et modifie son architecture dynamiquement de façon générique pour que l'utilisateur continue de travailler sur sa tâche n'importe quand n'importe où, indépendamment du domaine d'application. En effet, le système que nous avons conçu est généralement générique. Il peut être adapté ou intégré facilement dans divers systèmes de calcul, dans différents domaines d’applications, avec une intervention minimale. C'est notre contribution à ce domaine de recherche.

Des simulations et des formulations mathématiques ont été fournies pour soutenir nos idées et concepts liés à la conception du paradigme. Un programme Java a été développé pour soutenir notre concept de la machine virtuelle à couches pour le CI incrémental.

Type de document: Mémoire ou thèse (Thèse de doctorat électronique)
Renseignements supplémentaires: "Manuscript-based thesis presented to École de technologie supérieure, Université de Versailles Saint-Quentin-en-Yvelines (cotutorship) in partial fulfillment of the requirements for the degree of doctor of philosophy". Bibliogr. : f. [193]-202.
Mots-clés libres: Interfaces utilisateurs multimodales (Systèmes informatiques) Interaction homme-machine (Informatique) Architecture logicielle. Apprentissage automatique. Raisonnement par cas. Contexte. Interaction homme-machine, interface multimodale, système diffus, système multimodal multimédia
Directeur de mémoire/thèse:
Directeur de mémoire/thèse
Tadj, Chakib
Co-directeurs de mémoire/thèse:
Co-directeurs de mémoire/thèse
Lévy, Nicole
Programme: Doctorat en génie > Génie
Date de dépôt: 18 nov. 2010 16:22
Dernière modification: 20 janv. 2017 22:39

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt


Plus de statistique...