IHM Multimodale Jean Caelen.

Slides:



Advertisements
Présentations similaires
Pré AO - PAO Pré AO Présentation assistée par ordinateur PAO
Advertisements

Jacques Tardif Faculté d éducation Université de Sherbrooke 26 avril 2001 Comment l axe des compétences oblige-t-il de placer l apprenant au cœur de ses.
AUTRES ASPECTS DU GPS Partie I : tolérance de Battement
Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
Eric BONJOUR, Maryvonne DULMET
Exemple : Itinéraire de lecture.
Lexique des manœuvres de base pour utiliser à PowerPoint
La fonction Style Permet de créer des types de texte, par exemple
Évaluer pour faire apprendre dans une approche par compétences
Les requêtes La Requête est une méthode pour afficher les enregistrements qui répondent à des conditions spécifiques. La requête est donc un filtre.
INITIATION AU GRAFCET E. HELLOT lycée P. Duez.
Principes de communication
Formation au module Structure de ZENTO
Créer une animation simple Gif avec ImageReady.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
10 ANS DE RECHERCHES et PERSPECTIVES ... Jean Caelen, Joëlle Coutaz
Principes de facilitation de la communication
Parcours de formation SIN-7
Initiation à la conception de systèmes d'information
Réalisée par :Samira RAHALI
Création d’un programme :
TRANSMISSION DES DONNEES.
MICROSOFT POWER POINT Fais « Enter » Par Danièle Lippé.
Le Travail Collaboratif ...
ÉPREUVE - ÉCONOMIE DROIT
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Thème 8 : l'observation et l'expérimentation
Les nouveaux modes dinteraction Cours Interaction Personne-Machine 7 juin 2004 Présentation réalisée par Mireille Bétrancourt (
Découpage technique (storyboard ) 13 règles dans l ’application multimédia interactif
Présentation du mémoire
ADAMOS Une plate-forme pour concevoir et évaluer des services proactifs Système proactif ? qui évolue en fonction des paramètres de lenvironnement physique.
Interactions multimodales
Ergonomie et facteurs humains
1.  Communication humain-machine  Principes ergonomiques -Reconnaissance de symboles -Interaction -Efficacité -Adaptation à l’usager -Design ergonomique.
Ergonomie d’un blog, d’un site internet
Présentation de la méthode des Eléments Finis
Les activités de langue .
Grille d’Appréciation ou d’Evaluation
Les présentations assistées par ordinateur (préAO)
ANALYSE METHODE & OUTILS
Le FLE en contexte migratoire
Licence Pro IUT Bobigny
Biologie – Biochimie - Chimie
Création et présentation d’un tableau avec Word 2007
Cour : Microsoft excel FACULTE DES SCIENCES AGADIR
Gestion des fichiers et dossiers
LA SEANCE 1. Qu ’est-ce que je veux faire? (choisir ses objectifs)
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Augmenter le débit d’un.
Le programme du cycle d’orientation
Les principes de la modélisation de systèmes
Master 1 – Sciences du Langage –
Module 8 : Surveillance des performances de SQL Server
La programmation neurolinguistique
Construire des unités d ’apprentissage.
Notions fondamentales en linguistique
Cours EIA - 4/02/04- Mireille Bétrancourt
Traitement de la parole : Synthèse et reconnaissance
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Algorithmique et programmation (1)‏
Algorithmes et Programmation
GSD langue française - Boumerdès 19 et 30 avril 2013
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
KEY NOTE GRH.
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Initiation à la conception des systèmes d'informations
Interface Homme-Machine
Introduction aux Interfaces Homme-Machine
Élaboration d’un référentiel de compétences
1 Philippe TRIGANO - Université de Technologie de Compiègne - FRANCE Philippe TRIGANO INGÉNIERIE MULTIMÉDIA PÉDAGOGIQUE.
Transcription de la présentation:

IHM Multimodale Jean Caelen

Historique en France Convergence : dialogue + interaction théorie de l’action // manipulation directe 1990 : émergence grenobloise, action du GdR-PRC CHM 1991 : école de printemps ECL (+70 participants) 1992 et suivantes : ateliers du GdR-PRC CHM 1993 : fondements théoriques

Terminologie Modal — philosophie « L’homme est un être modal et conditionnel » (Spinoza)   Modalité — logique (déontique, épistémique, ontique, temporelle) — sensorielle (audition, vision, etc.) — de communication dictum et modus (locutoire et illocutoire) Mode — sens commun (forme, méthode) — grammatical : forme verbale (traduit l’attitude d’un sujet vis-à-vis d’événements dénotés par le verbe) Média / Canal média = moyen + intermédiaire (=> support + canal)

Sémiosis Média : substance (signal sur un canal) Mode : forme (signe) Système multimédia : véhicule des signaux de nature différente Système multimodal : interprète des signes appartenant à plusieurs systèmes sémiotiques   => deux niveaux de traitement

Paradigmes Multisensoriel Multi-mode de traitement

CASE (côté machine) C = Concurrent, deux tâches distinctes, en parallèle, pas de coréférence • A = Alterné, une tâche, entrelacement temporel, en coréférence de modalités • S = Synergie, une tâche, en parallèle, en coréférence de modalité • E = Exclusif, une tâche à la fois sans usage de la multimodalité Interprétation/génération Alterné Synergique Combiné Exclusif Concurrent Indépendant Séquentiel Parallèle Usage

CARE (côté utilisateur) • C = Complémentarité, chaque mode est nécessaire (et contribue) à la compréhension de l’action, • A = Assignation, l’usager choisit un mode récurrent particulier (ou un sous-ensemble de modes) pour s’exprimer, • R = Redondance, l’usager utilise simultanément plusieurs modes à travers lesquels les informations sont redondantes, • E = Equivalence, l’usager choisit indifféremment tel ou tel mode (ou un sous-ensemble de modes). Modes Equivalent Complémentaire Multi Assigné Redondant Mono Action Information But

Assignation libre ou imposée Redondance CARE (exemples) Complémentaire • parole et regard sur objet • “mets ça là” + gestes   Assignation libre ou imposée • Sélection(objet) par souris vs. parole Redondance • parole entendue et parole vue (lecture du mouvement des lèvres) • “détruis le cercle rouge” + geste de destruction sur cercle rouge Equivalence • fonctionnelle Sélec(cercle) = ButtonDown(cercle) = “sélectionne le cercle rouge” = “sélectionne ce cercle” + geste • actionnelle Sélec(cercle) + Poser(cercle) = “Dessine un cercle”

Premières applications  Parole + geste Mets ça là

Les problèmes fondamentaux Adéquation des modalités aux tâches Adéquation aux usages et aux profils d’utilisateurs Fusion des entrées Fission des sorties

Adéquations… Quelle est l'adéquation d'une forme d'interaction à une tâche donnée ? à un utilisateur donné ? Comment tenir compte des contraintes environnementales pour optimiser l'efficacité et la fiabilité des commandes de l'utilisateur mais aussi celles des messages restitués par la machine ? Quels liens faut-il établir entre les modalités de sortie et les modalités d'entrée ? Comment circonscrire un espace d'interaction pertinent au regard de la tâche ?

Adéquations… Mode parlé entrée : commandes, macro-commandes (mots isolés, parole continue), entrée de données sortie : guides, exemples, requêtes, explications, relances, etc. (synthèse, phrases à trous) Mode écrit entrée : identificateurs, nombres (clavier, tablette graphique) sortie : explications détaillées (écran) Mode gestuel entrée : désignation 2D ou 3D (souris, gant numérique, écran tactile), langage de signes (caméra), action ergative (clavier interactif) sortie : retour d’effort, effet tactilo-kinesthésique Mode visuel entrée : orientation du sujet, expression du visage, suivi du geste (reconnaissance d’images) sortie : visualisation de résultats ou de mondes virtuels (synthèse d’images, graphique animé)

Adéquations… La prédiction par Moz Le modèle ICS (Interactive Cognitive Sub-system) L’évaluation

Adéquations… Mode parlé Mode gestuel • la satisfaction globale des usagers dépend de la catégorie des personnels • l’apprentissage de l’interface est plus rapide • l’efficacité dans la réparation des erreurs est améliorée • les contraintes d’utilisation sont souvent limitatives (contexte bruyant, confidentialité, gêne, etc.) • le niveau de langage compris par la machine nécessite une adaptation • les langages opératifs observés utilisent des phrases courtes avec une prosodie indiquant assez clairement les frontières de mots Mode gestuel • les habitudes sont héritées de l’usage de la souris • la désignation gestuelle est directe et fiable, le retour d’effort est très épistémique • les signes gestuels sont peu naturels (leur reconnaissance est difficile) etc.

Le geste : propriétés • Ergative : • Epistémique : • Sémiotique : interaction avec le monde physique, échange d’énergie • Epistémique : boucle action-perception (tactilo-proprio-kinesthésique) • Sémiotique : — langage — appuis : déixis, rythme, iconicité — idéographie, dessin, écriture — geste instrumental : musique

La langue orale : propriétés L’ellipse du verbe : Dessine un cercle. Un triangle du nom : Détruis le rouge L’anaphore et la cataphore régression : Dessine un cercle. Déplace-le progression : Détruis-le, ce cercle La déixis Mets çà ici. Le cercle là. La reprise Dessine un cercle rouge...non un vert Dessine un cercle rouge...non un triangle Dessine un cercle rouge...non détruis-le L’hésitation Dessine e: un cercle rouge Ex : “Pivote les” + Sélection(zone) les = tous les objets visibles (+anticipation) => anaphore + déictique les = les objets sélectionnés => cataphore

Événement Définition Début, fin de signaux externes : changements perceptibles sur un média Les événements souris clic = k appuyer = A relâcher = R déplacer = Traj = (dT, fT) etc. Les événements parole début-parole = dP fin-parole = fP début-mot = dM fin-mot = fM ____________________________________________________________   Relations temporelles entre événements (Allen) (dP, (A, R), fP) (dP, fP) + autres relations (indépendance, recouvrement, etc.

Événement Le système multimodal est un serveur. Il peut être distribué. Cela conditionne le transport et la datation des événements.   Tous les clients n'ont pas forcément les mêmes dispositifs multimodaux

Événement Structures événementielles   mi(k) = ième acte en mode k reçu (émis) par le système multimodal de (vers) un ensemble de serveurs {S} événement-de-acte : attaché-à mi(k) | type : ei(k) = {dmi(k), fmi(k)} | mode : k | date : t (ei(k)) | n°-ordre : i | provenance / destination : {S} uij(k) = jème unité contenue dans mi(k) événement-d’unité : attaché-à uij(k) | type : eij(k) = {duij(k), fuij(k)} | acte : mi(k) | date : t(eij(k)) | n°-ordre : j

Événement Relations événementielles 1- chronologiques (), monomodales eij-p(k) eij(k) ssi "p1, t(eij-p(k))t(eij(k)) 2- synchroniques (), multimodales "kk’, eij(k)ei’j’(k’) ssi eij(k) [dui’j’(k’), fui’j’(k’)] ou ei’j’(k’)  [duij(k), fuij(k)] avec, eij(k)  [dui’j’(k’), fui’j’(k’)] ssi t(dui’j’(k’))  t(eij(k))  t(fui’j’(k’))   PROPRIETES : () est une relation d’ordre partiel, () est une relation d’équivalence

Information Définitions Unité référentielle pour la machine Unité sémiotique pour l’usager (unité signifiante) Unité référentielle pour la machine Acte : suite d’unités délimitée par des marqueurs propres à chaque mode (pause pour la parole, enfoncement, relâchement de la souris, etc.)   Les informations gestuelles Acte k(carré).A(lieu).Trajectoire.R => dessiner un carré, ici, taille Unités k(carré), A(lieu), Trajectoire : syntagmatiques R : méta-gestuelle (marqueur) etc. Les informations langagières Acte de langage lexicales, syntaxiques, sémantiques, prosodiques méta-discursives

Information Définition du “présent” unités (actes) synchrones deux unités (actes) sont synchrones s’ils possèdent deux événements synchrones "kk’, uij(k)ui’j’(k’) ssi $ eij(k)ei’j’(k’)   la durée de deux unités (actes) synchrones est : d(uij(k)ui’j’(k’)) = max[t(eij(k)),t(ei’j’(k’))]-min[t(eij(k)),t(ei’j’(k’))] Définition du “présent”   “présent” instantané durée de l’unité la plus courte à un instant donné épaisseur du “présent” intervalle de temps défini par la durée de tous les actes synchrones à un instant donné. Cette épaisseur est variable au cours du temps. Cas particuliers : — dans un système alterné il n’y a pas d’unités ni d’actes synchrones — dans un système concurrent la gestion des modes s’effectue comme dans un système synergique mais il n’y a pas de niveau de fusion d’informations

Traitement des informations… Fusion des entrées + Contexte interactionnel + Proximité temporelle + Co-référence sémantique Fission des sorties + « Affordance »

Contexte interactionnel Concurrent ____________________________________________________________  Co-référence : L{uij(k), ui’j’(l)} = Ø pour i≠i’ Pas de contraintes temporelles    Anaphore 1. “Dessine un cercle” + k(vert) 2. k(carré).A(lieu).Traj.R 3. “Détruis-le”  Deictique “Mets ça ici”  ne peut être traité ____________________________________________________________ Problèmes - de coréférence (déixis, anaphore, etc.) - de spécificité des modes

Contexte interactionnel Alterné   ____________________________________________________________  Alternance : Débuti(k)  Fini’(k-1) avec i  i’ Pas de contraintes co-référentielles  Anaphore et déictique 1. ”Dessine un cercle ici” 2. k(lieu) 3. k(vert) 4. k(carré).A(lieu).Traj.R 5. “Détruis-le”  Problèmes - de synchronie - de spécificité des modes

Contexte interactionnel Synergique   ____________________________________________________________ Pas de condition Anaphore et déictique 1. ”Dessine un cercle ici” +k(lieu) 2. “vert” - k(carré).A(lieu).Traj.R 3. “Détruis-le”  Problèmes - de dépendance temporelle (+, -) - de spécificité des modes

Contexte interactionnel Défini par la boucle action-perception et les contraintes mécaniques du système   ex. Mettre(Objet, Lieu) “mets ça ici” < d(ça) < d(ici) = alterné (“mets ça ici” d(ça)) < d(ici) = synergique(p+) (“mets ça”  d(ça)) < (“ici”  d(ici)) = synergique “mets” < (“ça”  d(ça)) < (“ici”  d(ici)) = synergique(g+) défini par les relations sémantiques/pragmatiques ex. d(triangle)  “déplace le cercle” = concurrent Ces deux critères permettent de "calculer" le contexte interactionnel. A son tour, il permet d'interpréter les actes et leurs relations.

Exemples Référence à une collection d’objets si dépendance temporelle   si dépendance temporelle détruire “tous les” triangles parmi ceux qui sont sélectionnés (les = déictique) si anticipation du geste détruire “les” triangles référencés dans le passé (les = anaphore) si anticipation de la parole détruire “les” triangles référencés dans le futur (les = cataphore) ou dans le passé si conflit inter-modal entourage d’un ensemble d’objets ne contenant pas de triangle si erreur intra-modale “détruis les triangles” => “déduis les trois angles”

Exemples Référence à une suite d’objets   Référence à un objet en mouvement Référence indirecte

Fusion / Fission Fusion : résolution de la co-référence : mettre en relation les référents multimodaux   Fission : résolution de la différence : activer les référents les plus adéquats

Fusion L’effet McGurk Les logogènes de Morton image de “ga” + parole “ba” ==> perception de “da”   Les logogènes de Morton Les boucles action-perception et leur contrôle • audition-production (théorie de l’action) • mouvement-vision (intentionnalité) • tactilo-kynesthésique (proprioceptif)

Fusion

Analyse morpho-syntaxique Analyse morphologique de chaque acte modal sur l’épaisseur du présent Analyse monomodale

Analyse pragmatique 1et2 Analyse des indexicaux et des marqueurs par liage intermodal   Contexte interactionnel : synergique Contexte discursif : action en cours -----------------------Traitement des indexicaux : “les” " (objets) : Contrainte (objet  Domaine) Objet = Objet instancié  Historique Domaine = Lieu((x0,y0), (x1,y1)) liste d’objets --------------Traitement des marqueurs : Prosodie, R Prosodie assertive R marqueur de fin d’action gestuelle action synergique complète

Analyse sémantique La base de connaissances des actions Construction d’une CMR (Common Meaning Representation)   La base de connaissances des actions Action : Détruire Activation = double-clic($SObj) | Verbe($Sdétruire) OBJ = GN($Dominant = $SObj) | clic($SOb) Temps = GP(prép($CTemps).GN) | Adv($CTemps) Action : Mettre Activation = mvt-clic($SObj) | V($SDéplacer) OBJ = GN($Dominant = $SObj) | clic($SObj) Lieu = GP(prép($CLieu).GN) | Adv($CLieu) | clic($SLieu) etc. __________________________________________________________ La base de connaissance des objets Triangle : Sorte-de Objet-géométrique Taille : GA($Dominant = $SObj) | mvt-clic($SObj) Couleur : CN($Dominant = $SObj) | clic($Spalette) Position : (x,y) Actions : {Détruire, Mettre} Les règles Règles d’instanciation des scripts et des objets Hypothèses transmises au contrôleur de dialogue Pour une fusion pragmatique de niveau 3 Solutions

Analyse pragmatique Traitée par le module d’interprétation sous le contrôle de dialogue les référents et co-référents les actes de dialogue les implicatures conversationnelles les présupposés etc.

Fission Choix des modalités de présentation Complémentaire Assigné en fonction de la situation ou des dispositifs disponibles (ex. cockpit d’avion) Assigné statique et stable (favorise la mémorisation) Redondant augmenter la prégnance (ex. alerte) Équivalent laisser le choix à l’utilisateur (préférences)

Fission Critères de classification des modalités de sortie (Bernsen 94) Langagière / Non Langagière : indique si la modalité utilisée repose ou non sur la préexistence d'un lexique plus ou moins important, d'une syntaxe plus ou moins complexe et sur des représentations sémantiques et pragmatiques. Analogique / Non Analogique : une modalité analogique véhicule des informations qui tirent leurs représentations de l'entité signifiée (représentation iconique ou isomorphique). Arbitraire / Non Arbitraire : une modalité non arbitraire repose sur la préexistence d'un système de représentations sémantiques connu des utilisateurs. Une modalité arbitraire nécessite l'apprentissage des conventions de représentation utilisées dans un contexte donné. Statique/Dynamique : indique l'influence du temps sur la structure des informations. Média d'expression : graphique, sonore ou tactile.

Différentes modalités possibles Sphère Sphère tronquée Cylindre Colline

Évolutions de la notion de modalité Modalités sensorielles et de présentation Modalités d’action (tâches) Par exemple « naviguer » et « dialoguer » pour atteindre le but

Présentation des résultats dans la Fish-Eye-View (avec hyperliens) Historique du dialogue Présentation des résultats dans la Fish-Eye-View (avec hyperliens) Boîte de dialogue de l’usager Zone de détail d’un document Boutons d’interactions vocales

Tâches Multimodalité alternée Multimodalité exclusive   Une tâche est caractérisée par un but B à atteindre Une tâche est multimodale si les actions pour l’effectuer sont multimodales en soi ou si les actions utilisent différentes modalités au cours de la réalisation de la tâche. Multimodalité alternée une seule modalité est utilisée à un instant donné, mais plusieurs sont utilisées pour une même tâche au cours du temps, Multimodalité exclusive une seule modalité est utilisée à un moment donné, et pour toute la tâche, Multimodalité synergique plusieurs modalités sont utilisées pour une même action, Multimodalité concurrente plusieurs actions sont produites en même temps en utilisant des modalités différentes (ces actions concourent ou non à la même tâche)

Exemples    Soit une activité sur deux fils : B1 et B2 deux buts à atteindre • a1 et a2 sont synergiques, ils contribuent au même but et se déroulent en parallèle, • a3, a5 sont alternés, • a5 et a6 sont séquentiels. • a6 et a7 sont concurrents puisqu’ils se déroulent dans la même fenêtre temporelle et qu’ils portent sur des buts différents.

T-CCARE ... au niveau de la tâche   • C = Conflit (contradiction des actions portées par des modes différents) • C = Complémentarité (de deux actions exprimées sur deux modes différents mais non nécessairement en même temps) • A = Assignation (une modalité à une tâche c-a-d pour toutes les actions de la tâche) • R = Redondance (deux actions ont été exprimées 2 fois sur des modes différents) • E = Équivalence (deux actions pourraient être faites sur plusieurs modes) ... au niveau de la tâche

Exemples Le conflit La complémentarité la désignation gestuelle et orale ne concerne pas le même objet 0:00:56 geste geste-cercle 0:00:57 parole réduire l'ensemble 00:00:18 geste clic-cercle 00:00:22 parole tout sélectionner La complémentarité 00:33:05 geste déplace-répertoire 00:33:11 parole ajouter correspondant  

Exemples La redondance la redondance porte sur l'objet. 0:00:04 geste clic-barre 0:00:49 parole barre horizontale 02:17:55 geste déplace-répertoire et clic-bouton éditer 02:18:09 parole ,,, dans le répertoire, modifier la fiche de Mireille Parran  la redondance porte sur l’action  

Exemples Exemple de tâche multimodale la tâche du sujet est composée de deux sous-buts : agrandir un objet et le déplacer.   hh:mm:ss actions 1 00:00:00   2 00:00:04 clic-cercle droit + parole plus grand 3 00:00:06/00:00:12 Réalisation machine 4 00:00:12 parole « plus grand » 5 00:00:13/00:00:19 Réalisation machine 6 00:00:22 clic-cercle droit 7 00:00:25 déplace-cercle droit 8 00:00:27 déplace-ajustement-cercle droit  

ICPdraw : interface ICPdraw : Editeur graphique multimodal parole (reconnaissance, synthèse) geste (croquis, désignation, sélection) clavier (langage naturel)  

ICPdraw : composants parole • Reconnaissance : HMM (parole continue) • Analyse linguistique par grammaire CF — entrée : parole — sortie du module de traitement : mots + c-structure + f-structure   • Synthèse : PSOLA — entrée : texte + marqueurs prosodie — sortie : parole  

ICPdraw : la syntaxe Action  V.GN1.Lieu2 Action  V.Pr Réit  GN1.Lieu2 Rectif  non.GN1.Lieu2 Rectif  plus.AdjT GN1  Dét2.AdjT.N.AdjC Pr  {le, les} V  {dessine, déplace, détruis, change, annule, sélectionne, duplique, quitte} Dét  {le, les, un, deux, trois, quatre, ce, ces} AdjT  {grand, petit} N  Obj Obj  {carré, cercle, triangle} AdjC  {blanc, noir, bleu, jaune, rouge, rouge, vert} Lieu  GN2 | LocP2 | LocA GN2  LocP1.N.AdjC LocP1  {sous le, sous ce, sur le, sur ce, à côté du, à côté de ce} LocP2  {à droite, à gauche, en haut, à gauche, au centre} LocA  {ici, là, là-bas, vers ici, vers là, par ici, par là} Dans ce langage tous les éléments peuvent être facultatifs : “dessine cercle vert” ou “non... vert” sont deux formes admissibles.  

ICPdraw : le geste dessine un carré dessine un triangle dessine un cercle détruis (obj)   sélectionne objet(s) déplace un objet duplique (obj) désigne (lieu) k(Lieu).A(Lieu).Traj(carré).R k(Lieu).A(Lieu).Traj(triangle).R k(Lieu).A(Lieu).Traj(cercle).R A(Obj).(Traj(Z) | Traj()).R k(Obj) | A(Lieu).Traj.R A(Obj). Traj.R k(Obj).A(Obj). Traj.R k(Lieu)  

ICPdraw : architecture Architecture en couches  

ICPdraw : contrôle du dialogue Le modèle d’interaction : automate à états finis Stratégie réactive • si l’action est correctement interprétée et exécutable alors le système passe dans l’état “réaction” et attend une nouvelle commande d’action, de réitération ou de rectification, • si l’action conduit à une situation incohérente, le système pose une question et se met en attente d’une réponse de rectification. Deux erreurs consécutives ne sont pas tolérées, le système passe dans l’état “continuation” c’est-à-dire en attente d’une nouvelle action. Les incidences du dialogue sont volontairement évitées, elles sont traitées comme des abandons implicites (avec retour à une nouvelle action).  

ICPdraw : contrôle du dialogue | Introduction | Attente(Acte) | Interprétation(Acte, Action) | Tantque Action  “Quitter” Faire | | si Action = erreur alors Question | | | Attente(Acte) | | | Interprétation(Acte, Rectification) | | | | si erreur alors Message; Continuation | | | | sinon Réaction= Rectification | | sinon Réaction = Action | | si Réitération = erreur alors Continuation | | sinon Réaction = Réitération | Continuation : Attente(Acte) | Fin Tantque Fin Dialogue Interprétation(X, Y) : active un script Y dans le contexte X Question : sous-dialogue de requête Réaction : exécution de l’action Attente : attente d’une nouvelle action  

ICPdraw : fusion Scripts d’action Réitération-Dessiner si Réit.(Hist(V)=Dessine) Quoi = GN($N) | A(Lieu).Traj(Obj).R si-défault = Hist(Obj) Combien = GN($Dét(1) | $Dét(2)) si-défault = 1 Taille = GN($AdjT) si-défault = Hist(Taille) Couleur = GN($AdjC) | k(Palette) si-défault = Hist(Couleur) Où = Calcul(Lieu) | k(Lieu) si-défault = Hist(curseur) si-erreur = Q(où) Rectification-Dessiner si Rectif.Hist(V)=Dessine | Question.Réit.Hist(V)=Dessine Quoi = GN($N) | A(Lieu).Traj(Obj).R si-défault = Hist(Obj) Combien = GN($Dét(1) | $Dét(2)) si-défault = 1 Taille = GN($AdjT) | plus($AdjT) si-défault = Hist(Taille) Couleur = GN($AdjC) | k(Palette) si-défault = Hist(Couleur) Où = Calcul(Lieu) | k(Lieu) si-défault = Hist(curseur) si-erreur = Q(où) Action-Dessiner si Action.(V(Dessine) | k(Lieu).A(Lieu)) Quoi = GN1($N) | Pr | Traj(Obj).R si-défault = Obtenir (d, quoi) Combien = GN1($Dét(1) | $Dét(2)) si-défault = Obtenir (d, combien) Taille = GN1($AdjT) si-défault = Historique(Taille) Couleur = GN1($AdjC) | k(Palette) si-défault = Historique(Couleur) Où = Calcul(Lieu) | k(Lieu) si-défault = Obtenir (d, où)

ICPplan : dessin architectural Conception de plans architecturaux Dialogue multimodal U : « Mets une fenêtre ici » + geste-souris M : « Il ne peut y avoir de fenêtre sur un mur intérieur »  

ICPplan : architecture • Agents autonomes — Concepteur (abstraction) — Modeleur (contrôle) — Interface (présentation) • Fonctions distribuées  

Ergonomie : magicien d’Oz • Côte à côte • Planification imposée • Vocabulaire et langage limités   Action = [dessiner] [déplacer] [effacer] [stop] Objet = [ligne verticale] [ligne horizontale] [grand triangle] [petit triangle] [grand cercle] [petit cercle] [carré] [anaphoriques = il, elle, le, la, les, etc.] [déictiques = ce, cette, ça, celui-ci, celui-là, etc.] Lieu = [PosRelative(objet)] [PosAutoRelative] PosRelative(objet) = [au dessus de(objet)] [au dessous de(objet)] [à gauche de(objet)] [à droite de(objet)] PosAutoRelative = [plus haut] [plus bas] [plus à gauche] [plus à droite] [déictiques = ici, là] • Figures géométriques • Rôle du compère = assistance • Modes = mul (parole+geste), p (parole) ou s (souris)  

Ergonomie : mesures • 26 sujets   • 26 sujets • propriétés CARE pour chaque action en contexte • relations temporelles ( d>P, d=P, d<P, d<<P) pour indiquer respectivement que (a) le geste est consécutif au mot prononcé, (b) le geste est sensiblement simultané avec le mot prononcé, (c) le geste précède le mot prononcé, (d) le geste précède la séquence parlée qui contient la deixis, il reste posé sur l’écran ensuite pendant l’énoncé verbal.  

Ergonomie : résultats Equivalence fonctionnelle (sur action de désignation) (précision)   toutes catégories de sujets (mul) (p) (s) 66% 14% 20% categorie expert 81% 9% 10% categorie occasionnel 53% 17% 30% categorie novice 78% 22% 0% Equivalence de résultat (dessin d’une figure)   a priori : les modes sont équivalents a posteriori : 40% mul, 16% s, 6% p, 38% mixte  

Ergonomie : résultats Equivalence : selon la tâche de désignation…   expert ——————————————— désignation-lieu désignation-objet doigt parole doigt parole 90% 10% 22% 78% occasionnel ———————————— 87% 13% 23% 77% novice ——————————————— 88% 12% 22% 78% Usage de la modalité “doigt” ou “parole” pour désigner un lieu ou un objet selon le type d’usager  

Ergonomie : résultats Assignation = spécialisation (naturelle) des modes (a) pour les cas de réussite de l’action “dessiner” (s) (p) (mul) 18,6% 6,6% 74,8% “déplacer” 5,8% 31,4% 62,8% “effacer” 22% 27% 51% • biais de l’expérience car “déplacer” suit “dessiner” action principale (“dessiner”) mul ou s raffinement (“déplacer”) mul ou p • pas de spécialisation pour “effacer” • échecs réduits avec la souris (b) pour les cas d’échec de l’action “dessiner” (s) (p) (mul) 1 1 15 “déplacer” 0 2 3 “effacer” 0 2 0  

Ergonomie : résultats Redondance : pour le multimodal seulement   “dessiner” “déplacer” “effacer” —————————————————————— désignation désignation désignation objet lieu objet lieu objet 7.4% 2.4% 19.8% 20.9% 42% • redondance forte pour “effacer” => sécurité ? • redondance pour “déplacer” => précision ? • pas de redondance pour “dessiner” => économie ?  

Ergonomie : résultats Complémentarité : pour le multimodal seulement (résultats opposés à Redondance) —————————————————————— "dessiner "déplacer" "effacer" moyenne   90.2% 59.3% 58% 66.6% • complexité sémantique ou grand nombre d’arguments (“dessiner”) => complémentarité Relations temporelles d<<P d < P d = P d>P et d>>P 3,2% 28,8% 67,3% 0,7%  

Ergonomie : autres résultats • Réparation des erreurs mode ayant provoqué l’erreur mode correction p mul s 0% 0% p 12% 6% mul 88% 94%   • la reformulation n’était pas possible (syntaxe limitée) => réitération dans un autre mode • mul apparaît comme un mode plus sécurisé • Usage des ellipses et anaphores • Stratégies de placement des objets - des usagers procèdent par approximation successive pour placer les objets. Cela engendre des cas d'ambiguïté de déictiques. - des usagers désignent les lieux ou les objets par entourage. - pour déplacer un objet, certains usagers font re-dessiner un nouvel objet identique au premier puis font effacer l'ancien.  

Ergonomie : recommandations le geste SANS CONTRAINTE INSTRUMENTALE est compatible avec la multimodalité Dans cette expérience : • usage de la multimodalité attestée + plus économique (complémentaire) + plus fiable (redondance) + plus adapté (selon type de tâche)   • à confirmer sur d’autres tâches (et avec une véritable IHM) • mesurer la contribution cognitif/perceptif • effets négatifs de la multimodalité (multiplication des hésitations, des erreurs d’expression, entrelacement des buts, mauvaise coordination sensorielle, etc.)  

Usage QuickSet Les interfaces multimodales sont-elles utilisées ? Si oui comment ? Pour quelles tâches ? QuickSet  

10 mythes (S. Oviatt) 1- Ce n’est pas parce qu’une interface est multimodale que les utilisateurs vont utiliser la multimodalité. Dans QuickSet la multimodalité est utilisée dans 20% du temps d’une session de travail. Les utilisateurs passent d’un mode à l’autre sans raison apparente et restent unimodaux certainement pour des raisons de confort personnel. Cependant les commandes spatiales sont plus fréquemment multimodales ainsi que les informations de taille, de forme des objets, de nombres, de lieux et d’orientations. La richesse sémantique de l’action favorise la multimodalité.

10 mythes (S. Oviatt) 2- Le pattern parole-pointage n’est pas le plus intéressant. Depuis le fameux « mets ça là » de Bolt, la multimodalité a été centrée sur le paradigme de l’interaction synergique. Dans ce paradigme la parole est considérée comme mode sémantique dominant et le geste de désignation comme subordonné. En fait cette conception est une survivance du concept clavier/souris (c’est-à-dire de sélection sur une icône ou un menu), bien plus pauvre qu’une interaction qui utiliserait les mouvements gestuels, les expressions faciales ou corporelles, etc. Par exemple des études avec un stylo/voix montrent que la multimodalité est de 14% plus utilisée qu’avec une entrée souris/voix. L’utilisation des déictiques est aussi plus fréquent de 20%.

10 mythes (S. Oviatt) 3- La multimodalité ne signifie pas obligatoirement « parallélisme ». En effet on a constaté que bien souvent le geste précède la parole (99% des cas), même lorsque les deux modes dénotent des informations synchrones comme les déictiques. Le degré d’anticipation dépend de la langue. Il n’y a finalement que 25% des énoncés qui sont véritablement simultanés : synchronie ne signifie pas simultanéité.

10 mythes (S. Oviatt) 4- La parole n’est pas un mode « de base » dans un système multimodal. Cela n’est vrai que sur le plan historique. Depuis il y a bien des systèmes qui utilisent la main et le regard par exemple comme modes d’entrée, notamment dans les systèmes militaires. Le problème général de la multimodalité ne se pose donc pas en termes de commande+sélection, la commande étant linguistique et la sélection manuelle. Le problème ne se pose pas non plus en terme de source principale/source secondaire dans lequel on utiliserait la source secondaire dans le cas où la source principale serait dégradée.

10 mythes (S. Oviatt) 5- Le langage multimodal ne diffère pas du langage unimodal. On peut dire seulement que le langage utilisé en contexte multimodal est syntaxiquement moins complexe, que les énoncés sont plus courts et que le débit est moins hésitant. Les ellipses sont plus fréquentes et les constructions linguistiques sont moins ambiguës, car les énoncés sont plus compacts. Il semble que ces propriétés rendent le langage multimodal plus apte à une intégration dans un système homme-machine.

10 mythes (S. Oviatt) 6- L’interaction multimodale ne favorise pas la redondance. On pourrait croire le contraire, mais cela ne va pas dans un sens d’économie du point de vue de l’utilisateur. Celui-ci va donc privilégier la complémentarité. Même dans le cas d’échec puis d’essais de correction, l’usage de la redondance n’augmente pas de façon significative. La redondance n’est pratiquement utilisée que dans le sens d’une recherche de fiabilité

10 mythes (S. Oviatt) 7- Les erreurs sur un mode ne sont pas compensées par un autre mode. Il est illusoire de penser que l’on va masquer les insuffisance d’un mode (par exemple les erreurs de reconnaissance de la parole) par un autre mode. En réalité les erreurs se cumulent d’un mode à l’autre. Mais les utilisateurs optimisent l’usage d’un mode au profit de tel autre, après expérience faite de ses performances, ce qui rend somme toute, par effet indirect de l’usage, l’interaction plus robuste. Dans quelques cas cependant, lorsque une double incertitude se produit dans les deux modes d’entrée, il est parfois possible de recouper l’information sur un critère de cohérence sémantique.

10 mythes (S. Oviatt) 8- Les utilisateurs n’organisent pas « leur » multimodalité de la même manière. Pour les uns, ce qui est séquentiel, est parallèle chez les autres. Tel mode est dominant chez les uns, et ne l’est pas chez les autres. Tel mode est persistant, etc.

10 mythes (S. Oviatt) 9- Les modes ne sont pas équivalents. Leur pouvoir d’expression est différent sans parler de leur pouvoir perceptuel, qui paraît plus évident. Cela signifie que le geste (et inversement la parole) ne peut tout exprimer dans une interaction, il y a des limitations cognitives. Même si parfois on eut rapprocher deux modes, ils n’en différent pas moins par leurs propriétés différentes : précision, latence, etc. Certains modes sont plus inconscients ou passifs que d’autres : la direction du regard par exemple.

10 mythes (S. Oviatt) 10- Un système multimodal n’est pas plus efficace qu’un autre. On croit souvent qu’un système multimodal sera plus efficace qu’un système monomodal, car on pourra faire plusieurs choses en même temps, se reposer en passant d’un mode à l’autre, réduire la charge perceptive et cognitive, économiser le temps de planification, etc. Des expériences ont prouvé le contraire : une commande multimodale est souvent plus longue à exprimer qu’une commande monomodale, car il y a un coût dû à la multimodalité (par exemple la multimodalité produit un débit de parole plus saccadé et des hésitations plus fréquentes).

PERSPECTIVES ... en multimodalité(s)

Trois points clés Physicalité Mobilité Plasticité

Physicalité Les principes de la Réalité Augmentée Conservation des objets qui nous sont familiers Amplification fonctionnelle par le calcul électronique L’ordinateur évanescent mais doué d’ubiquité Disparition de la boîte grise Capacités de calcul réparties dans l’environnement

Physicalité Exemple : Le Tableau Magique (F. Bérard) Modalité d’entrée le doigt, dispositif de pointage feutres naturels, dispositifs d’écriture Modalité de sortie inscriptions électroniques et physiques (complémentarité/redondance) Migration entre l’électronique et le physique Post-Its

Physicalité Exemple : Le Tableau Magique

Physicalité Le Tableau Magique ... dans son environnement naturel Reflets Ombres Changement d’éclairage suivi du doigt colorisation

Physicalité et Environnements perceptifs Capteurs et effecteurs (caméra, dét. de bruit, mouvement, etc.) Apport : migration de tâche vers le «système» modélisation du «contexte» interactionnel

Physicalité et Environnements perceptifs Capteurs et effecteurs (caméra, dét. de bruit, mouvement, etc.) Apport : migration de tâche vers le «système» modélisation du «contexte» interactionnel Niveau de disponibilité

Physicalité et Environnements perceptifs Capteurs et effecteurs (caméra, dét. de bruit, mouvement, localis., etc.) Apport : migration de tâche vers le «système» modélisation du «contexte» interactionnel Multimodalité à de multiples niveaux d’abstraction fusion de données (robustesse du système, enrichissement sémantique) fusion spatio-temporelle : la localisation du capteur importe

Mobilité Mobilité de l’utilisateur mais le dispositif d’interaction est fixe (bornes interactives) contexte d’interaction connu et système figé migration des données personnelles de l’utilisateur

Mobilité Mobilité de l’utilisateur et du dispositif d’interaction contexte d’interaction dynamique tâches dépendantes de la localisation. variabilité de la pertinence d’une tâche et des concepts observables Modélisation de modalités : équivalence fonctionnelle avec adaptation dynamique modalité des retours d’informations modalité selon la connectivité : dégradation courtoise

Plasticité Interactivité En grand : le mur augmenté (cave) En petit : le téléphone portable Tâche accomplie avec un seul système à la fois (en grand ou en petit) en équivalence fonctionnelle plusieurs systèmes à la fois (en grand et en petit) en complémentarité ou en redondance

Plasticité La plasticité des Interfaces : analogie avec certains matériaux Une forme d’adaptation au contexte d’interaction à la variété des dispositifs d’interaction La multimodalité est un élément clé dans la plasticité

En résumé : agenda de recherche Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Modalité à haut niveau d’abstraction pour la plasticité modélisation

En résumé : agenda de recherche Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Contexteur

En résumé : agenda de recherche Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Modalité à haut niveau d’abstraction pour la plasticité modélisation coûts système et humain Contexteur

En résumé : agenda de recherche Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Modalité à haut niveau d’abstraction pour la plasticité modélisation coûts système et humain Contexteur Interacteur

En résumé : agenda de recherche Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Modalité à haut niveau d’abstraction pour la plasticité modélisation coûts système et humain Contexteur Modèle unifié ? Interacteur