La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

IHM Multimodale Jean Caelen.

Présentations similaires


Présentation au sujet: "IHM Multimodale Jean Caelen."— Transcription de la présentation:

1 IHM Multimodale Jean Caelen

2 Historique en France Convergence : dialogue + interaction
théorie de l’action // manipulation directe 1990 : émergence grenobloise, action du GdR-PRC CHM 1991 : école de printemps ECL (+70 participants) 1992 et suivantes : ateliers du GdR-PRC CHM 1993 : fondements théoriques

3 Terminologie Modal — philosophie
« L’homme est un être modal et conditionnel » (Spinoza) Modalité — logique (déontique, épistémique, ontique, temporelle) — sensorielle (audition, vision, etc.) — de communication dictum et modus (locutoire et illocutoire) Mode — sens commun (forme, méthode) — grammatical : forme verbale (traduit l’attitude d’un sujet vis-à-vis d’événements dénotés par le verbe) Média / Canal média = moyen + intermédiaire (=> support + canal)

4 Sémiosis Média : substance (signal sur un canal) Mode : forme (signe)
Système multimédia : véhicule des signaux de nature différente Système multimodal : interprète des signes appartenant à plusieurs systèmes sémiotiques => deux niveaux de traitement

5 Paradigmes Multisensoriel Multi-mode de traitement

6 CASE (côté machine) C = Concurrent, deux tâches distinctes, en parallèle, pas de coréférence • A = Alterné, une tâche, entrelacement temporel, en coréférence de modalités • S = Synergie, une tâche, en parallèle, en coréférence de modalité • E = Exclusif, une tâche à la fois sans usage de la multimodalité Interprétation/génération Alterné Synergique Combiné Exclusif Concurrent Indépendant Séquentiel Parallèle Usage

7 CARE (côté utilisateur)
• C = Complémentarité, chaque mode est nécessaire (et contribue) à la compréhension de l’action, • A = Assignation, l’usager choisit un mode récurrent particulier (ou un sous-ensemble de modes) pour s’exprimer, • R = Redondance, l’usager utilise simultanément plusieurs modes à travers lesquels les informations sont redondantes, • E = Equivalence, l’usager choisit indifféremment tel ou tel mode (ou un sous-ensemble de modes). Modes Equivalent Complémentaire Multi Assigné Redondant Mono Action Information But

8 Assignation libre ou imposée Redondance
CARE (exemples) Complémentaire • parole et regard sur objet • “mets ça là” + gestes Assignation libre ou imposée • Sélection(objet) par souris vs. parole Redondance • parole entendue et parole vue (lecture du mouvement des lèvres) • “détruis le cercle rouge” + geste de destruction sur cercle rouge Equivalence • fonctionnelle Sélec(cercle) = ButtonDown(cercle) = “sélectionne le cercle rouge” = “sélectionne ce cercle” + geste • actionnelle Sélec(cercle) + Poser(cercle) = “Dessine un cercle”

9 Premières applications
 Parole + geste Mets ça là

10 Les problèmes fondamentaux
Adéquation des modalités aux tâches Adéquation aux usages et aux profils d’utilisateurs Fusion des entrées Fission des sorties

11 Adéquations… Quelle est l'adéquation d'une forme d'interaction à une tâche donnée ? à un utilisateur donné ? Comment tenir compte des contraintes environnementales pour optimiser l'efficacité et la fiabilité des commandes de l'utilisateur mais aussi celles des messages restitués par la machine ? Quels liens faut-il établir entre les modalités de sortie et les modalités d'entrée ? Comment circonscrire un espace d'interaction pertinent au regard de la tâche ?

12 Adéquations… Mode parlé entrée : commandes, macro-commandes (mots isolés, parole continue), entrée de données sortie : guides, exemples, requêtes, explications, relances, etc. (synthèse, phrases à trous) Mode écrit entrée : identificateurs, nombres (clavier, tablette graphique) sortie : explications détaillées (écran) Mode gestuel entrée : désignation 2D ou 3D (souris, gant numérique, écran tactile), langage de signes (caméra), action ergative (clavier interactif) sortie : retour d’effort, effet tactilo-kinesthésique Mode visuel entrée : orientation du sujet, expression du visage, suivi du geste (reconnaissance d’images) sortie : visualisation de résultats ou de mondes virtuels (synthèse d’images, graphique animé)

13 Adéquations… La prédiction par Moz Le modèle ICS (Interactive
Cognitive Sub-system) L’évaluation

14 Adéquations… Mode parlé Mode gestuel
• la satisfaction globale des usagers dépend de la catégorie des personnels • l’apprentissage de l’interface est plus rapide • l’efficacité dans la réparation des erreurs est améliorée • les contraintes d’utilisation sont souvent limitatives (contexte bruyant, confidentialité, gêne, etc.) • le niveau de langage compris par la machine nécessite une adaptation • les langages opératifs observés utilisent des phrases courtes avec une prosodie indiquant assez clairement les frontières de mots Mode gestuel • les habitudes sont héritées de l’usage de la souris • la désignation gestuelle est directe et fiable, le retour d’effort est très épistémique • les signes gestuels sont peu naturels (leur reconnaissance est difficile) etc.

15 Le geste : propriétés • Ergative : • Epistémique : • Sémiotique :
interaction avec le monde physique, échange d’énergie • Epistémique : boucle action-perception (tactilo-proprio-kinesthésique) • Sémiotique : — langage — appuis : déixis, rythme, iconicité — idéographie, dessin, écriture — geste instrumental : musique

16 La langue orale : propriétés
L’ellipse du verbe : Dessine un cercle. Un triangle du nom : Détruis le rouge L’anaphore et la cataphore régression : Dessine un cercle. Déplace-le progression : Détruis-le, ce cercle La déixis Mets çà ici. Le cercle là. La reprise Dessine un cercle rouge...non un vert Dessine un cercle rouge...non un triangle Dessine un cercle rouge...non détruis-le L’hésitation Dessine e: un cercle rouge Ex : “Pivote les” + Sélection(zone) les = tous les objets visibles (+anticipation) => anaphore + déictique les = les objets sélectionnés => cataphore

17 Événement Définition Début, fin de signaux externes : changements perceptibles sur un média Les événements souris clic = k appuyer = A relâcher = R déplacer = Traj = (dT, fT) etc. Les événements parole début-parole = dP fin-parole = fP début-mot = dM fin-mot = fM ____________________________________________________________ Relations temporelles entre événements (Allen) (dP, (A, R), fP) (dP, fP) + autres relations (indépendance, recouvrement, etc.

18 Événement Le système multimodal est un serveur. Il peut être distribué. Cela conditionne le transport et la datation des événements. Tous les clients n'ont pas forcément les mêmes dispositifs multimodaux

19 Événement Structures événementielles
mi(k) = ième acte en mode k reçu (émis) par le système multimodal de (vers) un ensemble de serveurs {S} événement-de-acte : attaché-à mi(k) | type : ei(k) = {dmi(k), fmi(k)} | mode : k | date : t (ei(k)) | n°-ordre : i | provenance / destination : {S} uij(k) = jème unité contenue dans mi(k) événement-d’unité : attaché-à uij(k) | type : eij(k) = {duij(k), fuij(k)} | acte : mi(k) | date : t(eij(k)) | n°-ordre : j

20 Événement Relations événementielles 1- chronologiques (), monomodales
eij-p(k) eij(k) ssi "p1, t(eij-p(k))t(eij(k)) 2- synchroniques (), multimodales "kk’, eij(k)ei’j’(k’) ssi eij(k) [dui’j’(k’), fui’j’(k’)] ou ei’j’(k’)  [duij(k), fuij(k)] avec, eij(k)  [dui’j’(k’), fui’j’(k’)] ssi t(dui’j’(k’))  t(eij(k))  t(fui’j’(k’)) PROPRIETES : () est une relation d’ordre partiel, () est une relation d’équivalence

21 Information Définitions Unité référentielle pour la machine
Unité sémiotique pour l’usager (unité signifiante) Unité référentielle pour la machine Acte : suite d’unités délimitée par des marqueurs propres à chaque mode (pause pour la parole, enfoncement, relâchement de la souris, etc.) Les informations gestuelles Acte k(carré).A(lieu).Trajectoire.R => dessiner un carré, ici, taille Unités k(carré), A(lieu), Trajectoire : syntagmatiques R : méta-gestuelle (marqueur) etc. Les informations langagières Acte de langage lexicales, syntaxiques, sémantiques, prosodiques méta-discursives

22 Information Définition du “présent” unités (actes) synchrones
deux unités (actes) sont synchrones s’ils possèdent deux événements synchrones "kk’, uij(k)ui’j’(k’) ssi $ eij(k)ei’j’(k’) la durée de deux unités (actes) synchrones est : d(uij(k)ui’j’(k’)) = max[t(eij(k)),t(ei’j’(k’))]-min[t(eij(k)),t(ei’j’(k’))] Définition du “présent” “présent” instantané durée de l’unité la plus courte à un instant donné épaisseur du “présent” intervalle de temps défini par la durée de tous les actes synchrones à un instant donné. Cette épaisseur est variable au cours du temps. Cas particuliers : — dans un système alterné il n’y a pas d’unités ni d’actes synchrones — dans un système concurrent la gestion des modes s’effectue comme dans un système synergique mais il n’y a pas de niveau de fusion d’informations

23 Traitement des informations…
Fusion des entrées + Contexte interactionnel + Proximité temporelle + Co-référence sémantique Fission des sorties + « Affordance »

24 Contexte interactionnel
Concurrent ____________________________________________________________  Co-référence : L{uij(k), ui’j’(l)} = Ø pour i≠i’ Pas de contraintes temporelles  Anaphore 1. “Dessine un cercle” + k(vert) 2. k(carré).A(lieu).Traj.R 3. “Détruis-le”  Deictique “Mets ça ici”  ne peut être traité ____________________________________________________________ Problèmes - de coréférence (déixis, anaphore, etc.) - de spécificité des modes

25 Contexte interactionnel
Alterné ____________________________________________________________  Alternance : Débuti(k)  Fini’(k-1) avec i  i’ Pas de contraintes co-référentielles  Anaphore et déictique 1. ”Dessine un cercle ici” 2. k(lieu) 3. k(vert) 4. k(carré).A(lieu).Traj.R 5. “Détruis-le”  Problèmes - de synchronie - de spécificité des modes

26 Contexte interactionnel
Synergique ____________________________________________________________ Pas de condition Anaphore et déictique 1. ”Dessine un cercle ici” +k(lieu) 2. “vert” - k(carré).A(lieu).Traj.R 3. “Détruis-le”  Problèmes - de dépendance temporelle (+, -) - de spécificité des modes

27 Contexte interactionnel
Défini par la boucle action-perception et les contraintes mécaniques du système ex. Mettre(Objet, Lieu) “mets ça ici” < d(ça) < d(ici) = alterné (“mets ça ici” d(ça)) < d(ici) = synergique(p+) (“mets ça”  d(ça)) < (“ici”  d(ici)) = synergique “mets” < (“ça”  d(ça)) < (“ici”  d(ici)) = synergique(g+) défini par les relations sémantiques/pragmatiques ex. d(triangle)  “déplace le cercle” = concurrent Ces deux critères permettent de "calculer" le contexte interactionnel. A son tour, il permet d'interpréter les actes et leurs relations.

28 Exemples Référence à une collection d’objets si dépendance temporelle
si dépendance temporelle détruire “tous les” triangles parmi ceux qui sont sélectionnés (les = déictique) si anticipation du geste détruire “les” triangles référencés dans le passé (les = anaphore) si anticipation de la parole détruire “les” triangles référencés dans le futur (les = cataphore) ou dans le passé si conflit inter-modal entourage d’un ensemble d’objets ne contenant pas de triangle si erreur intra-modale “détruis les triangles” => “déduis les trois angles”

29 Exemples Référence à une suite d’objets
Référence à un objet en mouvement Référence indirecte

30 Fusion / Fission Fusion : résolution de la co-référence : mettre en relation les référents multimodaux Fission : résolution de la différence : activer les référents les plus adéquats

31 Fusion L’effet McGurk Les logogènes de Morton
image de “ga” + parole “ba” ==> perception de “da” Les logogènes de Morton Les boucles action-perception et leur contrôle • audition-production (théorie de l’action) • mouvement-vision (intentionnalité) • tactilo-kynesthésique (proprioceptif)

32 Fusion

33 Analyse morpho-syntaxique
Analyse morphologique de chaque acte modal sur l’épaisseur du présent Analyse monomodale

34 Analyse pragmatique 1et2
Analyse des indexicaux et des marqueurs par liage intermodal Contexte interactionnel : synergique Contexte discursif : action en cours Traitement des indexicaux : “les” " (objets) : Contrainte (objet  Domaine) Objet = Objet instancié  Historique Domaine = Lieu((x0,y0), (x1,y1)) liste d’objets Traitement des marqueurs : Prosodie, R Prosodie assertive R marqueur de fin d’action gestuelle action synergique complète

35 Analyse sémantique La base de connaissances des actions
Construction d’une CMR (Common Meaning Representation) La base de connaissances des actions Action : Détruire Activation = double-clic($SObj) | Verbe($Sdétruire) OBJ = GN($Dominant = $SObj) | clic($SOb) Temps = GP(prép($CTemps).GN) | Adv($CTemps) Action : Mettre Activation = mvt-clic($SObj) | V($SDéplacer) OBJ = GN($Dominant = $SObj) | clic($SObj) Lieu = GP(prép($CLieu).GN) | Adv($CLieu) | clic($SLieu) etc. __________________________________________________________ La base de connaissance des objets Triangle : Sorte-de Objet-géométrique Taille : GA($Dominant = $SObj) | mvt-clic($SObj) Couleur : CN($Dominant = $SObj) | clic($Spalette) Position : (x,y) Actions : {Détruire, Mettre} Les règles Règles d’instanciation des scripts et des objets Hypothèses transmises au contrôleur de dialogue Pour une fusion pragmatique de niveau 3 Solutions

36 Analyse pragmatique Traitée par le module d’interprétation sous le contrôle de dialogue les référents et co-référents les actes de dialogue les implicatures conversationnelles les présupposés etc.

37 Fission Choix des modalités de présentation Complémentaire Assigné
en fonction de la situation ou des dispositifs disponibles (ex. cockpit d’avion) Assigné statique et stable (favorise la mémorisation) Redondant augmenter la prégnance (ex. alerte) Équivalent laisser le choix à l’utilisateur (préférences)

38 Fission Critères de classification des modalités de sortie (Bernsen 94) Langagière / Non Langagière : indique si la modalité utilisée repose ou non sur la préexistence d'un lexique plus ou moins important, d'une syntaxe plus ou moins complexe et sur des représentations sémantiques et pragmatiques. Analogique / Non Analogique : une modalité analogique véhicule des informations qui tirent leurs représentations de l'entité signifiée (représentation iconique ou isomorphique). Arbitraire / Non Arbitraire : une modalité non arbitraire repose sur la préexistence d'un système de représentations sémantiques connu des utilisateurs. Une modalité arbitraire nécessite l'apprentissage des conventions de représentation utilisées dans un contexte donné. Statique/Dynamique : indique l'influence du temps sur la structure des informations. Média d'expression : graphique, sonore ou tactile.

39 Différentes modalités possibles
Sphère Sphère tronquée Cylindre Colline

40 Évolutions de la notion de modalité
Modalités sensorielles et de présentation Modalités d’action (tâches) Par exemple « naviguer » et « dialoguer » pour atteindre le but

41 Présentation des résultats dans la Fish-Eye-View (avec hyperliens)
Historique du dialogue Présentation des résultats dans la Fish-Eye-View (avec hyperliens) Boîte de dialogue de l’usager Zone de détail d’un document Boutons d’interactions vocales

42 Tâches Multimodalité alternée Multimodalité exclusive
Une tâche est caractérisée par un but B à atteindre Une tâche est multimodale si les actions pour l’effectuer sont multimodales en soi ou si les actions utilisent différentes modalités au cours de la réalisation de la tâche. Multimodalité alternée une seule modalité est utilisée à un instant donné, mais plusieurs sont utilisées pour une même tâche au cours du temps, Multimodalité exclusive une seule modalité est utilisée à un moment donné, et pour toute la tâche, Multimodalité synergique plusieurs modalités sont utilisées pour une même action, Multimodalité concurrente plusieurs actions sont produites en même temps en utilisant des modalités différentes (ces actions concourent ou non à la même tâche)

43 Exemples  Soit une activité sur deux fils : B1 et B2 deux buts à atteindre • a1 et a2 sont synergiques, ils contribuent au même but et se déroulent en parallèle, • a3, a5 sont alternés, • a5 et a6 sont séquentiels. • a6 et a7 sont concurrents puisqu’ils se déroulent dans la même fenêtre temporelle et qu’ils portent sur des buts différents.

44 T-CCARE ... au niveau de la tâche
• C = Conflit (contradiction des actions portées par des modes différents) • C = Complémentarité (de deux actions exprimées sur deux modes différents mais non nécessairement en même temps) • A = Assignation (une modalité à une tâche c-a-d pour toutes les actions de la tâche) • R = Redondance (deux actions ont été exprimées 2 fois sur des modes différents) • E = Équivalence (deux actions pourraient être faites sur plusieurs modes) ... au niveau de la tâche

45 Exemples Le conflit La complémentarité
la désignation gestuelle et orale ne concerne pas le même objet 0:00:56 geste geste-cercle 0:00:57 parole réduire l'ensemble 00:00:18 geste clic-cercle 00:00:22 parole tout sélectionner La complémentarité 00:33:05 geste déplace-répertoire 00:33:11 parole ajouter correspondant

46 Exemples La redondance la redondance porte sur l'objet. 0:00:04 geste
clic-barre 0:00:49 parole barre horizontale 02:17:55 geste déplace-répertoire et clic-bouton éditer 02:18:09 parole ,,, dans le répertoire, modifier la fiche de Mireille Parran  la redondance porte sur l’action

47 Exemples Exemple de tâche multimodale
la tâche du sujet est composée de deux sous-buts : agrandir un objet et le déplacer. hh:mm:ss actions 1 00:00:00 2 00:00:04 clic-cercle droit + parole plus grand 3 00:00:06/00:00:12 Réalisation machine 4 00:00:12 parole « plus grand » 5 00:00:13/00:00:19 Réalisation machine 6 00:00:22 clic-cercle droit 7 00:00:25 déplace-cercle droit 8 00:00:27 déplace-ajustement-cercle droit

48 ICPdraw : interface ICPdraw : Editeur graphique multimodal
parole (reconnaissance, synthèse) geste (croquis, désignation, sélection) clavier (langage naturel)

49 ICPdraw : composants parole
• Reconnaissance : HMM (parole continue) • Analyse linguistique par grammaire CF — entrée : parole — sortie du module de traitement : mots + c-structure + f-structure • Synthèse : PSOLA — entrée : texte + marqueurs prosodie — sortie : parole

50 ICPdraw : la syntaxe Action  V.GN1.Lieu2 Action  V.Pr
Réit  GN1.Lieu2 Rectif  non.GN1.Lieu2 Rectif  plus.AdjT GN1  Dét2.AdjT.N.AdjC Pr  {le, les} V  {dessine, déplace, détruis, change, annule, sélectionne, duplique, quitte} Dét  {le, les, un, deux, trois, quatre, ce, ces} AdjT  {grand, petit} N  Obj Obj  {carré, cercle, triangle} AdjC  {blanc, noir, bleu, jaune, rouge, rouge, vert} Lieu  GN2 | LocP2 | LocA GN2  LocP1.N.AdjC LocP1  {sous le, sous ce, sur le, sur ce, à côté du, à côté de ce} LocP2  {à droite, à gauche, en haut, à gauche, au centre} LocA  {ici, là, là-bas, vers ici, vers là, par ici, par là} Dans ce langage tous les éléments peuvent être facultatifs : “dessine cercle vert” ou “non... vert” sont deux formes admissibles.

51 ICPdraw : le geste dessine un carré dessine un triangle
dessine un cercle détruis (obj) sélectionne objet(s) déplace un objet duplique (obj) désigne (lieu) k(Lieu).A(Lieu).Traj(carré).R k(Lieu).A(Lieu).Traj(triangle).R k(Lieu).A(Lieu).Traj(cercle).R A(Obj).(Traj(Z) | Traj()).R k(Obj) | A(Lieu).Traj.R A(Obj). Traj.R k(Obj).A(Obj). Traj.R k(Lieu)

52 ICPdraw : architecture
Architecture en couches

53 ICPdraw : contrôle du dialogue
Le modèle d’interaction : automate à états finis Stratégie réactive • si l’action est correctement interprétée et exécutable alors le système passe dans l’état “réaction” et attend une nouvelle commande d’action, de réitération ou de rectification, • si l’action conduit à une situation incohérente, le système pose une question et se met en attente d’une réponse de rectification. Deux erreurs consécutives ne sont pas tolérées, le système passe dans l’état “continuation” c’est-à-dire en attente d’une nouvelle action. Les incidences du dialogue sont volontairement évitées, elles sont traitées comme des abandons implicites (avec retour à une nouvelle action).

54 ICPdraw : contrôle du dialogue
| Introduction | Attente(Acte) | Interprétation(Acte, Action) | Tantque Action  “Quitter” Faire | | si Action = erreur alors Question | | | Attente(Acte) | | | Interprétation(Acte, Rectification) | | | | si erreur alors Message; Continuation | | | | sinon Réaction= Rectification | | sinon Réaction = Action | | si Réitération = erreur alors Continuation | | sinon Réaction = Réitération | Continuation : Attente(Acte) | Fin Tantque Fin Dialogue Interprétation(X, Y) : active un script Y dans le contexte X Question : sous-dialogue de requête Réaction : exécution de l’action Attente : attente d’une nouvelle action

55 ICPdraw : fusion Scripts d’action Réitération-Dessiner
si Réit.(Hist(V)=Dessine) Quoi = GN($N) | A(Lieu).Traj(Obj).R si-défault = Hist(Obj) Combien = GN($Dét(1) | $Dét(2)) si-défault = 1 Taille = GN($AdjT) si-défault = Hist(Taille) Couleur = GN($AdjC) | k(Palette) si-défault = Hist(Couleur) Où = Calcul(Lieu) | k(Lieu) si-défault = Hist(curseur) si-erreur = Q(où) Rectification-Dessiner si Rectif.Hist(V)=Dessine | Question.Réit.Hist(V)=Dessine Quoi = GN($N) | A(Lieu).Traj(Obj).R si-défault = Hist(Obj) Combien = GN($Dét(1) | $Dét(2)) si-défault = 1 Taille = GN($AdjT) | plus($AdjT) si-défault = Hist(Taille) Couleur = GN($AdjC) | k(Palette) si-défault = Hist(Couleur) Où = Calcul(Lieu) | k(Lieu) si-défault = Hist(curseur) si-erreur = Q(où) Action-Dessiner si Action.(V(Dessine) | k(Lieu).A(Lieu)) Quoi = GN1($N) | Pr | Traj(Obj).R si-défault = Obtenir (d, quoi) Combien = GN1($Dét(1) | $Dét(2)) si-défault = Obtenir (d, combien) Taille = GN1($AdjT) si-défault = Historique(Taille) Couleur = GN1($AdjC) | k(Palette) si-défault = Historique(Couleur) Où = Calcul(Lieu) | k(Lieu) si-défault = Obtenir (d, où)

56 ICPplan : dessin architectural
Conception de plans architecturaux Dialogue multimodal U : « Mets une fenêtre ici » + geste-souris M : « Il ne peut y avoir de fenêtre sur un mur intérieur »

57 ICPplan : architecture
• Agents autonomes — Concepteur (abstraction) — Modeleur (contrôle) — Interface (présentation) • Fonctions distribuées

58 Ergonomie : magicien d’Oz
• Côte à côte • Planification imposée • Vocabulaire et langage limités Action = [dessiner] [déplacer] [effacer] [stop] Objet = [ligne verticale] [ligne horizontale] [grand triangle] [petit triangle] [grand cercle] [petit cercle] [carré] [anaphoriques = il, elle, le, la, les, etc.] [déictiques = ce, cette, ça, celui-ci, celui-là, etc.] Lieu = [PosRelative(objet)] [PosAutoRelative] PosRelative(objet) = [au dessus de(objet)] [au dessous de(objet)] [à gauche de(objet)] [à droite de(objet)] PosAutoRelative = [plus haut] [plus bas] [plus à gauche] [plus à droite] [déictiques = ici, là] • Figures géométriques • Rôle du compère = assistance • Modes = mul (parole+geste), p (parole) ou s (souris)

59 Ergonomie : mesures • 26 sujets
• 26 sujets • propriétés CARE pour chaque action en contexte • relations temporelles ( d>P, d=P, d<P, d<<P) pour indiquer respectivement que (a) le geste est consécutif au mot prononcé, (b) le geste est sensiblement simultané avec le mot prononcé, (c) le geste précède le mot prononcé, (d) le geste précède la séquence parlée qui contient la deixis, il reste posé sur l’écran ensuite pendant l’énoncé verbal.

60 Ergonomie : résultats Equivalence fonctionnelle
(sur action de désignation) (précision) toutes catégories de sujets (mul) (p) (s) 66% 14% 20% categorie expert 81% 9% 10% categorie occasionnel 53% 17% 30% categorie novice 78% 22% 0% Equivalence de résultat (dessin d’une figure) a priori : les modes sont équivalents a posteriori : 40% mul, 16% s, 6% p, 38% mixte

61 Ergonomie : résultats Equivalence : selon la tâche de désignation…
expert ——————————————— désignation-lieu désignation-objet doigt parole doigt parole 90% 10% 22% 78% occasionnel ———————————— 87% 13% 23% 77% novice ——————————————— 88% 12% 22% 78% Usage de la modalité “doigt” ou “parole” pour désigner un lieu ou un objet selon le type d’usager

62 Ergonomie : résultats Assignation = spécialisation (naturelle) des modes (a) pour les cas de réussite de l’action “dessiner” (s) (p) (mul) 18,6% 6,6% 74,8% “déplacer” 5,8% 31,4% 62,8% “effacer” 22% 27% 51% • biais de l’expérience car “déplacer” suit “dessiner” action principale (“dessiner”) mul ou s raffinement (“déplacer”) mul ou p • pas de spécialisation pour “effacer” • échecs réduits avec la souris (b) pour les cas d’échec de l’action “dessiner” (s) (p) (mul) 1 1 15 “déplacer” 0 2 3 “effacer” 0 2 0

63 Ergonomie : résultats Redondance : pour le multimodal seulement
“dessiner” “déplacer” “effacer” —————————————————————— désignation désignation désignation objet lieu objet lieu objet 7.4% 2.4% 19.8% 20.9% 42% • redondance forte pour “effacer” => sécurité ? • redondance pour “déplacer” => précision ? • pas de redondance pour “dessiner” => économie ?

64 Ergonomie : résultats Complémentarité : pour le multimodal seulement
(résultats opposés à Redondance) —————————————————————— "dessiner "déplacer" "effacer" moyenne 90.2% 59.3% 58% 66.6% • complexité sémantique ou grand nombre d’arguments (“dessiner”) => complémentarité Relations temporelles d<<P d < P d = P d>P et d>>P 3,2% 28,8% 67,3% 0,7%

65 Ergonomie : autres résultats
• Réparation des erreurs mode ayant provoqué l’erreur mode correction p mul s 0% 0% p 12% 6% mul 88% 94% • la reformulation n’était pas possible (syntaxe limitée) => réitération dans un autre mode • mul apparaît comme un mode plus sécurisé • Usage des ellipses et anaphores • Stratégies de placement des objets - des usagers procèdent par approximation successive pour placer les objets. Cela engendre des cas d'ambiguïté de déictiques. - des usagers désignent les lieux ou les objets par entourage. - pour déplacer un objet, certains usagers font re-dessiner un nouvel objet identique au premier puis font effacer l'ancien.

66 Ergonomie : recommandations
le geste SANS CONTRAINTE INSTRUMENTALE est compatible avec la multimodalité Dans cette expérience : • usage de la multimodalité attestée + plus économique (complémentaire) + plus fiable (redondance) + plus adapté (selon type de tâche) • à confirmer sur d’autres tâches (et avec une véritable IHM) • mesurer la contribution cognitif/perceptif • effets négatifs de la multimodalité (multiplication des hésitations, des erreurs d’expression, entrelacement des buts, mauvaise coordination sensorielle, etc.)

67 Usage QuickSet Les interfaces multimodales sont-elles utilisées ?
Si oui comment ? Pour quelles tâches ? QuickSet

68 10 mythes (S. Oviatt) 1- Ce n’est pas parce qu’une interface est multimodale que les utilisateurs vont utiliser la multimodalité. Dans QuickSet la multimodalité est utilisée dans 20% du temps d’une session de travail. Les utilisateurs passent d’un mode à l’autre sans raison apparente et restent unimodaux certainement pour des raisons de confort personnel. Cependant les commandes spatiales sont plus fréquemment multimodales ainsi que les informations de taille, de forme des objets, de nombres, de lieux et d’orientations. La richesse sémantique de l’action favorise la multimodalité.

69 10 mythes (S. Oviatt) 2- Le pattern parole-pointage n’est pas le plus intéressant. Depuis le fameux « mets ça là » de Bolt, la multimodalité a été centrée sur le paradigme de l’interaction synergique. Dans ce paradigme la parole est considérée comme mode sémantique dominant et le geste de désignation comme subordonné. En fait cette conception est une survivance du concept clavier/souris (c’est-à-dire de sélection sur une icône ou un menu), bien plus pauvre qu’une interaction qui utiliserait les mouvements gestuels, les expressions faciales ou corporelles, etc. Par exemple des études avec un stylo/voix montrent que la multimodalité est de 14% plus utilisée qu’avec une entrée souris/voix. L’utilisation des déictiques est aussi plus fréquent de 20%.

70 10 mythes (S. Oviatt) 3- La multimodalité ne signifie pas obligatoirement « parallélisme ». En effet on a constaté que bien souvent le geste précède la parole (99% des cas), même lorsque les deux modes dénotent des informations synchrones comme les déictiques. Le degré d’anticipation dépend de la langue. Il n’y a finalement que 25% des énoncés qui sont véritablement simultanés : synchronie ne signifie pas simultanéité.

71 10 mythes (S. Oviatt) 4- La parole n’est pas un mode « de base » dans un système multimodal. Cela n’est vrai que sur le plan historique. Depuis il y a bien des systèmes qui utilisent la main et le regard par exemple comme modes d’entrée, notamment dans les systèmes militaires. Le problème général de la multimodalité ne se pose donc pas en termes de commande+sélection, la commande étant linguistique et la sélection manuelle. Le problème ne se pose pas non plus en terme de source principale/source secondaire dans lequel on utiliserait la source secondaire dans le cas où la source principale serait dégradée.

72 10 mythes (S. Oviatt) 5- Le langage multimodal ne diffère pas du langage unimodal. On peut dire seulement que le langage utilisé en contexte multimodal est syntaxiquement moins complexe, que les énoncés sont plus courts et que le débit est moins hésitant. Les ellipses sont plus fréquentes et les constructions linguistiques sont moins ambiguës, car les énoncés sont plus compacts. Il semble que ces propriétés rendent le langage multimodal plus apte à une intégration dans un système homme-machine.

73 10 mythes (S. Oviatt) 6- L’interaction multimodale ne favorise pas la redondance. On pourrait croire le contraire, mais cela ne va pas dans un sens d’économie du point de vue de l’utilisateur. Celui-ci va donc privilégier la complémentarité. Même dans le cas d’échec puis d’essais de correction, l’usage de la redondance n’augmente pas de façon significative. La redondance n’est pratiquement utilisée que dans le sens d’une recherche de fiabilité

74 10 mythes (S. Oviatt) 7- Les erreurs sur un mode ne sont pas compensées par un autre mode. Il est illusoire de penser que l’on va masquer les insuffisance d’un mode (par exemple les erreurs de reconnaissance de la parole) par un autre mode. En réalité les erreurs se cumulent d’un mode à l’autre. Mais les utilisateurs optimisent l’usage d’un mode au profit de tel autre, après expérience faite de ses performances, ce qui rend somme toute, par effet indirect de l’usage, l’interaction plus robuste. Dans quelques cas cependant, lorsque une double incertitude se produit dans les deux modes d’entrée, il est parfois possible de recouper l’information sur un critère de cohérence sémantique.

75 10 mythes (S. Oviatt) 8- Les utilisateurs n’organisent pas « leur » multimodalité de la même manière. Pour les uns, ce qui est séquentiel, est parallèle chez les autres. Tel mode est dominant chez les uns, et ne l’est pas chez les autres. Tel mode est persistant, etc.

76 10 mythes (S. Oviatt) 9- Les modes ne sont pas équivalents.
Leur pouvoir d’expression est différent sans parler de leur pouvoir perceptuel, qui paraît plus évident. Cela signifie que le geste (et inversement la parole) ne peut tout exprimer dans une interaction, il y a des limitations cognitives. Même si parfois on eut rapprocher deux modes, ils n’en différent pas moins par leurs propriétés différentes : précision, latence, etc. Certains modes sont plus inconscients ou passifs que d’autres : la direction du regard par exemple.

77 10 mythes (S. Oviatt) 10- Un système multimodal n’est pas plus efficace qu’un autre. On croit souvent qu’un système multimodal sera plus efficace qu’un système monomodal, car on pourra faire plusieurs choses en même temps, se reposer en passant d’un mode à l’autre, réduire la charge perceptive et cognitive, économiser le temps de planification, etc. Des expériences ont prouvé le contraire : une commande multimodale est souvent plus longue à exprimer qu’une commande monomodale, car il y a un coût dû à la multimodalité (par exemple la multimodalité produit un débit de parole plus saccadé et des hésitations plus fréquentes).

78 PERSPECTIVES ... en multimodalité(s)

79 Trois points clés Physicalité Mobilité Plasticité

80 Physicalité Les principes de la Réalité Augmentée
Conservation des objets qui nous sont familiers Amplification fonctionnelle par le calcul électronique L’ordinateur évanescent mais doué d’ubiquité Disparition de la boîte grise Capacités de calcul réparties dans l’environnement

81 Physicalité Exemple : Le Tableau Magique (F. Bérard) Modalité d’entrée
le doigt, dispositif de pointage feutres naturels, dispositifs d’écriture Modalité de sortie inscriptions électroniques et physiques (complémentarité/redondance) Migration entre l’électronique et le physique Post-Its

82 Physicalité Exemple : Le Tableau Magique

83 Physicalité Le Tableau Magique ... dans son environnement naturel
Reflets Ombres Changement d’éclairage suivi du doigt colorisation

84 Physicalité et Environnements perceptifs
Capteurs et effecteurs (caméra, dét. de bruit, mouvement, etc.) Apport : migration de tâche vers le «système» modélisation du «contexte» interactionnel

85 Physicalité et Environnements perceptifs
Capteurs et effecteurs (caméra, dét. de bruit, mouvement, etc.) Apport : migration de tâche vers le «système» modélisation du «contexte» interactionnel Niveau de disponibilité

86 Physicalité et Environnements perceptifs
Capteurs et effecteurs (caméra, dét. de bruit, mouvement, localis., etc.) Apport : migration de tâche vers le «système» modélisation du «contexte» interactionnel Multimodalité à de multiples niveaux d’abstraction fusion de données (robustesse du système, enrichissement sémantique) fusion spatio-temporelle : la localisation du capteur importe

87 Mobilité Mobilité de l’utilisateur mais le dispositif d’interaction est fixe (bornes interactives) contexte d’interaction connu et système figé migration des données personnelles de l’utilisateur

88 Mobilité Mobilité de l’utilisateur et du dispositif d’interaction
contexte d’interaction dynamique tâches dépendantes de la localisation. variabilité de la pertinence d’une tâche et des concepts observables Modélisation de modalités : équivalence fonctionnelle avec adaptation dynamique modalité des retours d’informations modalité selon la connectivité : dégradation courtoise

89 Plasticité Interactivité En grand : le mur augmenté (cave)
En petit : le téléphone portable Tâche accomplie avec un seul système à la fois (en grand ou en petit) en équivalence fonctionnelle plusieurs systèmes à la fois (en grand et en petit) en complémentarité ou en redondance

90 Plasticité La plasticité des Interfaces : analogie avec certains matériaux Une forme d’adaptation au contexte d’interaction à la variété des dispositifs d’interaction La multimodalité est un élément clé dans la plasticité

91 En résumé : agenda de recherche
Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Modalité à haut niveau d’abstraction pour la plasticité modélisation

92 En résumé : agenda de recherche
Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Contexteur

93 En résumé : agenda de recherche
Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Modalité à haut niveau d’abstraction pour la plasticité modélisation coûts système et humain Contexteur

94 En résumé : agenda de recherche
Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Modalité à haut niveau d’abstraction pour la plasticité modélisation coûts système et humain Contexteur Interacteur

95 En résumé : agenda de recherche
Modalité à bas niveau d’abstraction et contexte modèle d’architecture boîtes à outils Modalité à haut niveau d’abstraction pour la plasticité modélisation coûts système et humain Contexteur Modèle unifié ? Interacteur


Télécharger ppt "IHM Multimodale Jean Caelen."

Présentations similaires


Annonces Google