La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Interfaces multimodales pour un assistant au voyage

Présentations similaires


Présentation au sujet: "Interfaces multimodales pour un assistant au voyage"— Transcription de la présentation:

1 Interfaces multimodales pour un assistant au voyage
Alain Goyé, Eric Lecolinet, Shiuan-Sung Lin, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc | lin | Catherine Pelachaud IUT de Montreuil - Université Paris 8 140, rue de la Nouvelle France 93100 Montreuil, France Xiaoqing Ding Dept. of Electronic Engineering Tsinghua University Beijing, , China Yang Ni Institut National des Télécommunications Département Electronique et Physique 9,Rue Charles Fourier 91011 Evry Cedex-France Certains aspects, touchant aux interfaces, d’un projet Lingtour: projet mené par certaines écoles du GET, en collaboration avec des collaborateurs extérieurs, notamment l’Université Paris 8 et l’Université Tsinghua de Pékin.

2 Contexte : le projet LINGTOUR
Une gestion multilingue des informations, Initialement, un PDA pour voyageurs : Guide virtuel : moyen rapide et facile d’accéder à des informations utiles au touriste (pratiques et culturelles) Assistant de communication : aide à la traduction, navigation dans un lexique et dans des conversations-types Assistant d’orientation : aide à s’orienter et à interpréter l’environnement, d’après des informations collectées localement Un assistant personnel (PDA ou smartphone) plus convivial par la multimodalité : des entrées (texte, parole, stylet, images) des sorties (texte, parole, image, video) Lingtour signifie « Linguistics for Tourists ». Il a pour objet le développement d’un assistant personnel plus convivial, exploitant aux mieux les interfaces disponibles pour l’interrogation et la restitution d’information. Dans un premier temps le projet est focalisé sur une application destinée aux touristes, qui comprend : 1), 2) et 3) Interfaces multimodales pour un assistant au voyage

3 Objectif : Exploiter les spécificités du PDA
On cherche une exploitation optimale des possibilités du PDA pour la multimodalité : Utiliser conjointement, en l’absence de clavier, les entrées de l’écran tactile, du microphone et de la caméra, et Exploiter alternativement ou simultanément les possibilités graphiques et sonores, selon le contexte, pour présenter l’information. Les spécificités du PDA sont principalement: l’absence de clavier dans la plupart des cas, La présence d’un écran tactile activable à l’aide d’un stylet, Et de plus en plus souvent, des entrées « multimédia »: microphone et caméra, même maintenant sur certains produits d’entrée de gamme. Parallèlement, les PDA disposent de fonctions de restitution audio, et les capacités de calcul et d’affichage permettent la diffusion de fichiers vidéo. Interfaces multimodales pour un assistant au voyage

4 3 types d’interfaces multimodales
Geste et voix : Combinaison Control menus + entrées vocales Contrôlant des interfaces zoomables vers entrées graphiques ou textuelles Caméra intelligente : Affinement d’images Basé sur la corrélation d’une séquence d’images Pour améliorer la reconnaissance de caractères Agents culturels : Agents conversationnels animés adaptés à la culture Ajoutant à la parole des comportements non-verbaux : visage, regard, gestuelle, dépendants de la culture Dans notre application, Les fonctions « assistant de communication » et « guide virtuel » ont en commun la nécessité de naviguer dans une base de données: Données lexicales et syntaxiques pour l’assistant de communication, Données cartographiques, associées à des informations touristiques, pour le guide virtuel. Dans les 2 cas ces informations sont organisées selon une hiérarchie, qui présente divers niveaux de détail, et dans laquelle on doit donc pouvoir naviguer « horizontalement » et « verticalement », en plus de pouvoir interroger une base de données sur un point particulier de la « carte ». Le « guide virtuel » par ailleurs n’est pleinement efficace que joint à « l’assistant d’orientation » qui aide l’utilisateur à se localiser et à interpréter son environnement. Celui-ci intègre un moteur de reconnaissance de caractères (local ou déporté sur un serveur). On applique au préalable un procédé de « super résolution » pour améliorer les performances de cette reconnaissance. Enfin, la restitution d’informations par le PDA peut se faire sous forme textuelle, vocale, ou mieux, vocale + visuelle : les agents conversationnels focalisent l’attention et enrichissent l’information délivrée par leurs comportements non-verbaux. Interfaces multimodales pour un assistant au voyage

5 ZUIs et Control menus 2D Contraintes du PDA : taille d’écran
Geste et voix ZUIs et Control menus 2D Contraintes du PDA : taille d’écran ZUIs : interfaces utilisateurs zoomables Concept de zoom sémantique : Révélation progressive de niveaux de détail Control menus [1] : Sélection + contrôle de l’action (déplacement, zoom) en 1 seul geste Pas de changement de contexte, pas de manipulation de multiples interacteurs pour une seule opération La taille d’écran du PDA est limitée, et les ZUIs semblent particulièrement adaptées aux PDA. Pourtant on les y trouve rarement. Les ZUIs emploient le concept de zoom sémantique: grâce à la révélation progressive de niveaux de détail, l’utilisateur peut rechercher rapidement, du plus général au plus particulier, une information précise. Les Control Menus ont la particularité de permettre la sélection et le contrôle d’une action en un seul geste. L’interaction est plus rapide, le dispositif de pointage (stylet) et l’attention de l’utilisateur restent au plus près de la zone contenant l’information. [1] Pook, S., Lecolinet, E., Vaysseix, G. et Barillot, E., Control Menus: Execution and Control in a Single Interactor. Proc. ACM conf. on Human Factors in Computing Systems (CHI) 2000, ACM Press. Interfaces multimodales pour un assistant au voyage

6 Caractéristiques des control menus
Geste et voix Combinent la sélection et le contrôle d’une opération en 1 seul geste Peuvent intégrer jusqu’à 2 barres de défilement (vertical et horizontal) L’utilisateur concentre son attention sur le contenu Peuvent avoir des sous-menus Comme les Pie menus [2] et les Marking menus [3], offrent un mode novice et un mode expert La disposition spatiale des menus aide la mémorisation Gestes rapides => les menus n’apparaissent plus à l’écran Passage implicite d’un mode à l’autre [2] Hopkins, D., The design and implementation of Pie menus. Dr Dobb's journal of software tools, 1991, 16 (12), [3] Kurtenbach, G. et al., The Hotbox: efficient access to a large number of menu-items. Proc. ACM – CHI, 1993, Interfaces multimodales pour un assistant au voyage

7 Application des control menus
Geste et voix Application des control menus navigation dans un plan de ville, navigation dans un lexique : mots et phrases utiles au touriste, hiérarchisés en catégories telles que : hébergement > hôtel > réservation…. Interfaces multimodales pour un assistant au voyage

8 La voix : reconnaissance multilingue
Geste et voix moteur de reconnaissance vocale : vocabulaire limité, mais indépendant du locuteur, aucun apprentissage. la reconnaissance dans différentes langues : partage des modèles acoustiques communs, ce qui facilite les extensions futures à de nouvelles langues. modèles adaptables à l’utilisateur et aux conditions d’usage. Modèles acoustiques communs Chinois Français Modèles spécifiques à la langue Interfaces multimodales pour un assistant au voyage

9 La voix se joint au geste…
Geste et voix La voix se joint au geste… L’information vocale est employée différemment selon le contexte : Navigation dans le plan : « tap and talk » : accès par un menu vocal à diverses informations sur l’objet pointé. Navigation dans le lexique : comme raccourci d’accès aux catégories, puis pour l’accès à une entrée, mot ou phrase. La traduction sera affichée / synthétisée dans la langue cible. A terme, amélioration par capture des mots-clés ("word spotting"). Description ? Horaires ? Tarifs ? Accès ? Interfaces multimodales pour un assistant au voyage

10 La caméra « intelligente »
Voir, reconnaître, traduire La reconnaissance de caractères – chinois en particulier – atteint aujourd’hui de bonnes performances. Pour limiter la charge de calcul : Reconnaissance effectuée sur une sous-partie de l’image. Cette sous-partie peut être sélectionnée semi-automatiquement lors de l’étape de délimitation et segmentation préalable. Le texte une fois reconnu peut être traduit : Localement Pour faciliter la traduction, un menu vocal permet de choisir le contexte : panneau de bus ou de rue, monument, etc. Ou par un serveur distant via un service de radiocommunication. Il peut également être restitué par synthèse vocale Interfaces multimodales pour un assistant au voyage

11 Usage de la caméra [4] Caméra intelligente capture reco traduction
[4] Mao, Y., Dong, Q., Qi Y. et Chollet, G. Realization of an Intelligent Camera capable of Character Recognition and Translation. Proc. of Sino-French Symp. on Speech and Language Processing, Beijing, October 2000. Disponible à l’adresse : Interfaces multimodales pour un assistant au voyage

12 Améliorer la résolution d’image
Caméra intelligente Améliorer la résolution d’image Difficulté : image saisie à distance dans la rue caméra bon marché qualité / résolution insuffisante pour la reconnaissance Solution : affinement des images corrélation et recalage d’une séquence d’images successives. exploite les légères différences dues au mouvement naturel de la main qui tient l’appareil. image de résolution supérieure à celle du capteur. Interfaces multimodales pour un assistant au voyage

13 Principe d’affinement des images
Caméra intelligente Caméra sur le PDA Vibration de la main Estimation des mouvements (sub-pixel) Acquisition d ’une séquence d ’images Image de meilleure résolution Recomposition en une seule image Interfaces multimodales pour un assistant au voyage

14 Affinement des images : résultats
Caméra intelligente Affinement des images : résultats Amélioration notable : de la qualité visuelle du taux de reconnaissance des caractères ? Zoom « sémantique » Interfaces multimodales pour un assistant au voyage

15 Agents conversationnels : intérêt
Agents culturels Ils permettent [5] de transmettre une information de manière plus attractive et conviviale qu’une simple synthèse vocale. Les expressions nonverbales permettent : de désambiguiser un discours, de renforcer certains mots ou parties du discours… Elles fournissent des informations à différents niveaux : syntaxique sémantique émotionnel Dans un contexte multiculturel, une démonstration visuelle peut aussi être le meilleur vecteur d’enseignement de certains usages. [5] Pelachaud, C., Carofiglio, V., De Carolis, B. et de Rosis, F., Embodied Contextual Agent in Information Delivering Application, First Intl. Joint Conf. on Autonomous Agents & Multi-Agent Systems, Bologna, July 2002 Interfaces multimodales pour un assistant au voyage

16 « Greta » : moteur d’animation faciale
Agents culturels Objectif : un modèle animé capable de simuler de manière rapide et réaliste les aspects dynamiques du visage humain. Réalisation : un moteur d’animation faciale dont le modèle 3D a l’allure d’une jeune femme. Greta est : le noyau d’un décodeur MPEG-4 conforme aux spécifications “Simple Facial Animation Object Profile" du standard. capable : De générer la structure d’un modèle original, D’animer celui-ci, De le restituer en temps réel. Interfaces multimodales pour un assistant au voyage

17 Adapter les agents conversationnels
Agents culturels Adapter les agents conversationnels Portage sur PDA d’agents animés. la puissance et à la taille d’écran de l’appareil sont limités la complexité et le niveau de détail de l’animation doivent être adaptés. Adaptation du comportement à l’utilisateur : Malgré de grands progrès récents en matière de réalisme, les agents actuels ne connaissent qu’un type de comportement, qui reflète le plus souvent la culture occidentale. Adaptation au contexte culturel et social : La même information doit être délivrée différemment, par exemple: à un Français et à un Chinois, à un journaliste et à un particulier. Interfaces multimodales pour un assistant au voyage

18 Agents conversationnels culturels : représentation sémantique
Base : représentation sémantique indépendante de la langue, basée sur le standard XML-XSD. description de la fonction communicative des gestes et des signaux composant les gestes. Sur-couche d’attributs spécifiques à la culture, qui influeront sur : le choix d’un geste (sourire ou hochement de tête), la durée d’un regard… Plus généralement, ces influences peuvent porter sur : la définition d’un signal (masquage d’un signal par un autre), son intensité, Sa durée, etc. Interfaces multimodales pour un assistant au voyage

19 Agents conversationnels culturels…
Agents culturels Agents conversationnels culturels… dans certaines cultures, ne pas regarder son interlocuteur peut être perçu comme un manque d'attention / d’intérêt… dans d’autres cultures, regarder droit dans les yeux peut être interprété comme une forme d'agression… Interfaces multimodales pour un assistant au voyage

20 Geste et voix Caméra intelligente Agents culturels Résultats attendus A l’issue de ce projet en cours, nous souhaitons être en mesure de démontrer : 1) la possibilité d’intégrer sur un terminal mobile (PDA, smartphone…) les parties existantes des diverses interfaces présentées ici : Control menus 2D, capture et reconnaissance de texte, agents conversationnels. 2) les bénéfices des améliorations que nous proposons pour chacune de ces fonctionnalités : intégration de commandes vocales dans les menus, affinement des images par corrélation spatio-temporelle, enrichissement des agents par des attributs culturels. Interfaces multimodales pour un assistant au voyage


Télécharger ppt "Interfaces multimodales pour un assistant au voyage"

Présentations similaires


Annonces Google