La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |

Présentations similaires


Présentation au sujet: "LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |"— Transcription de la présentation:

1

2 LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault Paris Cedex 13 goye | elc | lin | Catherine Pelachaud IUT de Montreuil - Université Paris 8 140, rue de la Nouvelle France Montreuil, France Ding Xiaoqing, Mao Yuhang Dept. of Electronic Engineering Tsinghua University Beijing, , China Ni Yang Institut National des Télécommunications Département Electronique et Physique 9,Rue Charles Fourier Evry Cedex-France

3 Interfaces multimodales pour un assistant au voyage LINGTOUR: an history Collaboration with TsingHua University : Collaboration with TsingHua University : –Memorandum of understanding (2000) –Vocal French-Chinese dictionary with Le Robert –Master thesis of Dong Qingfu: « Realization of Intelligent Camera Capable of Character Recognition and Translation »

4 Interfaces multimodales pour un assistant au voyage The LINGTOUR project Multilingual management of information, Initially, a PDA for travellers : Initially, a PDA for travellers : –Virtual guide : access to multilingual information for tourists (practical and cultural) –Communication assistant: translation help, navigation within a lexicon and access to typical conversations –Travel assistant : orientation and environment interpretation using local and positioning information A personal assistant (PDA or smartphone) with multimodal and ergonomic capabilities : A personal assistant (PDA or smartphone) with multimodal and ergonomic capabilities : –inputs (text, speech, stylus, images) –outputs (text, speech, images, video)

5 Interfaces multimodales pour un assistant au voyage Interactions PDA - serveur Navigation multimodale dans plans et lexiques Tsinghua University Prise de son Sélection / extraction de texte Raffinement / corrections de limage Images, son Images, son, texte Reconnaissance de caractères, Reconnaissance vocale, Traduction multilingue, Synthèse de parole Supervision

6 Interfaces multimodales pour un assistant au voyage Exploiter les spécificités du PDA On cherche une exploitation optimale des possibilités du PDA pour la multimodalité : – –Utiliser conjointement, en labsence de clavier, les entrées de lécran tactile, du microphone et de la caméra, et – –Exploiter alternativement ou simultanément les possibilités graphiques et sonores, selon le contexte, pour présenter linformation. Le PDA est connecté chaque fois que possible à Internet: – –Pour télécharger des informations dactualité – –Pour permettre de déporter sur un serveur distant les tâches: Trop complexes Ou trop coûteuses en mémoire – –Pour permettre lintervention si nécessaire dun opérateur humain

7 Interfaces multimodales pour un assistant au voyage 3 types dinterfaces multimodales Geste et voix : Geste et voix : Combinaison Control menus + entrées vocales –Contrôlant des interfaces zoomables vers entrées graphiques ou textuelles Caméra intelligente : Caméra intelligente : Affinement dimages –Basé sur la corrélation dune séquence dimages –Pour améliorer la reconnaissance de caractères Agents culturels : Agents culturels : Agents conversationnels animés adaptés à la culture –Ajoutant à la parole des comportements non-verbaux : visage, regard, gestuelle, dépendants de la culture

8 Interfaces multimodales pour un assistant au voyage ZUIs et Control menus 2D Contraintes du PDA : taille décran Contraintes du PDA : taille décran ZUIs : interfaces utilisateurs zoomables ZUIs : interfaces utilisateurs zoomables –Concept de zoom sémantique : Révélation progressive de niveaux de détail Control menus [1] : Control menus [1] : –Sélection + contrôle de laction (déplacement, zoom) en 1 seul geste –Pas de changement de contexte, pas de manipulation de multiples interacteurs pour une seule opération Geste et voix [1] [1] Pook, S., Lecolinet, E., Vaysseix, G. et Barillot, E., Control Menus: Execution and Control in a Single Interactor. Proc. ACM conf. on Human Factors in Computing Systems (CHI) 2000, ACM Press.

9 Interfaces multimodales pour un assistant au voyage Caractéristiques des control menus –Combinent la sélection et le contrôle dune opération en 1 seul geste –Peuvent intégrer jusquà 2 barres de défilement (vertical et horizontal) –Lutilisateur concentre son attention sur le contenu –Peuvent avoir des sous-menus –Comme les Pie menus [2] et les Marking menus [3], offrent un mode novice et un mode expert La disposition spatiale des menus aide la mémorisation La disposition spatiale des menus aide la mémorisation Gestes rapides => les menus napparaissent plus à lécran Gestes rapides => les menus napparaissent plus à lécran Passage implicite dun mode à lautre Passage implicite dun mode à lautre [2] [2] Hopkins, D., The design and implementation of Pie menus. Dr Dobb's journal of software tools, 1991, 16 (12), [3] [3] Kurtenbach, G. et al., The Hotbox: efficient access to a large number of menu-items. Proc. ACM – CHI, 1993, Geste et voix

10 Interfaces multimodales pour un assistant au voyage Application des control menus navigation dans un plan de ville, navigation dans un lexique : – –mots et phrases utiles au touriste, – –hiérarchisés en catégories telles que : hébergement > hôtel > réservation…. Geste et voix

11 Interfaces multimodales pour un assistant au voyage La voix : reconnaissance multilingue moteur de reconnaissance vocale : – –vocabulaire limité, mais – –indépendant du locuteur, – –aucun apprentissage. la reconnaissance dans différentes langues : – –partage des modèles acoustiques communs, ce qui facilite les extensions futures à de nouvelles langues. – –modèles adaptables à lutilisateur et aux conditions dusage. Français Chinois Modèles acoustiques communs Modèles spécifiques à la langue Geste et voix

12 Interfaces multimodales pour un assistant au voyage La voix se joint au geste… Linformation vocale est employée différemment selon le contexte : Navigation dans le plan : « tap and talk » : accès par un menu vocal à diverses informations sur lobjet pointé. Navigation dans le lexique : – –comme raccourci daccès aux catégories, puis – –pour laccès à une entrée, mot ou phrase. La traduction sera affichée / synthétisée dans la langue cible. A terme, amélioration par capture des mots-clés ("word spotting"). Geste et voix

13 Interfaces multimodales pour un assistant au voyage La caméra « intelligente » Voir, reconnaître, traduire Voir, reconnaître, traduire La reconnaissance de caractères – chinois en particulier – atteint aujourdhui de bonnes performances. Pour limiter la charge de calcul : – –Reconnaissance effectuée sur une sous-partie de limage. – –Cette sous-partie peut être sélectionnée semi-automatiquement lors de létape de délimitation et segmentation préalable. Le texte une fois reconnu peut être traduit : – –Localement Pour faciliter la traduction, un menu vocal permet de choisir le contexte : panneau de bus ou de rue, monument, etc. – –Ou par un serveur distant via un service de radiocommunication. Il peut également être restitué par synthèse vocale Caméra intelligente

14 Interfaces multimodales pour un assistant au voyage Usage de la caméra [4] capture reco traduction Caméra intelligente [4] [4] Mao, Y., Dong, Q., Qi Y. et Chollet, G. Realization of an Intelligent Camera capable of Character Recognition and Translation. Proc. of Sino-French Symp. on Speech and Language Processing, Beijing, October Disponible à ladresse :

15 Interfaces multimodales pour un assistant au voyage Améliorer la résolution dimage Difficulté : Difficulté : – –image saisie à distance dans la rue – –caméra bon marché qualité / résolution insuffisante pour la reconnaissance Solution : affinement des images – –corrélation et recalage dune séquence dimages successives. – –exploite les légères différences dues au mouvement naturel de la main qui tient lappareil. image de résolution supérieure à celle du capteur. Caméra intelligente

16 Interfaces multimodales pour un assistant au voyage Principe daffinement des images Caméra sur le PDA Vibration de la main Acquisition d une séquence d images Estimation des mouvements (sub-pixel) Image de meilleure résolution Recomposition en une seule image Caméra intelligente

17 Interfaces multimodales pour un assistant au voyage Affinement des images : résultats Amélioration notable : – –de la qualité visuelle – –du taux de reconnaissance des caractères Caméra intelligente

18 Interfaces multimodales pour un assistant au voyage Agents conversationnels : intérêt Ils permettent [5] de transmettre une information de manière plus attractive et conviviale quune simple synthèse vocale. Les expressions nonverbales permettent : – –de désambiguiser un discours, – –de renforcer certains mots ou parties du discours… Elles fournissent des informations à différents niveaux : – –syntaxique – –sémantique – –émotionnel Dans un contexte multiculturel, une démonstration visuelle peut aussi être le meilleur vecteur denseignement de certains usages. Agents culturels [5] [5] Pelachaud, C., Carofiglio, V., De Carolis, B. et de Rosis, F., Embodied Contextual Agent in Information Delivering Application, First Intl. Joint Conf. on Autonomous Agents & Multi-Agent Systems, Bologna, July 2002

19 Interfaces multimodales pour un assistant au voyage « Greta » : moteur danimation faciale Objectif : un modèle animé capable de simuler de manière rapide et réaliste les aspects dynamiques du visage humain. Réalisation : un moteur danimation faciale dont le modèle 3D a lallure dune jeune femme. Greta est : – –le noyau dun décodeur MPEG-4 – –conforme aux spécifications Simple Facial Animation Object Profile" du standard. – –capable : De générer la structure dun modèle original, Danimer celui-ci, De le restituer en temps réel. Agents culturels

20 Interfaces multimodales pour un assistant au voyage Adapter les agents conversationnels Portage sur PDA dagents animés. Portage sur PDA dagents animés. –la puissance et à la taille décran de lappareil sont limités –la complexité et le niveau de détail de lanimation doivent être adaptés. Adaptation du comportement à lutilisateur : Adaptation du comportement à lutilisateur : Malgré de grands progrès récents en matière de réalisme, les agents actuels ne connaissent quun type de comportement, qui reflète le plus souvent la culture occidentale. Adaptation au contexte culturel et social : Adaptation au contexte culturel et social : La même information doit être délivrée différemment, par exemple: à un Français et à un Chinois, à un Français et à un Chinois, à un journaliste et à un particulier. à un journaliste et à un particulier. Agents culturels

21 Interfaces multimodales pour un assistant au voyage Agents conversationnels culturels : représentation sémantique Base : représentation sémantique indépendante de la langue, basée sur le standard XML-XSD. Base : représentation sémantique indépendante de la langue, basée sur le standard XML-XSD. –description de la fonction communicative des gestes et des signaux composant les gestes. Sur-couche dattributs spécifiques à la culture, qui influeront sur : Sur-couche dattributs spécifiques à la culture, qui influeront sur : –le choix dun geste (sourire ou hochement de tête), –la durée dun regard… Plus généralement, ces influences peuvent porter sur : –la définition dun signal (masquage dun signal par un autre), –son intensité, –Sa durée, etc.

22 Interfaces multimodales pour un assistant au voyage Agents conversationnels culturels… dans certaines cultures, ne pas regarder son interlocuteur peut être perçu comme un manque d'attention / dintérêt… dans dautres cultures, regarder droit dans les yeux peut être interprété comme une forme d'agression… Agents culturels

23 Interfaces multimodales pour un assistant au voyage Résultats et suite… A lissue des travaux que ce projet a permis dinitier, nous souhaitons être en mesure de démontrer : 1) la possibilité dintégrer sur un terminal mobile (PDA, smartphone…) les parties existantes des diverses interfaces présentées ici : – –Control menus 2D, – –capture et reconnaissance de texte, – –agents conversationnels. 2) les bénéfices des améliorations que nous proposons pour chacune de ces fonctionnalités : – –intégration de commandes vocales dans les menus, – –affinement des images par corrélation spatio-temporelle, – –enrichissement des agents par des attributs culturels. Geste et voix Caméra intelligente Agents culturels

24 Interfaces multimodales pour un assistant au voyage Pour valoriser ces travaux dans le programme EURO-CHINA… Collaboration engagée avec Peer2Phone (voix sur IP par WIFI) Collaboration engagée avec Peer2Phone (voix sur IP par WIFI) Présentation fin avril à Pékin Présentation fin avril à Pékin Montage dune proposition avec nos partenaires Chinois pour les J.O. de Pékin Montage dune proposition avec nos partenaires Chinois pour les J.O. de Pékin


Télécharger ppt "LINGTOUR: a PDA for tourists Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc |"

Présentations similaires


Annonces Google