La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

LINGTOUR: a PDA for tourists

Présentations similaires


Présentation au sujet: "LINGTOUR: a PDA for tourists"— Transcription de la présentation:

1 LINGTOUR: a PDA for tourists
Alain Goyé, Eric Lecolinet, Mutsuko Tomokiyo, Gérard Chollet GET-ENST 46, rue Barrault 75634 Paris Cedex 13 goye | elc | lin | Catherine Pelachaud IUT de Montreuil - Université Paris 8 140, rue de la Nouvelle France 93100 Montreuil, France Ding Xiaoqing, Mao Yuhang Dept. of Electronic Engineering Tsinghua University Beijing, , China Ni Yang Institut National des Télécommunications Département Electronique et Physique 9,Rue Charles Fourier 91011 Evry Cedex-France Certains aspects, touchant aux interfaces, d’un projet Lingtour: projet mené par certaines écoles du GET, en collaboration avec des collaborateurs extérieurs, notamment l’Université Paris 8 et l’Université Tsinghua de Pékin.

2 LINGTOUR: an history Collaboration with TsingHua University :
LINGTOUR: an history Collaboration with TsingHua University : Memorandum of understanding (2000) Vocal French-Chinese dictionary with Le Robert Master thesis of Dong Qingfu: « Realization of Intelligent Camera Capable of Character Recognition and Translation » Interfaces multimodales pour un assistant au voyage

3 The LINGTOUR project Multilingual management of information,
Initially, a PDA for travellers : Virtual guide : access to multilingual information for tourists (practical and cultural) Communication assistant: translation help, navigation within a lexicon and access to typical conversations Travel assistant : orientation and environment interpretation using local and positioning information A personal assistant (PDA or smartphone) with multimodal and ergonomic capabilities : inputs (text, speech, stylus, images) outputs (text, speech, images, video) Lingtour signifie « Linguistics for Tourists ». Il a pour objet le développement d’un assistant personnel plus convivial, exploitant aux mieux les interfaces disponibles pour l’interrogation et la restitution d’information. Dans un premier temps le projet est focalisé sur une application destinée aux touristes, qui comprend : 1), 2) et 3) Interfaces multimodales pour un assistant au voyage

4 Interactions PDA - serveur
Tsinghua University Images, son Raffinement / corrections de l’image Supervision Reconnaissance de caractères, Reconnaissance vocale, Traduction multilingue, Synthèse de parole Sélection / extraction de texte Images, son, texte Prise de son Navigation multimodale dans plans et lexiques Interfaces multimodales pour un assistant au voyage

5 Exploiter les spécificités du PDA
On cherche une exploitation optimale des possibilités du PDA pour la multimodalité : Utiliser conjointement, en l’absence de clavier, les entrées de l’écran tactile, du microphone et de la caméra, et Exploiter alternativement ou simultanément les possibilités graphiques et sonores, selon le contexte, pour présenter l’information. Le PDA est connecté chaque fois que possible à Internet: Pour télécharger des informations d’actualité Pour permettre de déporter sur un serveur distant les tâches: Trop complexes Ou trop coûteuses en mémoire Pour permettre l’intervention si nécessaire d’un opérateur humain Les spécificités du PDA sont principalement: l’absence de clavier dans la plupart des cas, La présence d’un écran tactile activable à l’aide d’un stylet, Et de plus en plus souvent, des entrées « multimédia »: microphone et caméra, même maintenant sur certains produits d’entrée de gamme. Parallèlement, les PDA disposent de fonctions de restitution audio, et les capacités de calcul et d’affichage permettent la diffusion de fichiers vidéo. Interfaces multimodales pour un assistant au voyage

6 3 types d’interfaces multimodales
Geste et voix : Combinaison Control menus + entrées vocales Contrôlant des interfaces zoomables vers entrées graphiques ou textuelles Caméra intelligente : Affinement d’images Basé sur la corrélation d’une séquence d’images Pour améliorer la reconnaissance de caractères Agents culturels : Agents conversationnels animés adaptés à la culture Ajoutant à la parole des comportements non-verbaux : visage, regard, gestuelle, dépendants de la culture Dans notre application, Les fonctions « assistant de communication » et « guide virtuel » ont en commun la nécessité de naviguer dans une base de données: Données lexicales et syntaxiques pour l’assistant de communication, Données cartographiques, associées à des informations touristiques, pour le guide virtuel. Dans les 2 cas ces informations sont organisées selon une hiérarchie, qui présente divers niveaux de détail, et dans laquelle on doit donc pouvoir naviguer « horizontalement » et « verticalement », en plus de pouvoir interroger une base de données sur un point particulier de la « carte ». Le « guide virtuel » par ailleurs n’est pleinement efficace que joint à « l’assistant d’orientation » qui aide l’utilisateur à se localiser et à interpréter son environnement. Celui-ci intègre un moteur de reconnaissance de caractères (local ou déporté sur un serveur). On applique au préalable un procédé de « super résolution » pour améliorer les performances de cette reconnaissance. Enfin, la restitution d’informations par le PDA peut se faire sous forme textuelle, vocale, ou mieux, vocale + visuelle : les agents conversationnels focalisent l’attention et enrichissent l’information délivrée par leurs comportements non-verbaux. Interfaces multimodales pour un assistant au voyage

7 ZUIs et Control menus 2D Contraintes du PDA : taille d’écran
Geste et voix ZUIs et Control menus 2D Contraintes du PDA : taille d’écran ZUIs : interfaces utilisateurs zoomables Concept de zoom sémantique : Révélation progressive de niveaux de détail Control menus [1] : Sélection + contrôle de l’action (déplacement, zoom) en 1 seul geste Pas de changement de contexte, pas de manipulation de multiples interacteurs pour une seule opération La taille d’écran du PDA est limitée, et les ZUIs semblent particulièrement adaptées aux PDA. Pourtant on les y trouve rarement. Les ZUIs emploient le concept de zoom sémantique: grâce à la révélation progressive de niveaux de détail, l’utilisateur peut rechercher rapidement, du plus général au plus particulier, une information précise. Les Control Menus ont la particularité de permettre la sélection et le contrôle d’une action en un seul geste. L’interaction est plus rapide, le dispositif de pointage (stylet) et l’attention de l’utilisateur restent au plus près de la zone contenant l’information. [1] Pook, S., Lecolinet, E., Vaysseix, G. et Barillot, E., Control Menus: Execution and Control in a Single Interactor. Proc. ACM conf. on Human Factors in Computing Systems (CHI) 2000, ACM Press. Interfaces multimodales pour un assistant au voyage

8 Caractéristiques des control menus
Geste et voix Combinent la sélection et le contrôle d’une opération en 1 seul geste Peuvent intégrer jusqu’à 2 barres de défilement (vertical et horizontal) L’utilisateur concentre son attention sur le contenu Peuvent avoir des sous-menus Comme les Pie menus [2] et les Marking menus [3], offrent un mode novice et un mode expert La disposition spatiale des menus aide la mémorisation Gestes rapides => les menus n’apparaissent plus à l’écran Passage implicite d’un mode à l’autre [2] Hopkins, D., The design and implementation of Pie menus. Dr Dobb's journal of software tools, 1991, 16 (12), [3] Kurtenbach, G. et al., The Hotbox: efficient access to a large number of menu-items. Proc. ACM – CHI, 1993, Interfaces multimodales pour un assistant au voyage

9 Application des control menus
Geste et voix Application des control menus navigation dans un plan de ville, navigation dans un lexique : mots et phrases utiles au touriste, hiérarchisés en catégories telles que : hébergement > hôtel > réservation…. Interfaces multimodales pour un assistant au voyage

10 La voix : reconnaissance multilingue
Geste et voix moteur de reconnaissance vocale : vocabulaire limité, mais indépendant du locuteur, aucun apprentissage. la reconnaissance dans différentes langues : partage des modèles acoustiques communs, ce qui facilite les extensions futures à de nouvelles langues. modèles adaptables à l’utilisateur et aux conditions d’usage. Modèles acoustiques communs Chinois Français Modèles spécifiques à la langue Interfaces multimodales pour un assistant au voyage

11 La voix se joint au geste…
Geste et voix La voix se joint au geste… L’information vocale est employée différemment selon le contexte : Navigation dans le plan : « tap and talk » : accès par un menu vocal à diverses informations sur l’objet pointé. Navigation dans le lexique : comme raccourci d’accès aux catégories, puis pour l’accès à une entrée, mot ou phrase. La traduction sera affichée / synthétisée dans la langue cible. A terme, amélioration par capture des mots-clés ("word spotting"). Description ? Horaires ? Tarifs ? Accès ? Interfaces multimodales pour un assistant au voyage

12 La caméra « intelligente »
Voir, reconnaître, traduire La reconnaissance de caractères – chinois en particulier – atteint aujourd’hui de bonnes performances. Pour limiter la charge de calcul : Reconnaissance effectuée sur une sous-partie de l’image. Cette sous-partie peut être sélectionnée semi-automatiquement lors de l’étape de délimitation et segmentation préalable. Le texte une fois reconnu peut être traduit : Localement Pour faciliter la traduction, un menu vocal permet de choisir le contexte : panneau de bus ou de rue, monument, etc. Ou par un serveur distant via un service de radiocommunication. Il peut également être restitué par synthèse vocale Interfaces multimodales pour un assistant au voyage

13 Usage de la caméra [4] Caméra intelligente capture reco traduction
[4] Mao, Y., Dong, Q., Qi Y. et Chollet, G. Realization of an Intelligent Camera capable of Character Recognition and Translation. Proc. of Sino-French Symp. on Speech and Language Processing, Beijing, October 2000. Disponible à l’adresse : Interfaces multimodales pour un assistant au voyage

14 Améliorer la résolution d’image
Caméra intelligente Améliorer la résolution d’image Difficulté : image saisie à distance dans la rue caméra bon marché qualité / résolution insuffisante pour la reconnaissance Solution : affinement des images corrélation et recalage d’une séquence d’images successives. exploite les légères différences dues au mouvement naturel de la main qui tient l’appareil. image de résolution supérieure à celle du capteur. Interfaces multimodales pour un assistant au voyage

15 Principe d’affinement des images
Caméra intelligente Caméra sur le PDA Vibration de la main Estimation des mouvements (sub-pixel) Acquisition d ’une séquence d ’images Image de meilleure résolution Recomposition en une seule image Interfaces multimodales pour un assistant au voyage

16 Affinement des images : résultats
Caméra intelligente Affinement des images : résultats Amélioration notable : de la qualité visuelle du taux de reconnaissance des caractères ? Zoom « sémantique » Interfaces multimodales pour un assistant au voyage

17 Agents conversationnels : intérêt
Agents culturels Ils permettent [5] de transmettre une information de manière plus attractive et conviviale qu’une simple synthèse vocale. Les expressions nonverbales permettent : de désambiguiser un discours, de renforcer certains mots ou parties du discours… Elles fournissent des informations à différents niveaux : syntaxique sémantique émotionnel Dans un contexte multiculturel, une démonstration visuelle peut aussi être le meilleur vecteur d’enseignement de certains usages. [5] Pelachaud, C., Carofiglio, V., De Carolis, B. et de Rosis, F., Embodied Contextual Agent in Information Delivering Application, First Intl. Joint Conf. on Autonomous Agents & Multi-Agent Systems, Bologna, July 2002 Interfaces multimodales pour un assistant au voyage

18 « Greta » : moteur d’animation faciale
Agents culturels Objectif : un modèle animé capable de simuler de manière rapide et réaliste les aspects dynamiques du visage humain. Réalisation : un moteur d’animation faciale dont le modèle 3D a l’allure d’une jeune femme. Greta est : le noyau d’un décodeur MPEG-4 conforme aux spécifications “Simple Facial Animation Object Profile" du standard. capable : De générer la structure d’un modèle original, D’animer celui-ci, De le restituer en temps réel. Interfaces multimodales pour un assistant au voyage

19 Adapter les agents conversationnels
Agents culturels Adapter les agents conversationnels Portage sur PDA d’agents animés. la puissance et à la taille d’écran de l’appareil sont limités la complexité et le niveau de détail de l’animation doivent être adaptés. Adaptation du comportement à l’utilisateur : Malgré de grands progrès récents en matière de réalisme, les agents actuels ne connaissent qu’un type de comportement, qui reflète le plus souvent la culture occidentale. Adaptation au contexte culturel et social : La même information doit être délivrée différemment, par exemple: à un Français et à un Chinois, à un journaliste et à un particulier. Interfaces multimodales pour un assistant au voyage

20 Agents conversationnels culturels : représentation sémantique
Base : représentation sémantique indépendante de la langue, basée sur le standard XML-XSD. description de la fonction communicative des gestes et des signaux composant les gestes. Sur-couche d’attributs spécifiques à la culture, qui influeront sur : le choix d’un geste (sourire ou hochement de tête), la durée d’un regard… Plus généralement, ces influences peuvent porter sur : la définition d’un signal (masquage d’un signal par un autre), son intensité, Sa durée, etc. Interfaces multimodales pour un assistant au voyage

21 Agents conversationnels culturels…
Agents culturels Agents conversationnels culturels… dans certaines cultures, ne pas regarder son interlocuteur peut être perçu comme un manque d'attention / d’intérêt… dans d’autres cultures, regarder droit dans les yeux peut être interprété comme une forme d'agression… Interfaces multimodales pour un assistant au voyage

22 Geste et voix Caméra intelligente Agents culturels Résultats et suite… A l’issue des travaux que ce projet a permis d’initier, nous souhaitons être en mesure de démontrer : 1) la possibilité d’intégrer sur un terminal mobile (PDA, smartphone…) les parties existantes des diverses interfaces présentées ici : Control menus 2D, capture et reconnaissance de texte, agents conversationnels. 2) les bénéfices des améliorations que nous proposons pour chacune de ces fonctionnalités : intégration de commandes vocales dans les menus, affinement des images par corrélation spatio-temporelle, enrichissement des agents par des attributs culturels. Interfaces multimodales pour un assistant au voyage

23 Pour valoriser ces travaux dans le programme EURO-CHINA…
Collaboration engagée avec Peer2Phone (voix sur IP par WIFI) Présentation fin avril à Pékin Montage d’une proposition avec nos partenaires Chinois pour les J.O. de Pékin Interfaces multimodales pour un assistant au voyage


Télécharger ppt "LINGTOUR: a PDA for tourists"

Présentations similaires


Annonces Google