Fonctionnement du moteur vocal VoiXtreme

Slides:



Advertisements
Présentations similaires
Technologie de synthèse vocale WireLess Studio
Advertisements

Technologie de synthèse vocale
Évaluation des acquis des élèves en français et en mathématiques CE1 et CM2 Claude MOINE Chargé de mission SI1D 01/09.
La sécurité des systèmes informatiques
Navigateur web pour PDA
Emulateur Telnet pour PDA
Je lis, j’écris Objectif du logiciel S'entraîner à saisir précisément un mot, une expression, une phrase, un texte,
Les outils pour améliorer la dictée vocale
J'ADE 2005 J’aide Au Développement des Evaluations Animateurs TICE
Traitement automatique de la parole hiver
PROGRAMMATION LOGICIEL PL7 MICRO Consignes
(Routing Information Protocol)
Etude De Microsoft Word
Vocabulaire pour la passage du modèle conceptuel des données au modèle relationnel des données. MCDMRD EntitéTable PropriétésChamps, attribut IdentifiantClé
L’apprentissage de la lecture: Le CP
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
La reconnaissance vocale
Systèmes Experts implémentation en Prolog
Comprendre le fonctionnement du code écrit
Apprentissage initial de la lecture
La fonction Style Permet de créer des types de texte, par exemple
Animé au CRIF par Stéphane Lavoie Le 6 décembre 2011
Netquiz Pro Logiciel du CCDMD.
Procédure dinstallation Windows Xp pro. Dans cette procédure nous verrons comment installer Windows xp pro sur un disque dur Vierge. Dans un premier temps,
Annuler les corrections automatiques Annuler les corrections automatiques « Régler » les CSS « Régler » les CSS Définir le site et utiliser une technologie.
dsi- assistance Numéros utiles Notice Simplifiée
Ecole thématique Dynamique de la production écrite : approche pluridisciplinaire Poitiers, 09 juillet 2013 Ecole thématique Dynamique de la production.
Page 1 Introduction à ATEasy 3.0 Page 2 Quest ce quATEasy 3.0? n Ensemble de développement très simple demploi n Conçu pour développer des bancs de test.
Construire une base de données bibliographiques Elaborer un site web
dsi- assistance Numéros utiles Notice Simplifiée
GED Masters: Gestion Électronique de Documents
La technologie au collège et le B2i
Que puis-je faire avec WordQ ?
De l’orthographe à la prononciation: Nature des processus de conversion graphème-phonème dans la reconnaissance des mots écrits Marielle Lange Merci Monsieur.

Une fois le logiciel décompressé, lancer lexécution en cliquant sur « setup »
Excel Introduction.
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
D1 - 19/05/2014 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire.
Publispostage Menu Outils / Lettres et publipostage
Reconnaissance de Yes/No à l’aide du HTK
Présentation de TEXOR © JM&Co RUN
Maîtrise de la langue française
ACTIVITE N°1: Identifier, justifier, installer le matériel, vérifier Rendre accessible larrière de la machine « revendeur » sans la démonter Identification.
Remontée des résultats des évaluations CE1 1.Paramétrage de la campagne dévaluation CE1 2.Téléchargement de loutil de saisie locale 3.Saisie des codes.
Qu'est ce que savoir lire ?
APPLICATION SCONET Création de nouveaux élèvesEdition et correction des anomalies Document créé par Laurence BURLAT.
Traitement de la parole : Synthèse et reconnaissance
Développer une application vocale avec WireLess TelNet
Introduction aux Applications Vocales Avec Telnet
Formation VoiXtreme 5 route de Paisy, Dardilly Tél. : Fax. :
Traitement de son Chapitre 2 : Exploitation de logiciels Leçon1:
Mise en œuvre d’une application vocale avec Telnet & 1.Modifier l’application existante dans le WMS en optimisant le flux pour le picking vocal. 2.Utiliser.
1 / Créer ton Voki en cliquant sur CREATE 2/ Choisir ton personnage en cliquant comme dessous.
La Kessamo « » (Caisse à mots)
Introduction à l’informatique en gestion 1 Plan de la leçon Modalités d’affichage La navigation Ouvrir/Enregistrer La saisie La sélection La.
Mise en place technique L’interview
Conversation permanente
Vocaliser une transaction Sur WMS Telnet 5250 existant
Des activités à ritualiser
Projet Application Vocale Sur WMS Telnet existant
1 Windows 2003 Server Stratégie des comptes. 2 Windows 2003 Server Il faut tenir compte de ces 3 paramètres.
Modules Chapitre 1 : Système d’exploitation
Le dictaphone  Permet d'enregistrer de courts fichiers vocaux sur le disque dur  Bien entendu, votre ordinateur doit posséder une carte son et un micro.
Ecole ______________________________________
Guide n° 2 Le carnet de notes. Lancer le carnet de notes Naviguer dans l’environnement Créer des activités d’apprentissage Gérer les groupes élèves Ce.
Flash 2 ème séance Interaction François Marliac Mickaël Moreira.
Utilisation de la plateforme DomoLeaf en mode Adhérent 1 (Accessible avec une carte d’accès, en vente auprès de votre distributeur)
Formation Dragon NaturallySpeaking
Transcription de la présentation:

Fonctionnement du moteur vocal VoiXtreme Hub One / SofToGo

Fichier de configuration _VoiXtreme.cfg Composantes du moteur VoiXtreme Fonctionne dans le PDA TTS (Text To Speech) Convertit en locution audible les données qui arrivent du WMS Règles de substitution Des substitutions de texte peuvent être définies. Fichier de configuration _VoiXtreme.cfg ASR (Active Speech Recognition) Reconnait la voix de l’opérateur et la traduit en données qui sont envoyées vers l’application comme une saisie clavier ou scanner Préférences utilisateur Grammaires –composant ASR- Est la liste de chiffres et mots-clefs qui peuvent être reconnus par l’ASR

TTS (Text To Speech) VoiXtreme Transforme un texte en allocution audible Pauses par ponctuation (point, virgule) Dire / Epeler (<SAY> <SPL>) Abréviations usuelles Vitesse et volume modifiables dynamiquement par l’utilisateur. Fichier de règles de substitution (voixtreme.rul). Il est important de respecter l’orthographe des mots pour que ceux-ci soient prononcés clairement.

ASR (Automatic Spech Recognition) VoiXtreme Transforme une allocution en texte. La reconnaissance se fait avec les phases suivantes: Un silence initial La détection d’activité sonore La capture de sons La détection de la fin d’activité sonore Le traitement pour reconnaissance (grammaires) La qualification des résultats Détection de l’activité vocale (début et fin) par seuil de volume sonore et temps de silence (VAD – Détection d’activité vocale). Interprétation des sons par grammaires compilées. Les phonèmes reconnus sont comparés avec une liste de modèles et le plus proche est qualifié avec un score de ressemblance (reliability). Activation dynamique de règles de grammaires (digits, commandes, mots-clefs…)

Répertoires VoiXtreme \Program Files\SofToGoVoice \Application\SofToGoVoice \On Board Ide\SofToGoVoice \IPSM\SofToGoVoice <X>SofToGoVoice\Voiceapps\<APP> PDA \C:\SofToGo\voiXtreme2\voixtreme_ce_fr \C:\SofToGo\voiXtreme2\voixtreme_wm_fr SofToGoVoice (_VoiXtreme.cfg) PC

ASR – Chronogramme d’une reconnaissance Attente Capture Traitement et résultat « 35 » Saturation Zone Optimale de Parole Energie Silence de fin Seuil de déclanchement « Trois Cinq Oké » Silence Temps

ASR – Paramètres VoiXtreme ReliabilityLevel, pour rejeter des reconnaissances ne répondant pas à la grammaire. MinSpeechDur, pour ne pas traiter des sons trop courts. TrailingSilence, pour terminer la capture et passer à la reconnaissance par un silence. TimeoutSpeech, pour terminer la capture même s’il n’y a pas de silence. AsrThreshold, niveau sonore pour détecter le début et la fin de l'activité sonore. MicSensitivity, gérer l’amplification du signal. MicGain, gérer l’amplification du micro. MicBoost, selon le matériel.

Objectifs des ajustements du moteur ASR ASR – Ajustements VoiXtreme Objectifs des ajustements du moteur ASR Ne pas saturer le micro par la parole (par MicSensitivity et MicGain) Ne pas déclencher « tout seul » par des bruit courts (MinSpeechDur). Ne pas déclencher par le bruit de fond (par AsrThreshold, MicSensitivity et MicGain). Terminer la capture et passer à la reconnaissance au plus vite (par TrailingSilence) et éviter les temps morts. Ne pas couper une phrase composée (digits, ok) au milieu (TrailingSilence) Retourner au logiciel des mots réellement reconnus (ReliabilityLevel) Eviter des faux résultats Eviter les rejets abusifs

Ajustement Micro Zone optimale de la parole Silence (pas de parole) Au bout de 30 secondes de parole le SNR est significatif Zone optimale de la parole Silence (pas de parole) Parler normal Parler trop fort Score 5147 Mot reconnu «3» Activité vocale détectée (AsrThresold)

ASR – Mécanisme de reconnaissance SON Suis - vent Règles de grammaire Phonèmes -> Orthographe #sh\i.'vA%~# -> suivant #a.ny.'le# -> annuler Son vers phonèmes #sui.'vA# Règles actives Recherche par approximation résultat “suivant” – Score 4752

Choix des mots et grammaires ASR – Grammaires Choix des mots et grammaires Grouper les mots en grammaires selon leur utilisation contextuelle, pour activer dans chaque transaction seulement les mots utilisés. Choisir les mots clefs selon leur “distance phonétique”, et ne pas utiliser de mots trop ressemblants (p/ex «dessus» et «dessous»). Eviter les mots trop courts qui ont peu de syllabes, p/ex ne pas utiliser un choix «oui» / «non», préférer «accepté» / «réfusé». Utiliser la possibilité d’associer des orthographes à des mots pour transcrire des codes, p/ex l’allocution “imprimante sortie” peut produire “IMP03” (pronas).

ASR – Grammaires Les grammaires sont identifiées par une lettre ou chiffre « DCF0123456789 » qui permet de les activer / désactiver. Grammaire <digits> « D » De 0 à 9, permet de composer des chiffres de 1 à 4 digits avec un terminateur Grammaire <controls> « C » Utilisée pour des saisies avec validation, contient un mot pour valider et un mot pour annuler. Grammaire <functions> « F » Contient les mots clefs des fonctions les plus usuelles Grammaire <customX> « 0 - 9 » Permet de grouper les mots clefs selon le contexte Grammaire <suspend> (non activable) Mots clefs propres au moteur vocal actifs en permanence en mode actif. Grammaire <resume> (non activable) Mots clefs propres au moteur vocal actifs en permanence en mode pause.

Chronogramme saisie SayOneTime yes/no Prenez deux Traitement et résultat « 2 » Echec reconnaissance Reconnaissance Deux Ok Deux Ok Prenez deux Prenez deux Echec reconnaissance Reconnaissance Deux Ok Deux Ok

Chronogramme saisie LisenOnTts no/yes Prenez deux colis Traitement et résultat « 2 » Reconnaissance Pas de Reconnaissance Deux Ok Deux Ok Prenez d… Interruption Traitement et résultat « 2 » Reconnaissance Deux Ok

Prendre le nombre de colis indiqué Mots clefs ResRepeat et ResInfo Prenez deux Prenez deux Traitement et résultat « 2 » Reconnaissance redire Deux Ok Prendre le nombre de colis indiqué Prenez deux Traitement et résultat « 2 » Reconnaissance Information Deux Ok

<functions> <suspend> Etat de pause (ResPause et ResResume) Parler-pause Prenez deux colis Etat Actif <digits> <functions> <suspend> Etat Pause <resume> Parler-reprise Deux Ok Traitement et résultat « 2 »