Fonctionnement du moteur vocal VoiXtreme Hub One / SofToGo
Fichier de configuration _VoiXtreme.cfg Composantes du moteur VoiXtreme Fonctionne dans le PDA TTS (Text To Speech) Convertit en locution audible les données qui arrivent du WMS Règles de substitution Des substitutions de texte peuvent être définies. Fichier de configuration _VoiXtreme.cfg ASR (Active Speech Recognition) Reconnait la voix de l’opérateur et la traduit en données qui sont envoyées vers l’application comme une saisie clavier ou scanner Préférences utilisateur Grammaires –composant ASR- Est la liste de chiffres et mots-clefs qui peuvent être reconnus par l’ASR
TTS (Text To Speech) VoiXtreme Transforme un texte en allocution audible Pauses par ponctuation (point, virgule) Dire / Epeler (<SAY> <SPL>) Abréviations usuelles Vitesse et volume modifiables dynamiquement par l’utilisateur. Fichier de règles de substitution (voixtreme.rul). Il est important de respecter l’orthographe des mots pour que ceux-ci soient prononcés clairement.
ASR (Automatic Spech Recognition) VoiXtreme Transforme une allocution en texte. La reconnaissance se fait avec les phases suivantes: Un silence initial La détection d’activité sonore La capture de sons La détection de la fin d’activité sonore Le traitement pour reconnaissance (grammaires) La qualification des résultats Détection de l’activité vocale (début et fin) par seuil de volume sonore et temps de silence (VAD – Détection d’activité vocale). Interprétation des sons par grammaires compilées. Les phonèmes reconnus sont comparés avec une liste de modèles et le plus proche est qualifié avec un score de ressemblance (reliability). Activation dynamique de règles de grammaires (digits, commandes, mots-clefs…)
Répertoires VoiXtreme \Program Files\SofToGoVoice \Application\SofToGoVoice \On Board Ide\SofToGoVoice \IPSM\SofToGoVoice <X>SofToGoVoice\Voiceapps\<APP> PDA \C:\SofToGo\voiXtreme2\voixtreme_ce_fr \C:\SofToGo\voiXtreme2\voixtreme_wm_fr SofToGoVoice (_VoiXtreme.cfg) PC
ASR – Chronogramme d’une reconnaissance Attente Capture Traitement et résultat « 35 » Saturation Zone Optimale de Parole Energie Silence de fin Seuil de déclanchement « Trois Cinq Oké » Silence Temps
ASR – Paramètres VoiXtreme ReliabilityLevel, pour rejeter des reconnaissances ne répondant pas à la grammaire. MinSpeechDur, pour ne pas traiter des sons trop courts. TrailingSilence, pour terminer la capture et passer à la reconnaissance par un silence. TimeoutSpeech, pour terminer la capture même s’il n’y a pas de silence. AsrThreshold, niveau sonore pour détecter le début et la fin de l'activité sonore. MicSensitivity, gérer l’amplification du signal. MicGain, gérer l’amplification du micro. MicBoost, selon le matériel.
Objectifs des ajustements du moteur ASR ASR – Ajustements VoiXtreme Objectifs des ajustements du moteur ASR Ne pas saturer le micro par la parole (par MicSensitivity et MicGain) Ne pas déclencher « tout seul » par des bruit courts (MinSpeechDur). Ne pas déclencher par le bruit de fond (par AsrThreshold, MicSensitivity et MicGain). Terminer la capture et passer à la reconnaissance au plus vite (par TrailingSilence) et éviter les temps morts. Ne pas couper une phrase composée (digits, ok) au milieu (TrailingSilence) Retourner au logiciel des mots réellement reconnus (ReliabilityLevel) Eviter des faux résultats Eviter les rejets abusifs
Ajustement Micro Zone optimale de la parole Silence (pas de parole) Au bout de 30 secondes de parole le SNR est significatif Zone optimale de la parole Silence (pas de parole) Parler normal Parler trop fort Score 5147 Mot reconnu «3» Activité vocale détectée (AsrThresold)
ASR – Mécanisme de reconnaissance SON Suis - vent Règles de grammaire Phonèmes -> Orthographe #sh\i.'vA%~# -> suivant #a.ny.'le# -> annuler Son vers phonèmes #sui.'vA# Règles actives Recherche par approximation résultat “suivant” – Score 4752
Choix des mots et grammaires ASR – Grammaires Choix des mots et grammaires Grouper les mots en grammaires selon leur utilisation contextuelle, pour activer dans chaque transaction seulement les mots utilisés. Choisir les mots clefs selon leur “distance phonétique”, et ne pas utiliser de mots trop ressemblants (p/ex «dessus» et «dessous»). Eviter les mots trop courts qui ont peu de syllabes, p/ex ne pas utiliser un choix «oui» / «non», préférer «accepté» / «réfusé». Utiliser la possibilité d’associer des orthographes à des mots pour transcrire des codes, p/ex l’allocution “imprimante sortie” peut produire “IMP03” (pronas).
ASR – Grammaires Les grammaires sont identifiées par une lettre ou chiffre « DCF0123456789 » qui permet de les activer / désactiver. Grammaire <digits> « D » De 0 à 9, permet de composer des chiffres de 1 à 4 digits avec un terminateur Grammaire <controls> « C » Utilisée pour des saisies avec validation, contient un mot pour valider et un mot pour annuler. Grammaire <functions> « F » Contient les mots clefs des fonctions les plus usuelles Grammaire <customX> « 0 - 9 » Permet de grouper les mots clefs selon le contexte Grammaire <suspend> (non activable) Mots clefs propres au moteur vocal actifs en permanence en mode actif. Grammaire <resume> (non activable) Mots clefs propres au moteur vocal actifs en permanence en mode pause.
Chronogramme saisie SayOneTime yes/no Prenez deux Traitement et résultat « 2 » Echec reconnaissance Reconnaissance Deux Ok Deux Ok Prenez deux Prenez deux Echec reconnaissance Reconnaissance Deux Ok Deux Ok
Chronogramme saisie LisenOnTts no/yes Prenez deux colis Traitement et résultat « 2 » Reconnaissance Pas de Reconnaissance Deux Ok Deux Ok Prenez d… Interruption Traitement et résultat « 2 » Reconnaissance Deux Ok
Prendre le nombre de colis indiqué Mots clefs ResRepeat et ResInfo Prenez deux Prenez deux Traitement et résultat « 2 » Reconnaissance redire Deux Ok Prendre le nombre de colis indiqué Prenez deux Traitement et résultat « 2 » Reconnaissance Information Deux Ok
<functions> <suspend> Etat de pause (ResPause et ResResume) Parler-pause Prenez deux colis Etat Actif <digits> <functions> <suspend> Etat Pause <resume> Parler-reprise Deux Ok Traitement et résultat « 2 »