TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES Le sujet choisi est une présentation des principaux programmes informatiques du traitement automatique des langues. Géraldine Clément Paris III-Le 03/06/2003
Les programmes de reconnaissance de la parole • Les synthétiseurs vocaux • Les analyseurs de textes Les générateurs de textes Nous verrons donc successivement les programmes de reconnaissance de la parole, les synthétiseurs vocaux, les analyseurs de textes, les générateurs de textes, et enfin les programmes de traduction. Les programmes de traduction
La reconnaissance vocale consiste à convertir le signal acoustique prononcé par un locuteur en la suite des mots sous-jacents deux méthodes: Les approches analytiques Les méthodes globales Application : personnes handicapées Pour les sociétés: moins de coûts, remplacement des messageries vocales,etc. La reconnaissance vocale permet de modifier un signal acoustique en une suite de mots. Il existe pour cela deux méthodes: le approches analytiques, qui utilisent des connaissances linguistiques pour augmenter les performances de la reconnaissance; et les méthodes globales, où les mots sont considérés comme du signal quelconque que l’on compare à des références sans décomposition préalable. La reconnaissance vocale connaît de nombreuses applications, comme l’aide aux personnes handicapées, où bien celles qui sont amenées à utiliser la souris et le clavier durant de nombreuses heures. Les sociétés s’en servent aussi, pour l’intégration de la voix dans des transaction libre-service, par exemple.les coûts d’exploitation de certains centres d’appels peuvent parfois être réduits.
Les étapes: 1: mettre en forme le signal de parole pour éliminer les bruits parasites 2: décomposer les mots en unités symboliques discrètes Une des premières action consiste à mettre en forme le signal acoustique pour éliminer les bruits parasites, et pour en extraire les paramètres pertinents. Il s’agit ensuite de décomposer les mots en unités symboliques discrètes, qui vont permettre de décrire aussi bien des mots de référence contenus dans le dictionnaire qu les mots que l’on cherche à reconnaître. Puis intervient la reconnaissance des limites des mots, la technique la plus simple étant d’exiger de l’utilisateur qu’il prononce ses mots de façon séparée. Il faut enfin passer à le reconnaissance des mots. Tans que le vocabulaire reste faible, il est possible de comparer les entités détectées à l’ensemble du dictionnaire, mais ceci est inconcevable lorsqu’il; y a plus d’une centaine de mots. On peut alors utiliser le partitionnement des mots, puis représenter le vocabulaire en arborescence d’unités linguistiques. 3: reconnaître les limites des mots 4: reconnaître les mots
Les synthétiseurs vocaux permettent de produire automatiquement de la parole, grâce à une voix artificielle Deux méthodes: Concaténation de sons préenregistrés Calcul de représentation phonético-acoustique Les synthétiseurs vocaux permettent la production automatique de la parole, grâce à une voix artificielle, on parle de phonétisation de textes. Cette phonétisation peut se faire par concaténation de sons préenregistrés (des suites de deux sons, que l’on va concaténer ou modifier selon la prosodie désirée), ou bien par calcul de représentation phonético-acoustiques (on réalise alors la synthèse de formants).
Les difficultés sont nombreuses: Présence de signes où il faut choisir entre lecture et épellation Choix de la bonne prononciation Existence d’élisions ou non ,etc. Application: Lecture de documents Dialogue homme-machine Messagerie vocale Enseignement,etc. Ce programme connaît de nombreuses difficultés, telle la présence de mots inconnus, comme les signes où il faut choisir entre entre lecture ou épellation; d’homographes non homophones (comme « fils » ); ou bien encore de mots qui peuvent avoir des élisions (comme « médecin »). La synthèse peut être utile pour la lecture de journaux, et de documents; pour le dialogue homme-machine; pour la messagerie vocale, qui concerne surtout les courriers électroniques, la demande de renseignements,etc.; ou bien encore pour l’enseignements et la formation (apprentissage des langues, prosodie,etc.).
Différentes analyses: Les analyseurs de texte donnent des renseignements sur un ou plusieurs textes Différentes analyses: Lexicale Morphologique Syntaxique,etc. Les analyseurs de texte permettent d’obtenir des renseignements sur un (ou un ensemble de) texte(s) de style général. Les analyses peuvent être lexicales, morphologiques, syntaxiques…
EXEMPLE DE FONCTION REALISEE PAR CORDIAL: ANALYSE SYNTAXIQUE Les analyseurs, comme l’Analyseur plus pour Macintosh, ou encore Cordial, réalisent plusieurs fonctions Statistiques Analyse locale (recherche d’adverbes, des participes présents,etc.) Vérification de la ponctuation Calcul du nombre de lignes selon les options choisies,… On peut citer comme exemple l’Analyseur Plus pour Macintosh, ou bien Cordial. Ils réalisent des statistiques (les mots d’un texte sont comptés, classé,etc.), des analyses locales (comme la recherche d’adverbes, qui pose des problèmes, puisque souvent l’analyseur considère comme adverbe tout mot de sept lettres ou plus terminé par –ment, il prendra donc en compte des mots comme « grognement »; de participes présent…), de vérification de la ponctuation, ou encore du calcul de lignes… En voici un exemple, avec une analyse syntaxique d’une phrase avec cordial.
Les générateurs de texte permettent d’obtenir des textes adaptés à une situation donnée. Différents types de génération: Génération de phrases isolées Génération de textes Les générateurs de textes permettent, en quelque sorte, la création de texte adaptés à une situation précise. On distingue les générateurs de phrases isolées, qui est suffisante pour un dialogue homme-machine ou dans certaines applications de traduction; et la génération de textes, qui se fonde sur une représentation abtraite du contenu.
Représentation de la question Module de raisonnement Représentation de la réponse Analyse automatique Génération automatique Système d’interrogation d’une base de données Lorsque l’usager a posé une question, une analyse se met en place afin d’obtenir un ereprésenattion de la question. De là, le module de raisonnement doit fournir une représentation de la réponse qui tende à un échange coopératif, la réponse doit satisfaire au maximum l’usager, le module de raisonnement gère un historique du dialogue afin de tenir copte des réponses déjà transmises. Il peut alors représenter la réponse, réaliser la génération et enfin afficher la réponse. Question de l’usager Réponse de la machine
Les programmes de traduction sont de deux types: L’approche à langue pivot L’approche à transfert Systèmes commercialisés: Traducteurs électroniques de poche Les systèmes restreints, robustes et simples Les systèmes légers, sous contrôle de l’utilisateur Les systèmes lourds, plus élaborés Les programmes de traduction peuvent être réalisés selon deux approches: l’approche à langue pivot, où l’analyse conduit à une représentation abstraite dans un langage artificiel supposé universel. Cette représentation conduit est indépendante de la langue source et sert directement d’entrée pour générer la phrase cible. Il existe aussi l’approche à transfert, où la représentation abstraite obtenu après l’analyse du texte source doit être traduite dans une autre représentation abstraite correspondant au texte cible . Différents systèmes de traduction sont commercialisés: Les traducteurs de poches, qui ne contiennent qu’un petit ombre de mots et d’expressions; les systèmes restreints, assez simples et robustes; les systèmes légers, qui sont des systèmes simplifiés et l’utilisateur complète lui même le dictionnaire selon ses besoins; et les systèmes lourds, qui sont nettement plus élaborés, leur dictionnaire prévoit par exemple le sens contextuel des mots polysémiques.
Correcteur d’orthographe Dictionnaire électroniques Outils donnant l’accès aux informations linguistiques Compétences du traducteur Outil de formatage Outils de correction linguistique Compétences du traducteurs -Outil de déformatage -Scanner Voici un schéma représentant le processus de traduction avec un outil de traduction automatique. Après l’obtention du document source, le correcteur orthographique, les outils donnant accès aux informations linguistiques, etc. réalisent une pré-édition où le texte source est analysé. Puis s’effectue la traduction. La post-édition consiste à formater, à corriger. Ainsi, on obtient le document traduit dans la langue cible. Document source Post-édition Document traduit Pré-édition Traduction
Quelques sources: secteur TAL TAL introduction reconnaissance de la parole introduction à la synthèse de la parole l'analyseur de texte la traduction pour voir le dossier TAL La plupart des informations ont été obtenues sur des sites Internet, dont voici quelques références.