La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL.

Présentations similaires


Présentation au sujet: "1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL."— Transcription de la présentation:

1 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2 2 Sommaire Introduction à TAL Introduction à TAL Traduction Automatique Traduction Automatique Correction automatique Correction automatique Recherche dinformation et fouille de texte Recherche dinformation et fouille de texte Résumé automatique Résumé automatique Reconnaissance vocale Reconnaissance vocale Synthèse vocale Synthèse vocale Conclusion et bibliographie Conclusion et bibliographie

3 3 Introduction à TAL

4 4 Définition Application des programmes et techniques informatiques sur le langage naturel [Wikipedia] Application des programmes et techniques informatiques sur le langage naturel [Wikipedia] « Le TAL sintéresse aux traitements informatisés mettant en jeu du matériau linguistique. » (Jacquemin & Zweigenbaum 2000). « Le TAL sintéresse aux traitements informatisés mettant en jeu du matériau linguistique. » (Jacquemin & Zweigenbaum 2000). TAL Linguistique Informatique Intelligence Artificielle

5 5 Applications TAL Traduction automatique Traduction automatique Correction automatique Correction automatique Recherche de linformation et Fouille de texte Recherche de linformation et Fouille de texte Résumé automatique de texte Résumé automatique de texte Synthèse de la parole Synthèse de la parole Reconnaissance vocale Reconnaissance vocale …etc. …etc.

6 6 Traduction automatique

7 7 Définition Premier domaine de TAL (1950) Premier domaine de TAL (1950) TA a pour entrée un texte "t1", ou texte source écrit dans une langue « L1 » ou langue cible. TA a pour entrée un texte "t1", ou texte source écrit dans une langue « L1 » ou langue cible. TA a pour sortie un texte "t2" ou texte traduit écrit dans une langue « L2 » ou langue cible TA a pour sortie un texte "t2" ou texte traduit écrit dans une langue « L2 » ou langue cible Exemples: Exemples: SYSTRAN SYSTRAN ALPS ALPS Translator Translator

8 8 Historique 1950: 1950: Traduction mot à mot Traduction mot à mot 1970: 1970: Moteur de traduction: Systran Moteur de traduction: Systran 1990: 1990: Systèmes à mémoire de traduction Systèmes à mémoire de traduction

9 9 Méthodes TA : Traduction automatique TA : Traduction automatique Traduire entièrement un texte sans intervention de lhumain Traduire entièrement un texte sans intervention de lhumain TAO : Traduction assistée par ordinateur TAO : Traduction assistée par ordinateur Lhumain traduit, avec laide du support informatique Lhumain traduit, avec laide du support informatique

10 10 Difficultés Écueils linguistiques propres à la langue naturelle Écueils linguistiques propres à la langue naturelle Ambiguïtés Ambiguïtés Lexicales Lexicales Syntaxiques Syntaxiques Sémantique Sémantique Nécessité du contexte ! Mais comment le représenter informatiquement ? Nécessité du contexte ! Mais comment le représenter informatiquement ?

11 11 Techniques Mot à mot + arrangement de surface Mot à mot + arrangement de surface Syntagmes + arrangement de surface Syntagmes + arrangement de surface Dictionnaire (ou base de données) Dictionnaire (ou base de données) Régles Régles Alignement de corpus Alignement de corpus Meilleure prise en compte du contexte Meilleure prise en compte du contexte Réalisations linguistiques « attestées » Réalisations linguistiques « attestées »

12 12 Évaluation des logiciels TA Quelques campagnes dévaluation existantes : Quelques campagnes dévaluation existantes : OpenMT (Open Machine Translation, NIST) OpenMT (Open Machine Translation, NIST) CESTA (Technolangue) CESTA (Technolangue) Tâche à accomplir : traduction dun texte dune langue source vers une langue cible Tâche à accomplir : traduction dun texte dune langue source vers une langue cible Protocole : on donne un texte au système, on compare le résultat (texte candidat) à une traduction faite par lhumain (texte référent), et on attribue une note Protocole : on donne un texte au système, on compare le résultat (texte candidat) à une traduction faite par lhumain (texte référent), et on attribue une note Ressources Ressources Textes en langue source Textes en langue source Traduction référence pour chaque texte Traduction référence pour chaque texte

13 13 Eurotra La France participe actuellement à un projet expérimental de Traduction Automatique de grande envergure, le projet "Eurotra". La France participe actuellement à un projet expérimental de Traduction Automatique de grande envergure, le projet "Eurotra". lancé vers 1975 lancé vers 1975 objectif de mettre au point un système informatique multilingue capable de traduire des textes relatifs au fonctionnement de la Communauté Européenne depuis - et vers - chacune des langue de la Communauté : anglais, allemand, danois, français, espagnol, grec, italien, néerlandais, portugais, soit 72 couples de langues. objectif de mettre au point un système informatique multilingue capable de traduire des textes relatifs au fonctionnement de la Communauté Européenne depuis - et vers - chacune des langue de la Communauté : anglais, allemand, danois, français, espagnol, grec, italien, néerlandais, portugais, soit 72 couples de langues.

14 14 Correction automatique

15 15 Correction automatique Correcteur orthographique vs grammatical Correcteur orthographique vs grammatical 1. Orthographe dusage ou lexicale écriture du mot en lui-même, sans considération des rapports écriture du mot en lui-même, sans considération des rapports quil entretient avec le reste de la phrase quil entretient avec le reste de la phrase – ex. fôte, ortografe, lappin, etc. – ex. fôte, ortografe, lappin, etc. 2. Orthographe grammaticale partie qui dépend des relations grammaticales partie qui dépend des relations grammaticales – accords : des faute dorthographe, nous sommes venu – accords : des faute dorthographe, nous sommes venu – conjugaisons : je vous aimez, nous avons manger – conjugaisons : je vous aimez, nous avons manger – homographes grammaticaux : cest – ces –ses, à – a, etc. – homographes grammaticaux : cest – ces –ses, à – a, etc.

16 16 Techniques Distinguer Distinguer Vérification (détection des erreurs potentielles) Vérification (détection des erreurs potentielles) – Approche statistique de la détection – Consultation de dictionnaires Correction (suggestions ordonnées pour Correction (suggestions ordonnées pour corriger lerreur identifiée)

17 17 Techniques : distance lexicographique Calcul du nombre minimum dinsertion, suppression et substitution de lettres nécessaires pour transformer un mot en un autre: Calcul du nombre minimum dinsertion, suppression et substitution de lettres nécessaires pour transformer un mot en un autre: – Suppression : beauoup – Insertion : beazcoup – Substitution : bezucoup – Interversion : baeucoup Puis vérification au dictionnaire Puis vérification au dictionnaire Principe de base: les mots les plus proches seront Principe de base: les mots les plus proches seront proposés proposés Exemple: – *Prèferrer préférer (distance=1) puis préféré, préfère (distance=2) puis préférée (distance=3) (distance=2) puis préférée (distance=3) Exemple: prèferre

18 18 Techniques : réinterprétation phonétique Algorithme: 1. mot inconnu phonétiseur transcription phonétique (ex.*puit /pyi/) 2. transcription phonétique = clé pour rechercher dans dictionnaire toutes les orthographes pour cette séquence de sons 3. si aucun mot nest trouvé avec la transcription phonétique entière, quels mots orthographiques sont proches de la chaîne phonétique? 4. on propose comme correction le(s) mot(s) ainsi réinterprété(s) (puis, puits)

19 19 Evaluation

20 20 caractéristiques Lanalyse en temps réel Lanalyse en temps réel Attirer lattention de lutilisateur afin de corriger Attirer lattention de lutilisateur afin de corriger Des propositions de correction Lutilisateur peut être amener à compléter le dictionnaire intégré (noms propres) Lutilisateur peut être amener à compléter le dictionnaire intégré (noms propres) Spécifiés de la langue: Spécifiés de la langue: Anglais: Les mots sécrivent toujours de la même façon Anglais: Les mots sécrivent toujours de la même façon

21 21 Antidote Antidote est un logiciel de correction grammaticale et daide à la rédaction en français qui réunit : Antidote est un logiciel de correction grammaticale et daide à la rédaction en français qui réunit :logicielcorrection grammaticalefrançaislogicielcorrection grammaticalefrançais un correcteur : fait une analyse par phrase, souligne les erreurs et propose des corrections. un correcteur : fait une analyse par phrase, souligne les erreurs et propose des corrections. dix dictionnaires: pour les définitions,synonymes,antonymes,… dix dictionnaires: pour les définitions,synonymes,antonymes,… Dix guides linguistiques: pour la syntaxe, ponctuation,… Dix guides linguistiques: pour la syntaxe, ponctuation,…

22 22 Antidote Le prisme de révision: pour améliorer le contenu et le contenu Le prisme de révision: pour améliorer le contenu et le contenu Filtre de style: phrases longues Filtre de style: phrases longues Filtre pour labréviation Filtre pour labréviation

23 23 Recherche de linformation et fouille de texte

24 24 Définitions Définition: retrouver des documents textuels répondant à un besoin dinformation spécifié par une requête Définition: retrouver des documents textuels répondant à un besoin dinformation spécifié par une requête recherche d'information : « Ensemble des méthodes, procédures et techniques permettant, en fonction de critères de recherche propres à lusager, de sélectionner linformation dans un ou plusieurs fonds de documents plus ou moins structurés ». recherche d'information : « Ensemble des méthodes, procédures et techniques permettant, en fonction de critères de recherche propres à lusager, de sélectionner linformation dans un ou plusieurs fonds de documents plus ou moins structurés ». recherche de l'information : « Ensemble des méthodes, procédures et techniques ayant pour objet dextraire dun document ou dun ensemble de documents les informations pertinentes ». recherche de l'information : « Ensemble des méthodes, procédures et techniques ayant pour objet dextraire dun document ou dun ensemble de documents les informations pertinentes ».

25 25 Méthodes de RI Deux aspects: Deux aspects: Indexation des corpus Indexation des corpus l'interrogation du fonds documentaire ainsi constitué. l'interrogation du fonds documentaire ainsi constitué. Les étapes de la RI Les étapes de la RI Prétraitement: indexation du document Prétraitement: indexation du document Recherche: lapproche ensembliste (SQL) Recherche: lapproche ensembliste (SQL) Mesures: pour sélectionner les meilleurs documents Mesures: pour sélectionner les meilleurs documents Prise en compte de l'utilisateur Prise en compte de l'utilisateur

26 26 Moteur de recherche Le modèle de lInformation Retrieval : Le modèle de lInformation Retrieval : Constitué de lusager,la BDD des documents,et le spécialiste de linformation Constitué de lusager,la BDD des documents,et le spécialiste de linformation Un moteur de recherche est un logiciel permettant de retrouver des ressources, constitué des étapes: Un moteur de recherche est un logiciel permettant de retrouver des ressources, constitué des étapes:logiciel Lexploration Lexploration Indexation Indexation Recherche Recherche

27 27 Fouille de Texte définition: extraction des connaissances dans des textes définition: extraction des connaissances dans des textes Constituée des deux étapes: Constituée des deux étapes: Analyse:reconnaître les mots, les phrases Analyse:reconnaître les mots, les phrases Interprétation de lanalyse:pour faire la sélection Interprétation de lanalyse:pour faire la sélection Exemple: classification des courriers en spams Exemple: classification des courriers en spams

28 Architecture KENiA ® : Knowledge Extraction and Notification Architecture développée dans le langage Java en tenant compte de techniques et de ressources exclusivement linguistiques (aucun appel à la statistique) développée dans le langage Java en tenant compte de techniques et de ressources exclusivement linguistiques (aucun appel à la statistique) 28

29 29 Résumé automatique

30 30 Résumé automatique (Définition) Une transformation réductrice dun texte source vers un résumé par compression du contenu à laide dune sélection et/ou généralisation de ce qui est important dans le texte source. Une transformation réductrice dun texte source vers un résumé par compression du contenu à laide dune sélection et/ou généralisation de ce qui est important dans le texte source.

31 31 Fonction AutoSummarize de MS Office

32 32 Caractéristiques dun résumé Indicatif ou Informatif Indicatif ou Informatif Indicatif: indique la nature du texte Indicatif: indique la nature du texte Informatif: tente de se substituer au texte Informatif: tente de se substituer au texte Extrait ou abrégé Extrait ou abrégé Extrait: phrases ou passages tirés du texte Extrait: phrases ou passages tirés du texte Abrégé: reformule, compresse le texte Abrégé: reformule, compresse le texte Court ou long Court ou long Taux de compression = Taux de compression =

33 33 Mécanique de construction dun résumé Document Repr. interne du document Document Repr. interne du document Repr. interne du document Repr. interne du r é sum é Repr. interne du document Repr. interne du r é sum é Repr. interne du r é sum é Texte du r é sum é Repr. interne du r é sum é Texte du r é sum é

34 34 Facteurs à considérer Facteurs dentrée: Facteurs dentrée: Forme: structure, type de langue,… Forme: structure, type de langue,… Type de sujet: ordinaire, spécialisé. Type de sujet: ordinaire, spécialisé. Facteurs dintentions: Facteurs dintentions: Audience: ciblée, non ciblée Audience: ciblée, non ciblée Utilisation: Tache (recherche, sommaire,…) Utilisation: Tache (recherche, sommaire,…) Facteurs de sortie: Facteurs de sortie: Contenu: tous le sujet ou bien le sujet central Contenu: tous le sujet ou bien le sujet central Style: indicatif, informatif,.. Style: indicatif, informatif,..

35 35 Approches étalon Approche aléatoire Approche aléatoire On sélectionne n phrases au hasard dans le document On sélectionne n phrases au hasard dans le document Approche en-tête Approche en-tête On sélectionne les n premières phrases du document On sélectionne les n premières phrases du document

36 36 Approche basée sur la RI Luhn 1958 Luhn 1958 Extrait = phrases significatives Extrait = phrases significatives Une phrase significative contient des mots significatifs (mots-clés) Une phrase significative contient des mots significatifs (mots-clés) Mots significatifs = entre A et B Mots significatifs = entre A et B

37 37 Approches basée sur la structure du texte Edmundson 69 Edmundson 69 Mots-repères (cues) Mots-repères (cues) Mots-bonus: greatest, significant, … Mots-bonus: greatest, significant, … Mots-malus: hardly, impossible, … Mots-malus: hardly, impossible, … Mots-titre Mots-titre Mots-clés se trouvant dans le titre et les sous- titres Mots-clés se trouvant dans le titre et les sous- titres

38 38 Approches basée sur la structure du texte Positionnement Positionnement Début du texte Début du texte Fin du texte Fin du texte Première phrase dun paragraphe Première phrase dun paragraphe Dernière phrase dun paragraphe Dernière phrase dun paragraphe Toutes les méthodes! Toutes les méthodes! 1 Mots-repère + 2 Mots-clés + 3 Mots-titre + 4 Positionnement 1 Mots-repère + 2 Mots-clés + 3 Mots-titre + 4 Positionnement

39 39 Évaluation (Edmundson) Corpus dentraînement avec des extraits sélectionnés manuellement (compression 25%) Corpus dentraînement avec des extraits sélectionnés manuellement (compression 25%) Comparaison entre les résumés obtenus manuellement et automatiquement Comparaison entre les résumés obtenus manuellement et automatiquement

40 40 Exemple Pertinence Summarizer Pertinence Summarizer

41 41 Système de traduction automatique du langage texto

42 42 Système de traduction automatique du langage texto Proposé à Université de Franche-Comté – Besançon – FRANCE Proposé à Université de Franche-Comté – Besançon – FRANCE Apparition du langage texto avec le développement des nouvelles formes de communication écrite : Apparition du langage texto avec le développement des nouvelles formes de communication écrite : Sur internet : chat, forum de discussion, courrier électronique ( ) Sur internet : chat, forum de discussion, courrier électronique ( ) Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés ) Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés )

43 43 Le langage texto : caractéristiques simplification de la langue simplification de la langue une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse Objectif: Objectif: Être concis et compris Être concis et compris Besoin dun traducteur et correcteur automatique Besoin dun traducteur et correcteur automatique

44 44 Traduction automatique Utilité d'un tel système : Utilité d'un tel système : Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% lont été par les 8-24 ans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] ) Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% lont été par les 8-24 ans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] ) Connaître les nouvelles tendances de troncation, de symboles utilisés. Connaître les nouvelles tendances de troncation, de symboles utilisés. Si on ne connait pas la norme alors difficile de lire le texto : Si on ne connait pas la norme alors difficile de lire le texto : gain de temps à écrire gain de temps à écrire perte de temps à déchiffrer perte de temps à déchiffrer

45 45 Traduction automatique Intérêt d'un traducteur automatique Intérêt d'un traducteur automatique C T ki ? --> c'était qui ? C T ki ? --> c'était qui ? kestufé ? --> qu'est-ce que tu fais ? kestufé ? --> qu'est-ce que tu fais ? Publicité pour Nokia, 2002 : Publicité pour Nokia, 2002 :

46 46 La démarche Bi-directionnel : français-texto / texto-français Bi-directionnel : français-texto / texto-français Architecture générale Architecture générale Trois étapes : Trois étapes : 1 : lecture du texte source 1 : lecture du texte source 2 : langage pivot 2 : langage pivot 3 : génération du texte cible 3 : génération du texte cible

47 47 La démarche Etape 1 : Lecture du texte source Etape 1 : Lecture du texte source L'utilisateur entre son texte : L'utilisateur entre son texte : Soit sous forme texto : Soit sous forme texto : HT du p1 E D poiro (acheter du pain et des poireaux) HT du p1 E D poiro (acheter du pain et des poireaux) Soit en français : Soit en français : J'ai une bonne idée (G 1 bon ID) J'ai une bonne idée (G 1 bon ID)

48 48 La démarche Etape 2 : Langage pivot Etape 2 : Langage pivot Transcription à l'aide d'un système de règles Transcription à l'aide d'un système de règles Utilisation d'un langage pivot adéquat Utilisation d'un langage pivot adéquat

49 49 La démarche Etape 3 : Génération du texte cible Etape 3 : Génération du texte cible A partir du langage pivot : A partir du langage pivot : Système de règles pour générer le texte Système de règles pour générer le texte Système de validation des formes produites Système de validation des formes produites Pour sms-français : désambiguïsation lexico-syntaxique et sémantique Pour sms-français : désambiguïsation lexico-syntaxique et sémantique Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité) Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité)

50 50 Exemple Phrase de départ : G 1 ID Phrase de départ : G 1 ID Langage pivot : Langage pivot : G –> Ze G –> Ze 1 –> U~/ yn 1 –> U~/ yn ID –> ide ID –> ide Génération du Français : Génération du Français : Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai... Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai... U~/ –> un, ein, ain, in... U~/ –> un, ein, ain, in... yn –> une, hune... yn –> une, hune... –> une, hune... –> une, hune... Ide –> idé, idée, idai... Ide –> idé, idée, idai...

51 51 Exemple Validation lexicale : Validation lexicale : J'ai un/une idée(s) J'ai un/une idée(s) Jet un/une idée(s) Jet un/une idée(s) Geai un/une idée(s) Geai un/une idée(s) Jais un/une idée(s) Jais un/une idée(s) Analyses morpho-syntaxiques et sémantiques : Analyses morpho-syntaxiques et sémantiques : J'ai un/une idée(s) J'ai un/une idée(s) Jet un/une idée(s) Jet un/une idée(s) Geai un/une idée(s) Geai un/une idée(s) Jais un/une idée(s) Jais un/une idée(s)

52 52 Traitement de la parole 1. Reconnaissance vocale 2. Synthèse vocale

53 53 Traitement de la parole Définition: des techniques permettent notamment de réaliser des interfaces vocales c'est-à-dire des IHM où une partie de l'interaction se fait à la voix Définition: des techniques permettent notamment de réaliser des interfaces vocales c'est-à-dire des IHM où une partie de l'interaction se fait à la voix Constituée de: Constituée de: Reconnaissance vocale Reconnaissance vocale Synthèse vocale Synthèse vocale Identification de locuteur Identification de locuteur Vérification de locuteur Vérification de locuteur

54 54 Traitement de la parole(exemples) Dictée vocale sur PC: a pour difficulté, la taille de vocabulaire et la taille des phrases Dictée vocale sur PC: a pour difficulté, la taille de vocabulaire et la taille des phrases Applications téléphonique de type serveur vocal: a pour difficulté, la nécessité de reconnaître nimporte quelle voix dans toutes les conditions. Applications téléphonique de type serveur vocal: a pour difficulté, la nécessité de reconnaître nimporte quelle voix dans toutes les conditions.

55 55 La reconnaissance vocale La reconnaissance vocale sert à retranscrire les mots prononcés par un locuteur lors de traitement de textes. Cette fonction permet à lutilisateur un gain de temps considérable. La reconnaissance vocale sert à retranscrire les mots prononcés par un locuteur lors de traitement de textes. Cette fonction permet à lutilisateur un gain de temps considérable. « Parlez à votre ordinateur et il retranscrit vos paroles à lécran » : reconnaissance des 10 chiffres, par un dispositif câblé : IBM lance son premier système de reconnaissance vocale sur PC : lancement de la dictée vocale en continue par IBM

56 56 Les principes de fonctionnement Principe de fonctionnement Principe de fonctionnement

57 57 Les principes de fonctionnement 1. Le locuteur émet une phrase, une fois le son émis, il est capté par un microphone. 2. Le signal vocal est ensuite numérisé à laide dun convertisseur analogique-numérique. 3. Le paramétrage du signal permet davoir une empreinte. 4. Le décodage consiste à décrire le signal acoustique en termes dunités linguistiques. Il a pour but de segmenter le signal, lidentification des différents segments se fait en fonction des contraintes phonétiques et linguistiques.

58 58 Principe Traitement acoustique: numériser le signal de parole sous forme de vecteurs acoustiques de 30 ms par les techniques de traitement du signal Traitement acoustique: numériser le signal de parole sous forme de vecteurs acoustiques de 30 ms par les techniques de traitement du signal Apprentissage automatique: réalise une association entre les segments élémentaires de paroles et les éléments lexicaux par la technique des Modèles MARKOV cachés ou réseaux de neurones Apprentissage automatique: réalise une association entre les segments élémentaires de paroles et les éléments lexicaux par la technique des Modèles MARKOV cachés ou réseaux de neurones Reconnaissance: en concaténant les segments élémentaires de paroles précédemment appris reconstitue le discours le plus probable Reconnaissance: en concaténant les segments élémentaires de paroles précédemment appris reconstitue le discours le plus probable

59 59 Les facteurs

60 60 Les mots isolés La phase dapprentissage : Le locuteur prononce lensemble du vocabulaire souvent plusieurs fois afin de créer un dictionnaire de référence. La phase dapprentissage : Le locuteur prononce lensemble du vocabulaire souvent plusieurs fois afin de créer un dictionnaire de référence. La phase de reconnaissance : Le locuteur un mot énoncé auparavant. La phase de reconnaissance : Le locuteur un mot énoncé auparavant. Pour reconnaître les mots émis par le locuteur il y a trois parties : Pour reconnaître les mots émis par le locuteur il y a trois parties : Le CAPTEUR permettant dappréhender le phonème physique considéré, nous dans notre cas cest le microphone.Un signal est émis au microphone lorsque le locuteur parle. Le CAPTEUR permettant dappréhender le phonème physique considéré, nous dans notre cas cest le microphone.Un signal est émis au microphone lorsque le locuteur parle. La PARAMETRISATION des formes qui nous donne une empreinte cest- à-dire la caractéristique du son (Temps/Fréquence/Intensité). La PARAMETRISATION des formes qui nous donne une empreinte cest- à-dire la caractéristique du son (Temps/Fréquence/Intensité). Et enfin lIDENTIFICATION des formes Et enfin lIDENTIFICATION des formes « Tout les mots prononcés sont séparés par des silences de durée supérieures à quelques dixièmes de seconde ». « Tout les mots prononcés sont séparés par des silences de durée supérieures à quelques dixièmes de seconde ».

61 61 La parole continue 1ère approche : ASCENCANTE 1ère approche : ASCENCANTE Reconstruction de la phrase à partir du signal. On se contente de le décrypter, cette approche est souvent utilisée pour un vocabulaire très restreint. Reconstruction de la phrase à partir du signal. On se contente de le décrypter, cette approche est souvent utilisée pour un vocabulaire très restreint. 2ème approche : DESCENDANTE 2ème approche : DESCENDANTE Une sorte de prédiction du mot quil va falloir reconnaître. Cette approche permet à ne pas avoir à tester tout le dictionnaire de la machine Une sorte de prédiction du mot quil va falloir reconnaître. Cette approche permet à ne pas avoir à tester tout le dictionnaire de la machine « Cest un discours de phrases où les mots senchaînent sans moyen de se séparer, contrairement aux mots isolés ». « Cest un discours de phrases où les mots senchaînent sans moyen de se séparer, contrairement aux mots isolés ».

62 62 Applications Chaque application a ses propres caractéristiques et ses performances : Chaque application a ses propres caractéristiques et ses performances : Débit du flux de la parole. Pause entre les mots (mots isolés) ou non (parole continue). Débit du flux de la parole. Pause entre les mots (mots isolés) ou non (parole continue). Taille du vocabulaire reconnu. Taille du vocabulaire reconnu. Acceptation du bruit de fond. Acceptation du bruit de fond.

63 63 Applications n IMB : Avec un taux de reconnaissance à 97%, la dictée dIBM est assez performante avec pour cadence 70 à 100 mots par minute.Par contre ce logiciel est incapable de retrouver le découpage des mots par leur sens comme pourrait le faire le cerveau humain. Avec un taux de reconnaissance à 97%, la dictée dIBM est assez performante avec pour cadence 70 à 100 mots par minute.Par contre ce logiciel est incapable de retrouver le découpage des mots par leur sens comme pourrait le faire le cerveau humain. n Dragon Naturally Speaking : Ce logiciel est à la pointe de la technologie qui est marquée par une avancée très significative.Il permet une diction la plus naturelle possible, sans avoir à marquer de pauses entre les mots avec une cadence denviron 130 mots par minute et même voir plus.Il possède un dictionnaire très varié ( mots) qui recouvre un vocabulaire accessible à tous. Et surtout, il peut accueillir plusieurs locuteurs. Ce logiciel est à la pointe de la technologie qui est marquée par une avancée très significative.Il permet une diction la plus naturelle possible, sans avoir à marquer de pauses entre les mots avec une cadence denviron 130 mots par minute et même voir plus.Il possède un dictionnaire très varié ( mots) qui recouvre un vocabulaire accessible à tous. Et surtout, il peut accueillir plusieurs locuteurs.

64 64 Synthèse vocale La synthèse vocale est une technologie qui permet d'automatiser la production d'une parole artificielle par une machine. La synthèse vocale est une technologie qui permet d'automatiser la production d'une parole artificielle par une machine. Processus qui permet de transformer un message symbolique ou un ensemble de paramètres de commandes, en message acoustique. Processus qui permet de transformer un message symbolique ou un ensemble de paramètres de commandes, en message acoustique. Synthèse à partir du texte :Text to speech Synthèse à partir du texte :Text to speech

65 65 Applications – lecture d s ou de fax – sorties vocales pour tout type d information présente dans une Base de Données – sorties vocales pour tout type d information présente dans une interface – livres et sites web parlants – Utile pour les mal-voyants ou en cas d éclairage insuffisant

66 66 Situations favorables Message court Message court Interprétation du message simple (pas de répétition à la demande de l usager) Interprétation du message simple (pas de répétition à la demande de l usager) Action relative au message immédiate Action relative au message immédiate Les conditions ne favorisent pas la représentation visuelle (mauvais éclairage, Les conditions ne favorisent pas la représentation visuelle (mauvais éclairage, l utilisateur bouge fréquemment, écran déjà surchargé d informations visuelles) L opérateur à les mains occupées L opérateur à les mains occupées

67 67 Situations défavorables Messages trop longs Messages trop longs – lecture préférable alors… – lecture préférable alors… Messages complexes par le sens quils Messages complexes par le sens quilsvéhiculent – schéma ou explication textuelle détaillée – schéma ou explication textuelle détailléepréférables Environnement très bruyant Environnement très bruyant Confidentialité nécessaire Confidentialité nécessaire

68 68 Les différentes générations Synthèses vocales par règles (formants): générer un spectre sonore artificiel à partir duquel on génère le signal acoustique de synthèse Synthèses vocales par règles (formants): générer un spectre sonore artificiel à partir duquel on génère le signal acoustique de synthèse La seconde génération: consisté à assembler des petits segments élémentaires de parole naturelle pour constituer n'importe quel énoncé synthétique souhaité. La seconde génération: consisté à assembler des petits segments élémentaires de parole naturelle pour constituer n'importe quel énoncé synthétique souhaité. synthèse vocale par diphones: Les sons synthétisés sont en fait des segments d'enregistrement de parole artificiellement attachés les uns à la suite des autres synthèse vocale par diphones: Les sons synthétisés sont en fait des segments d'enregistrement de parole artificiellement attachés les uns à la suite des autres

69 69 Techniques de synthèse Traitements linguistiques: Traitements linguistiques: 1. Le prétraitement du texte 2. La transcription orthographique 3. Lanalyse grammaticale et lexicale 4. Lanalyse prosodique Traitements acoustiques: Traitements acoustiques: 1. Les méthodes de fabrication du signal 2. Modifications des paramètres prosodiques

70 70 Synthèse à partir de texte

71 71 Dautres types de synthèses Synthèse par assemblage de mots Synthèse par assemblage de mots Synthèse par unité stockées Synthèse par unité stockées Synthèse audio visuelle Synthèse audio visuelle Le mouvement des lèvres Le mouvement des lèvres Agents visuels Agents visuels

72 72 Conclusion Explosion du domaine Explosion du domaine Intégration des technologies connexes Intégration des technologies connexes Traitement en langue naturelle Traitement en langue naturelle Recherche dinformation Recherche dinformation Linguistique Linguistique Avenir prometteur Avenir prometteur Encore beaucoup de travail Encore beaucoup de travail

73 73 Bibliographie aturel aturel aturel aturel ouvertes.fr/docs/00/03/07/47/PDF/b52p165.pdf ouvertes.fr/docs/00/03/07/47/PDF/b52p165.pdf ouvertes.fr/docs/00/03/07/47/PDF/b52p165.pdf ouvertes.fr/docs/00/03/07/47/PDF/b52p165.pdf network.org/archive/ /01/Usunier_RsmTxt.pdf network.org/archive/ /01/Usunier_RsmTxt.pdf network.org/archive/ /01/Usunier_RsmTxt.pdf network.org/archive/ /01/Usunier_RsmTxt.pdf /Benguigui-Ismais-Hamdan.pdf /Benguigui-Ismais-Hamdan.pdf /Benguigui-Ismais-Hamdan.pdf /Benguigui-Ismais-Hamdan.pdf …


Télécharger ppt "1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL."

Présentations similaires


Annonces Google