Sous lencadrement : Catherine RECANATI HENCHIR Mohamed Ali EID – IHM IHM 2011-2012 Traitement automatique de langage (TAL)

Slides:



Advertisements
Présentations similaires
Le point sur l’apprentissage de la lecture au CP
Advertisements

Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Dans l'ouvrage PHONO qui vise le développement des compétences phonologiques des élèves de GS et CP, GOIGOUX - CEBE - PAOUR ont mis en oeuvre les principes.
Prof. Assist. Dr Penphan THIPKONG
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Licence 2 Option de découverte (1L4INJM) APPLICATIONS INFORMATIQUES POUR LINTERACTION HOMME-ROBOT Responsable : Julien PINQUIER
Proposition de stratégie
Produire des écrits en GS
Alexandre Gefen (CNRS-Université Paris 4-Sorbonne)
Urbanisation de Systèmes d'Information
L'album support des apprentissages de la lecture au cycle II
Apprendre à lire à l’école primaire
L’apprentissage de la lecture: Le CP
TRAITEMENT AUTOMATIQUE DES LANGUES : LES PRINCIPAUX PROGRAMMES
Girard Pia & Laffont Caroline
Par Aline Mahot et Charlyne Routier
EVALUATIONS NATIONALES CM2
Apprendre à lire.
Apprentissage continué de la lecture au Cycle 2
Comprendre le fonctionnement du code écrit
Apprentissage continué de la lecture au Cycle 2
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Reconnaissance de la parole
Présentation du SVI - DELSOL Mikaël
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
TAL (Traitement automatique du langage)
La prévention des difficultés d’écriture
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
Repérer les élèves en difficulté
Bases de données lexicales
Recherche Documentaire et traitement de l’information
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Cadre européen commun de référence pour les langues
Repérage des Difficultés du Langage écrit au CM1
Conscience phonologique
Reconnaissance Vocale
Présentation du mémoire
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Forum des Industries de la Langue, 17 mars 2010
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Qu'est ce que savoir lire ?
DISPOSITIF DÉVALUATION CE1 Version 2007 Ref.: circulaire n° du ; BO n°30 du
Programmation non procédurale Le projet ECOLE 2000
L’approche du code au cycle 2
Traitement de la parole : Synthèse et reconnaissance
Human Knowledge La nouvelle génération de moteurs sémantiques.
Algorithmes et Programmation
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
GSD langue française - Boumerdès 19 et 30 avril 2013

Dominique LAURENT Patrick SEGUELA
Recherche d’information
Présentation RFIA janvier 2002
Éducation. Éducation definition L'éducation est, étymologiquement, l'action de « guider hors de », c'est-à-dire développer, faire produire. Il signifie.
Les besoins linguistiques
Introduction de Mme Safra IGEN Conférence du 22 mai 2006.
TEXT MINING Fouille de textes
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Le Traitement Automatique des Langues (TAL)
Programmes 2015 Graphisme…
Introduction aux Interfaces Homme-Machine
1 Ecrire par et sur le Net Recherche subsidiée par la Communauté française de Belgique Comment associer les TIC à l'apprentissage de l'écriture ? Véronique.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Sous lencadrement : Catherine RECANATI HENCHIR Mohamed Ali EID – IHM IHM Traitement automatique de langage (TAL)

Plan de la présentation IHM I. Introduction (définition TAL) II. Historique III. Les différents niveaux de la langue IV. Applications de TAL V. Conclusion

Qu'est-ce que le TAL ? IHM

Qu'est-ce que le TAL ? IHM Définition : est une discipline à la frontière de la linguistique de linformatique et de lintelligence artificielle qui concerne l'application de programmes et techniques informatiques à tous les aspects du langage humain. Wikipédia Le TAL : une meilleure "compréhension" de la langue naturelle par la machine Langage naturel : Non formel Ambigu Implicite Redondant

HISTORIQUE IHM Années 50: Traduction automatique - débuts du TAL 1964 Rapport ALPAC Années 60: Linguistique formelle (Chomsky, Montague) comme base pour le TAL. Applications basées sur des techniques linguistiques (Eliza, shrdlu) Chomsky (grammaires formelles, analyseurs syntaxiques); sémantique procédural (Woods). Approches limitées à des domaines restreint. Non portables. Années 70: Premières applications Années 80: Approches symboliques. Applications utilisent des connaissances linguistiques et encyclopédiques extensives. Manquent de robustesse. Années 90 et plus: Premiers corpus, approches statistiques, apprentissage automatique. Applications utilisent corpus de grande taille et méthodes statistiques

Historique IHM Natural Language Processing Automatic Translation Information Extraction

À quoi sert le TAL ? IHM La traduction automatique La correction orthographique Le résumé automatique L'aide à la rédaction La reconnaissance vocale Les agents conversationnels La génération automatique de textes La recherche d'information et la fouille de textes La veille technologique (extraction d'information...) L'aide aux handicapés (claviers auto-correcteurs, synthèse de la parole, …) La reconnaissance de l'écriture manuscrite

Les acteurs du domaine IHM Des gros éditeurs : IBM, Microsoft, Xerox, Apple, Toshiba, Sony, Google, Yahoo, Orange, etc. Des intégrateurs / utilisateurs : Ford, Symantec, EADS, Thalès/Arisem, BBN, SRI, EC, etc Des PME françaises : Exalead, Temis, ACapella, Lingway, Sinequa, Synapse, Systran, Reverso/Softissimo, Vecsys, Pertimm, Mondeca, etc. Des labos de recherche : John Hopkins, Stanford, Berkeley, MIT, U. Maryland, Columbia, NYU, Cambridge, Edimbourg, AixlaChapelle, Stuttgart, Paris Diderot, etc …

Les différents niveaux de la langue IHM La phonétique et la phonologie Comment les mots et les phrases sont liés aux sons qui les réalisent à loral 2. La morphologie Comment les mots sont construits et quels sont leurs rôles dans la phrase 3. La syntaxe Comment les mots se combinent pour former des syntagmes, puis des propositions et enfin des phrases correctes 4. La sémantique Comment les mots font du sens lorsquils sont insérés dans une phrase (indépendamment du contexte) 5. La pragmatique Comment les phrases peuvent être interprétées selon leur contexte dénonciation (interlocuteurs, phrases précédentes, connaissance commune du monde,...)

Formes d'un mot, famille d'un mot IHM Flexion Verbale : montrer, montreras... Nominale : cheval, chevaux... forme canonique (lemme) et formes fléchies Dérivation penser/V + able = pensable in + pensable/A = impensable base et dérivé Composition appendice + ectomie = appendicectomie éléments de formation, mot composé

Le niveau lexical IHM But : identifier les éléments lexicaux, leur structure et leurs caractéristiques ; regrouper les formes dune même famille. Reconnaissance des lemmes, des flexions. Moyen : accès lexical direct, analyse morphologique (i.e. décomposition en morphèmes, à partir desquels les propriétés dune forme sont calculées). Outils : un lexique, une description des morphèmes et des procédures de décomposition/recomposition associées. Difficultés : taille du lexique, vitesse daccès et danalyse, représentation du lexique, traitement des mots composés. Résultat : une représentation linéaire ou arborescente du mot, ses caractéristiques morphosyntaxiques, une représentation de sa signification, un représentant de sa famille.

Le niveau lexical (à quoi ça sert ?) IHM

Le niveau lexical (à quoi ça sert ?) IHM

Le niveau lexical (techniques TRÈS différentes !)

APPLICATIONS DU TAL Parmi les applications les plus connues, on peut citer : La traduction automatique (historiquement la première application, dès les années 1950) La correction orthographique La recherche d'information et la fouille de textes Le résumé automatique de texte La reconnaissance d'entités nommées (étant donné un texte, déterminer les noms propres, tels que des personnes ou des endroits)

APPLICATIONS DU TAL IHM La résolution d'anaphores La génération automatique de textes La synthèse de la parole La reconnaissance vocale La détection de registre La classification et la catégorisation de documents La reconnaissance de l'écriture manuscrite…

Les entités nommées IHM Les entités nommées sont des éléments quil est intéressant de pouvoir distinguer du reste du texte : Entités : personnes, organisations, lieux Dates : dates, heures Quantités : montants financiers, pourcentages, etc. Reconnaissance des entités nommées : Identifier ces unités dans un texte Les catégoriser Éventuellement, les normaliser

Les entités nommées IHM Lancien premier ministre socialiste Lionel Jospin a confirmé, jeudi 28 septembre, sur RTL, quil ne sera pas candidat à linvestiture socialiste pour la présidentielle de Identification : Lionel Jospin, jeudi 28 septembre, RTL, Catégorisation : Lancien premier ministre socialiste Lionel Jospin a confirmé, jeudi 28 septembre, sur RTL, quil ne sera pas candidat à linvestiture socialiste pour la présidentielle de Normalisation : L. Jospin Lionel Jospin

Les entités nommées IHM Plus de finesse ? Lancien premier ministre socialiste Lionel Jospin a confirmé, jeudi 28 septembre, sur RTL, quil ne sera pas candidat à linvestiture socialiste pour la présidentielle de Le niveau dépend des capacités du système mais aussi de l'application La reconnaissance d'entités nommées est issue de la tâche plus générale de l'extraction d'information

Les entités nommées IHM

Les entités nommées

Reconnaissance Des Formes IHM Utilisation très diversifiée : Contenu visuel : texte, chèque, code barre, empreinte, visage, … Contenu sonore : reconnaissance de la parole, reconnaissance des émotions dans la voix,… Une machine peut classifier correctement une donnée si elle apprend à le faire

Apprentissage Automatique IHM Partir dun ensemble de données (ensemble dapprentissage) déjà classifiées pour en déduire un modèle de prédiction/ généralisation Ce nest pas apprendre par cœur mais plutôt comprendre les différentes classes de lensemble pour pouvoir associer une donnée inconnue à lune de ces classes Exemple :

Apprentissage Automatique Les méthodes dapprentissage sont diverses. Il existe entre autres types dalgorithmes de classification: - Les arbres de décisions - Les réseaux de neurones - Les SVM (Support Vector Machine)

Arbres de Décision

Réseaux de Neurones

Support Vector Machine

LÉcriture Manuscrite IHM Un acte personnel Grande Variabilité des Styles En-Ligne = Stylo Électronique = Tracé Dynamique Mêmes approches En-Ligne / Hors-Ligne Hors-Ligne = Papier Électronique = Images Document Pen Based Computing Interfaces Mobiles, PDA Courrier Chèques Formulaires

Les Modèles Cognitifs de Lecture IHM Correspondance graphèmes phonèmes Régulateur de Réponse Réponse orale Analyse Visuelle Mot écrit Système de Production Phonémique Code alphabétique Système de Reconnaissance Visuelle de Mots Système Sémantique (Cognitif) Mot oral Code acoustique Système de Reconnaissance Auditive de Mots Correspondance graphèmes phonèmes Analyse Acoustique

Stratégies de Reconnaissance IHM Reconnaissance de symboles Reconstruction de chaînes Segmentation Extraction caractéristiques Image Liste de solutions possibles Vérification dans dictionnaire Contexte Non dirigée par le lexique Voie non lexicale Contexte Reconnaissance de mots Extraction caractéristiques Segmentation Extraction caractéristiques Dirigée par le lexique Voie lexicale

LAdaptation en Apprentissage IHM Adaptation = Apprentissage Supervisé des Classes et Sous-Classes CMI CMC CSI CSC CiCi e / l e [80%] l [20%] CMI CMC CSI CSC CiCi e / l e [80%] l [20%] CMI CMC CSI CSC CiCi e / l e [80%] l [20%] CMI CMC CSI CSC CiCi e / l e [80%] l [20%] e / l Exemples de mots étiquetés Estimation des paramètres: Maximisation Étiquetage: Expectation Modèles adaptés

Analyse de Système reconnaissance IHM Coopération ascendante entre les différents niveaux danalyse Les données sont traitées de manière indépendante Peu/pas dexploitation des propriétés graphiques de lécriture Reconnaissance Mots Pré-Traitements Approches analytiques Reconnaissance globale Combinaison de classifieurs Post- traitements Caractérisation du style décriture Caractérisation du style décriture Image du document Texte reconnu Joseph 95 Vincent 94

Analyses textuelles sur corpus Interprétation Codage CommentairesCorpus codé Résultats Analyses automatisées Analyses statistiques Réorganisations textuelles Autres

Ressources textuelles Corpus codé Résultats Analyses automatisées catégoriseurs Dictionnaires Ontologies Corpus de référence

AVANTAGES / INCONVENIENTS IHM Avantage: Apparaissent dans divers domaines aussi variés que gestionnaires de mails et des moteurs de recherche que lautomobile et les portables Inconvénients: Difficultés de lanalyse du langage naturel Problème des ambiguïtés, des références Exemple 2:

CONCLUSION IHM Le TAL même si ses résultats ne sont pas très connus du grand public, ils n'en sont pas moins considérables. Constituer des ensembles dunités sur la définition desquelles le chercheur peut agir plus aisément le temps dune expérience. Utiliser les données de structure, dalignement, etc. entre les différents éléments de corpus parallèles Résumé vidéo

IHM Merci pour votre attention