1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique 2004-2005 Semestre dhiver.

Slides:



Advertisements
Présentations similaires
Sintaks : Tentative de guide de mise en œuvre Michel Hassenforder.
Advertisements

12 règles d’ergonomie web
La recherche documentaire
Les déterminants des investissements des salariés dans les FCPE d’Actionnariat Salarié Monsieur le Président, messieurs les membres du jury, je vous remercie.
D Gile 0 introrechemp1 COURS DE TRADUCTOLOGIE – LA RECHERCHE EMPIRIQUE EN TRADUCTOLOGIE
1 Programmation dapplications BD WEB : un tutoriel Bruno Defude GET-INT Evry
Résolution de problèmes et logiciel de calcul symbolique
Algorithmes et structures de données avancés
RECONNAISSANCE DE FORMES
GEF 435 Principes des systèmes d’exploitation
Urbanisation de Système d'Information
Stratégie de formation
Performances 1 Évolution : Performance. Performances 2 Évolution : Mémoire.
1 DISIC Option Systèmes Intelligents / Données, Documents et Connaissances DISIC Option Systèmes Intelligents / Données, Documents et Connaissances.
Présentation de l’enseignement de « Gestion et Information » Présentation conçue par : Sophie Da Costa Philippe Louchet Éric Noël Marie-Claude Rialland.
Girard Pia & Laffont Caroline
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Systèmes Experts implémentation en Prolog
Un exemple de séquence pédagogique
HORAIRES HEBDOMADAIRES PROPOSES Spécialité Gestion 3 heures en classe entière 2 heures en demi - groupe Soit 5 heures - élève Spécialité Communication.
1 Démarche dinvestigation Epreuve Pratique en S. 2 Culture scientifique acquise au collège A lissue de ses études au collège, lélève doit sêtre construit.
1 B Système Enjeux et principes Cours DESS Nantes 04 Décembre 2002 Didier ESSAME.
1 Nicolas Fressengeas - Utilisation du calcul formel automatique dans l'enseignement de l'électromagnétisme Supélec - Campus de Metz Expérience lors du.
Maîtrise des données et des métadonnées de l’ODS
Brevet des collèges Session 2008.
Travaux pratiques sur Nooj
Les personas : une méthode pour l’intelligence client ?
1 Théorie des Graphes Cycle Eulérien. 2 Rappels de définitions On dit qu'une chaîne est un chemin passant par toutes les arêtes du graphe. On dit qu'un.
LES TICE AU COLLEGE.
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Approche critique des produits IdL Master 1 IdL Année
Des ressources pour l'enseignement en langue des signes aux élèves sourds Patrice DALLE • IRIT-UPS (Toulouse 3) •
le profil UML en temps réel MARTE
Besoin et fonctionnement
Certificat Informatique et Internet
Méthode des k plus proches voisins
La voyage de Jean Pierre
Bases de données lexicales
SCIENCES DE L ’INGENIEUR
Informatique 2 Structure de données en programmation orientée objet
Reconnaissance Vocale
IGL301 - Spécification et vérification des exgiences 1 Chapitre 1 Introduction (ref : Bray chapitre 1)
Informatique 3 Méthodes Empiriques en Linguistique Informatique
Procédure d’admission LME
Ecaterina Giacomini Pacurar
Notre calendrier français MARS 2014
An Introduction to distributed applications and ecommerce 1 1 Les services Web, XML et les places de marchés.
Les Arbres de décision ou régression
Chapitre 3 Syntaxe et sémantique.
Introduction théorie et pratique
SOCLE COMMUN AU COLLEGE. Loi dorientation et de programme pour lAvenir de lEcole (23 avril 2005):
Filtrage de Kalman et aperçu probabiliste
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ANALYSE METHODE & OUTILS
Création et présentation d’un tableau avec Word 2007
DEMARCHE ERGONOMIQUE.
Formation instituteurs Séquence : Tu assimiles de nouvelles connaissances Cours du Professeur Iacobellis
Algorithmique et programmation (1)‏
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Algorithmes et Programmation
( ) Collège de Maisonneuve
GPA-779 Application des systèmes experts et des réseaux de neurones.
Le Traitement Automatique des Langues (TAL)
Préparation d’un mémoire
A. de Crombrugghe0 Intro-méthode1 FAITS ET DECISIONS ECONOMIQUES Prof. Alain de Crombrugghe Année Académique ECGE B170 UNIVERSITE DE NAMUR FACULTE.
Atelier de réflexion pédagogique 20 octobre 2011 Le renforcement des prérequis: l’expérience de la Faculté des Sciences économiques, sociales et de gestion.
Transcription de la présentation:

1 Informatique 3 Méthodes Empiriques en Linguistique Informatique Paola MERLO Année académique Semestre dhiver

2 Objectifs du cours Apprentissage de UNIX/LINUX et du langage de programmation Perl Introduction à l'utilisation d'un corpus Introduction aux méthodes d'apprentissage automatique et statistique en TALN

3 Évaluation Attestation - éxecution et présentation d'un projet TALN en LINUX/Perl Examen écrit (étudiant(e)s de licence, Lettres et Sciences) - attestation requise avant lexamen pour se présenter à lexamen - théorique et pratique: il faut 4 dans les deux parties pour passer N.B. Les étudiants qui seraient intéressé-e-s à faire le mémoire avec moi doivent avoir obtenu au moins 5 à lexamen.

4 Horaires CoursMercredi h TPMercredi h Enseignants CoursPaola MERLORéception Mardi h TPPaola MERLO Gabriel MUSILLO Réception Jeudi h Salles CoursL208 TPB319

5 Conditions dadmission Sont admis au cours les étudiants de 2e cycle en Lettres (branche A et B) et les étudiants de 2e cycle de la faculté des Sciences. Ceci n'est pas un cours d'introduction à la programmation. Si vous n'avez pas de bonnes bases en programmation structurée, vous ne pouvez pas suivre ce cours. Les auditeurs doivent obtenir ma permission pour assister au cours.

6 Supports du cours Transparents (sur la page web: Polycopiés (parfois) Vos notes Un choix énorme de tutoriels et cours sur le Web

7 Bibliographie PerlLarry Wall et Randal Schwartz, Programming Perl, O'Reilly Associates Ellie Quigley, Perl by example, Prentice Hall Jeffrey Friedl, Mastering Regular Expression, O'Reilly Associates Approche Corpus Benoît Habert, Adeline Nazarenko, et André Salem, Les linguistiques de corpus, Armand Colin Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press Méthodes empiriques et statistiques Christopher Manning et Hinrich Schuetze, Foundations of Statistical Natural Language Processing, MIT Press Daniel Jurafsky et James Martin, Speech and Language Processing, Prentice Hall

8 Bibliographie sur le web (en francais) Cours Perl Cours sans exercices, avec quelques exemples. Assez clair. Avec des exercices. Niveau très basique. Avec quelques exercices et des exemples. Assez clair. Documentation Perl (en français, mais pas complet) (référence officielle en anglais, complète et à jour) Cours Perl et Unix Très basique. Avec des exercices. Cours avancé Unix Pas dexercices ni dexemples. Assez clair.

9 Programme détaillé du cours Introduction: le TALN, les approches basées sur les corpus, quelques exemples des problèmes et solutions avec ces approches. Méthodes quantitatives: données qualitatives et quantitatives. La notion de distribution de fréquence, la distinction entre type et token, la loi de Zipf, les n-grammes. Données textuelles: qu'est-ce qu'un corpus, corpus balisé, exemples de corpus textuels: la Penn Treebank, le British National Corpus, le corpus.

10 Programme détaillé du cours Perl, un langage de programmation pour les données textuelles: Les bases: variables, structures de données, gestion du contrôle. Les expressions rationnelles (régulières): théorie et pratique. Les tableaux associatifs (Hash Tables). Les données textuelles comme base pour l'évaluation: les mesures de précision, de rappel et dexactitude.

11 Programme détaillé du cours Introduction à l'apprentissage automatique: l'approche d'apprentissage automatique aux problèmes de TALN. Les méthodes d'apprentissage symbolique: les arbres de décisions. L'apprentissage du lexique: la classification automatique des verbes en classes sémantiques.

12 Programme détaillé du cours Introduction à la théorie des probabilités: probabilité simple et probabilité conditionnelle; le théorème de Bayes; variables aléatoires et fonctions de probabilité. Modèle probabiliste pour L'apprentissage automatique : applications au TALN L'apprentissage automatique des rôles thématiques. Désambiguïsation des classes des verbes. Désambiguïsation des mots.

13 Le Traitement du Langage Naturel Le TALN Les approches basées sur les corpus Quelques exemples de problèmes et solutions

14 Le Traitement du Langage Naturel Qu'est­ce que l'analyse du langage naturel ? L'analyse du langage naturel tente de donner à un ordinateur la faculté de comprendre des langues naturelles comme l'anglais, le français ou le japonais. Par « comprendre », nous ne voulons pas faire croire que l'ordinateur acquiert un mode de pensée, des sensations et des connaissances humaines. Nous voulons seulement dire que l'ordinateur peut reconnaître et utiliser des informations exprimées à l'aide d'une langue naturelle.

15 Applications du TALN L'anglais comme langage de commande -- c'est­à­dire l'usage d'une langue naturelle en lieu et place d'un langage artificiel comme c'est encore le cas dans les langages de commande des ordinateurs. Les banques de données et les environnements d'aide peuvent accepter des requêtes en anglais. La traduction assistée par ordinateur de documents scientifiques et techniques ou bien d'informations commerciales d'une langue naturelle vers une autre. La génération automatique de banques de données à partir de documents techniques, tels que des rapports de pannes ou des rapports médicaux.

16 Applications du TALN Aide à la Rédaction correction des textes génération de textes Recherche documentaire Filtrage/classification d'information Résumé automatique, pour un seul document, pour plusieurs documents sur le même sujet

17 Le Langage Naturel Les langages formels (programmation, mathématique) sont par définition explicites et non ambigus. Les langages naturels sont par contre implicites et ambigus. Implicite Enlevez les noyaux des cerises et mettez les sur la tarte. Le voisin a caressé le chat; ma femme aussi. Ambigu La belle brise la glace. Les experts ont analysé la croissance de la consommation. Les experts ont dissocié la croissance de la consommation.

18 Les Fonctions du Langage Naturel Les langages naturels ont une fonction de communication. Concision L'étudiant a remis sa copie au professeur qui lui a dit qu'elle aurait pu être mieux. L'étudiant a remis la copie de l'étudiant au professeur. Le professeur a dit à l'étudiant que la copie de l'étudiant aurait pu être mieux. Connaissances Partagées Peux-tu descendre un avocat? Un de ceux achetés ce matin?Des ennuis? Oui, c'est pour midi.Mmm,passons. Alors, combien?

19 Les Fonctions du Langage Naturel Les langages naturels ont une fonction de représentation. Pouvoir expressif non-limité N'importe quel niveau logique La terre est ronde. Tous les hommes sont des machos. Tous ce qui est trop vite fait est bâclé. Même incompréhensible En suivant la logique de la polarité antagoniste, nous dirons que nous entrons dans une sorte d'état T où une mi-actualisation et une mi-potentialisation imaginaire/rationnel-réel tendent vers un équilibre dynamique.

20 Les Propriétés des Applications TAL Deux grands contextes d'application correspondant aux deux fonctions essentielles du langage Outils de communication application dans le domaine des interfaces Une contrainte importante d'application est ici le traitement en temps réel (max. 300ms/mot) Formalisme de représentation des connaissances Applications dans le domaine de la recherche d'information Performance encore faibles On compense avec la capacité de traiter de volumes importants de données (10K documents par jour)

21 Les principales contraintes imposées par les contextes d'application sont donc: Traitement rapide Cela nécessite des algorithmes de complexité polynomiale. Systèmes permettant une bonne couverture de la langue considérée Cela nécessite des ressources linguistiques représentatives en quantité suffisante. Les Propriétés des Applications TAL

22 Lapproche à base de corpus Les ressources linguistiques représentatives en quantité suffisante sont très difficiles et chères à construire. On ne cherche plus à reproduire la compétence à l'aide de modèles formalisant notre compréhension du langage mais à reproduire, pour une classe d'applications TAL donnée, la performance linguistique associée, et ce, à l'aide de modèles automatiquement extraits de volumes importants de données textuelles caractéristiques de la classe d'application envisagée.

23 Lapproche à base de corpus La validation des modèles obtenus n'est pas liée à leur capacité explicative du fonctionnement de la langue mais repose sur l'évaluation de l'amélioration des performances que permettent ces modèles pour l'application TALN envisagée Données textuelles Système réalisant l'application TAL envisagée CORPUS TEXTUEL Modèle Résultats Validation Expert

24 Exemple: Attachement du SP Je mange la pizza avec un couteau. Je mange la pizza avec le fromage. Avant: modélisation des connaissances linguistiques et extra- linguistiques nécessaires à enlever l'ambiguïté. Par exemple, sémantique du verbe et du syntagme prépositionnel (SP): verbe d'action ou verbe d'état? SP instrumental ou de manière? ou spécification? Connaissance du monde: est-ce qu'on mange du couteau et on coupe avec du fromage?

25 Exemple: Attachement du SP Je mange la pizza avec un couteau. Je mange la pizza avec le fromage. Méthode à l'aide de corpus P(mange, avec, couteau) vs. P(pizza, avec, couteau) P(mange, avec, fromage) vs. P(pizza, avec, fromage)

26 Avantages Acquisition: identification et encodage automatique des connaissances nécessaires. Couverture: on couvre automatiquement tous les phénomènes linguistiques dans le domaine d'application donné. Robustesse: on s'adapte facilement au bruit et aux données imprévues. Portabilité: en principe, assez facile à étendre vers une nouvelle langue. Évaluation: on arrive à évaluer de façon expérimentale des systèmes pratiques et des hypothèses scientifiques.

27 Résumé du cours Le TALN tente de donner à un ordinateur la faculté de « comprendre » les langues naturelles (anglais, français, etc.) Ses applications sont l'interfaçage avec les grandes bases des données, la traduction automatique ou assistée, la génération automatique des documents, la recherche et le filtrage documentaire, le résumé automatique, … Propriétés des LN: ambiguës et implicites Fonctions des LN: communication et représentation Approche corpus: ressources linguistiques en grande quantité acquisition automatique de connaissances langagières accent sur la performance et l'évaluation systématique