Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus,

Slides:



Advertisements
Présentations similaires
L1 Lire avec aisance (à haute voix, silencieusement) un texte
Advertisements

Prof. Assist. Dr Penphan THIPKONG
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Réflexivité et réseaux d’ information
Calcul géométrique avec des données incertaines
RECONNAISSANCE DE FORMES
Enseigner l'anglais : ce que préconisent les Instructions Officielles
Reconnaissance de la parole
Raisonnement et logique
Urbanisation de Système d'Information
Urbanisation de Systèmes d'Information
Cours n°2M2. IST-IE (S. Sidhom) UE 303 Promo. M2 IST-IE 2005/06 Conception dun système d'information multimédia Architecture trois-tiers : PHP/MySQL &
Architecture de réseaux
Le langage en Petite Section Construire des observables IA24 - Pôle maternelle - Jeudi 3 décembre 2009.
L'album support des apprentissages de la lecture au cycle II
l’évolution du langage chez l’enfant
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
EVALUATIONS NATIONALES CM2
Apprendre à lire.
Chap 1 Grammaires et dérivations.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Travaux pratiques sur Nooj
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Présentation du 20 octobre 2012 au Salon Education à Namur
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Adaptation de documents multimédia
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
Le français dans tous les sens
1.2 COMPOSANTES DES VECTEURS
Indices prosodiques caractérisant un style d'élocution et ses variantes individuelles MIDL nov 2004 Paris Jean-Sylvain Liénard Martine Adda-Decker.
La voyage de Jean Pierre
Bases de données lexicales
Recherche Documentaire et traitement de l’information
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Le langage oral en maternelle
SCIENCES DE L ’INGENIEUR
Académie de Versailles - Inspection pédagogique régionale de lettres
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Baccalauréat professionnel Gestion -- Administration
Reconnaissance Vocale
langue/langage Langue/parole/discours langue orale/langue écrite
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Web sémantique : Web de demain
Forum des Industries de la Langue, 17 mars 2010
Chapitre 3 Syntaxe et sémantique.
Chapitre 2 La description du langage
Partie II Sémantique.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
(A. Meurant - UCL )1 Chapitre Quatrième Quelques définitions de base.
Programmation non procédurale Le projet ECOLE 2000
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
L’approche du code au cycle 2
Master 1 – Sciences du Langage –
Rappels de statistiques descriptives
Approches Formelles en Systèmes d'information
Human Knowledge La nouvelle génération de moteurs sémantiques.
Animation Pédagogique FRANCHEVILLE – LYON – S te -FOY 10 Janvier 2007.
Relation d’apprentissage A-Rôle de L1: la L2 est forcément apprise à travers des comparaisons avec la L1 Activités pédagogiques: tout ce qui implique la.
Activités langagières Les questions à se poser. ACTIVITÉS LANGAGIÈRES DE COMMUNICATION: PRODUCTION ORALE EN CONTINU 2 Dote-t-on l’élève de stratégies.
Le Traitement Automatique des Langues (TAL)
Progression/Programmation – Français (1/3)
Les bases de données Séance 3 Construction du Modèle Conceptuel de Données.
Le socle commun. Les langages pour penser et communiquer. Les méthodes et outils pour apprendre. La formation de la personne et du citoyen. Les systèmes.
Le nouveau manuel de FLE allons-y!
CURSUL 9 VI. LES COMPÉTENCES DE L’APPRENANT Le Développement des compétences linguistiques, sociolinguistiques, pragmatiques.
Transcription de la présentation:

Ingénierie des Langues et de la Parole (ILP) Notes de cours Ce cours sera bilingue anglais-français M2R-IAW-SLE-ILP Christian Boitet GETALP, LIG-campus, 385 av. de la bibliothèque, BP 53 F-38041 Grenoble cedex 9, France Christian.Boitet@imag.fr, http://clips.imag.fr/geta, http://www-clips.imag.fr/geta/User/christian.boitet/M2R-SLE-ILP/ accès multilingue : http://service.aximag.fr/xwiki/bin/view/imag/M2R-SLE-ILP-[en|fr]

Diapos pour le cours d’ILP/SLE I. Problématique du traitement automatique des langues naturelles (TALN) I.1 Buts : stocker, étudier, et utiliser les connaissances linguistiques 1.1 Représentation et traitement des textes et corpus i. Systèmes d'écriture et codage ii. Concordances et études diverses iii. Types de corpus stockés (simples, balisés, annotés, arborés, parallèles, oraux, multimodaux…) Ch. Boitet Diapos pour le cours d’ILP/SLE

Représentation, construction et utilisation des dictionnaires i. Représentation des "ressources lexicales" a. Dictionnaires (types divers, mono/multilingues) b. Lexiques (lien avec la terminologie) c. Bases lexicales ii. Construction des ressources lexicales a. Utilisation de ressources existantes b. Extraction à partir de corpus (récent) c. Coopération via le Web (début) iii. Utilisation des ressources lexicales a. Consultation "normale" b. Filtrage et production de sous-ensembles à la volée c. Aides diverses (lecture active…) d. Extraction de dictionnaires d'applications Ch. Boitet Cours CL

Représentation, construction et utilisation de grammaires i. Grammaires et automates ii. Mise au point d'un modèle linguistique iii. Évaluation de théories et applications diverses iv. Utilisations de grammaires et automates a. Correction (orthographique, grammaticale, stylistique…) b. Indexation c. Résumé et extraction d'information d. Traduction e. Génération multilingue Ch. Boitet Cours CL

Applications et recherches actuelles Écrit Correction Indexation RI (recherche d'information) TAO (traduction automatisée par ordinateur) Résumé, classification Questions/Réponses (Q&A) Oral Synthèse de parole Reconnaissance de parole Multimodalité Dialogue Evaluation Ch. Boitet Cours CL

I.3 Problèmes spécifiques du TALN : le non-déterminisme, le flou, la taille Non-déterminisme inhérent à la nature des langues ambiguïtés en analyse synonymie en génération correspondance entre langues conduit à un problème majeur d'explosion combinatoire. Cet aspect distingue très fortement le TALN du traitement des langages formels. Ch. Boitet Cours CL

i. Ambiguïtés Définition: à une représentation à un certain niveau d'abstraction correspond plus d'une représentation à un niveau plus élevé. Exemples. Sources à tous les niveaux, du signal à la pragmatique. ("La porte !"). Ambiguïtés inhérentes à la langue, et ambiguïtés "parasites" provenant des systèmes de description et/ou de traitement eux-mêmes. Caractère fallacieux : les humains ne "voient" pas l'ambiguïté — mais la ressentent quand elle conduit à des incompréhensions, des contresens, et… des accidents. Ch. Boitet Cours CL

ii. Synonymie Définition: à une représentation à un certain niveau d'abstraction correspond plus d'une représentation à un niveau moins élevé. C'est le pendant de l'ambiguïté. Ch. Boitet Cours CL

3.2 Flou i. Impossibilité d'une sémantique "totale" Fait d'expérience : on ne peut jamais "tout exprimer" en langue naturelle. Passage du continu au discret ? Peut-être, mais pas seulement. Zadeh, inventeur de la "logique floue" : il y a un problème central de définissabilité. Voir le site de BISC (Berkeley Initiative on Soft Computing) ii. Impossibilité d'une axiomatisation exacte La langue ne se laisse pas formaliser ou axiomatiser exactement. Elle est intrinsèquement "productive" : à partir de toute axiomatisation proposée, on peut fabriquer des contre-exemples, en surgénération ou en sous-génération. Parallèle avec le caractère productif des formules vraies de l'arithmétique (théorème de Gödel). Nécessité de travailler dans l'approximatif, et donc de concevoir des applications jamais figées, en modification constante, et capables de traiter "l'inconnu". Exemple le plus simple: les "mots inconnus". Ch. Boitet Cours CL

3.3 Taille i. Données lexicales ii. Grammaires et automates Au minimum 6000 entrées de dictionnaire pour la transcription phonétique du français, du thaï… Au minimum 3000 entrées pour la TA : METEO (mots inconnus = toponymes identiques) Environ 50000 entrées générales et 50-100K entrées par domaine en TA (5,44M en ATLAS-II v13) ii. Grammaires et automates 2 pages en SYGMOR pour une génération morphologique et graphémique exhaustive du français 30 pages en ATEF pour une analyse morphologique exhaustive du russe (15000 règles en EnCo!) 150 pages en ROBRA pour une génération structurale du français 400 pages en ROBRA (150 + 300 règles) pour une analyse heuristique du français chiffres comparables avec d'autres LSPL. iii. Corpus Au minimum 1M mots pour la construction de dicos, la TA statistique… LanguageWeaver: 50M mots alignés dans 2 langues pour construire un système de TA Ch. Boitet Cours CL

II. Notions linguistiques de base : les niveaux (de la phonologie à la pragmatique) II.1 La langue et ses aspects classiques 1.1 Peut-on parler de langue ? (langue, langage, dialecte…) 1.2 Lexique et grammaire : notions de base 1.3 Diversité des aspects de la langue II.2 Niveaux de description linguistique Niveaux "structurants" Phonologie Morphologie Syntaxe Sémantique Pragmatique Niveaux d'actualisation Détermination, nombre, genre, personne… Aspect, temps, modalité… Ch. Boitet Cours CL

2.1 Phonologie i. Sons (phonons) ii. Phones iii. Phonèmes Les unités ne se dégagent que par leurs rapports mutuels (Saussure). Notion de « paire distinctive » En allemand, ‘r’ (grasseyé) ≠ ‘ch’ (Ach-laut) En français, ‘r’ (grasseyé) ≈ ‘r’ (roulé) Ch. Boitet Cours CL

2.2 Morphologie i. Graphèmes et morphe Ü et Ue en allemand, morphe = suite de graphèmes (±interprétation) ii. Flexion: formes et lexèmes (lemmes) Déclinaison (noms, adjectifs, participes) et conjugaison (verbes) iii. Dérivation (lexico-sémantique) Une dérivation a 3 niveaux : <sémantique, syntaxique, morphologique> …par ordre d’importance iv. Composition Hauptbahnhofgepäckaufbewahrung (consigne à bagages de la gare principale) Quatre-vingt-dix-huit, composés chimiques… Ch. Boitet Cours CL

2.3 Syntaxe i. Syntagmes ii. Fonctions syntaxiques Groupes de mots ayant une fonction En général connexes, sinon "discontinuité" ii. Fonctions syntaxiques Sujet (réel, formel), objet (direct, indirect), épithète, attribut, complément d'agent, circonstant, modificateur, quantificateur… iii. Relations de dépendance profonde Relations sémantiques ("cas profonds") Différence entre prédicat "linguistique" (syntaxe profonde) et "sémantique" manquer_de (X=I, Y=II) & manquer_à (X=II, Y=I) : MANQUER (I, II) Ch. Boitet Cours CL

2.4 Sémantique i. Prédicats et arguments ii. Relations sémantiques (cas profonds) agent, coagent, objet, coobjet, bénéficiaire, but, cause, moyen, possession, modification, localisation (temps/espace, ubi/quo/unde/qua), concession, mesure, prix, fréquence… iii. Traits sémantiques (propriétés) concret, abstrait, personne, humain, animal, plante, document, contenant, unité de mesure, surface, volume, science, moyen de transport… Ch. Boitet Cours CL

Différences entre arguments et circonstants Les arguments sont uniques et nécessaires (à la compréhension) Si un argument n’est pas exprimé, il faut que l’auditeur/lecteur puisse l’inférer du contexte (ou il le demandera !) Les circonstants sont optionnels et (éventuellement) multiples Il prend chaque jour [temps] un café après le déjeuner [temps]. Impossibilité d’affecter fiablement une RS à un argument X donne Y à Z (pour T) X agent (volitif)? — Jean [agent???] donne l’impression de… Z, T bénéficiaire, destinataire, but, patient…? Y objet (modifié par l’action, transféré…?) — X donne l’heure à Y Certaines théories (comme UNL) cherchent à affecter des « RS standard » Ça ne marche pas… car les RS des arguments sont très lexicalisées Une bonne approche: FrameNet (Fillmore) ‘donner’(X=‘donateur’, Y=‘don’, Z=‘donataire’) Ch. Boitet Cours CL

2.5 Pragmatique i. Assertion et négation ii. Impérativité 3 types de négation: négation propositionnelle, privation, réfutation, ii. Impérativité niveau profond ("faire cuire 3mn" a valeur impérative) iii. Interrogativité idem En "montant d'un niveau", il faut parler des actes de parole (de discours, de dialogue) Searle, Austin, etc. Voir cours sur le dialogue. Important en pratique ! Ch. Boitet Cours CL

II.3 Autres dimensions de l'analyse linguistique 3.1 Actualisation i. Nombre cardinal, ordinal, comptabilité/continuité ii. Personne nous inclusif ou exclusif, de majesté ou de modestie… iii. Modalité iv. Aspect v. Temps bien sûr, il y a des niveaux plus ou moins "profonds" (irréel, achevé, perfectif, time) ou "surfaciques" (conditionnel, perfectif, tense) Ch. Boitet Cours CL

3.2 Quantification i. Quantificateurs linguistiques et portée Un, tous, certains, peu, beaucoup, la majorité… ii. Lien avec la déiction (, désignation) Peu de gens lisent beaucoup de livres Beaucoup de livres sont lus par peu de gens Ch. Boitet Cours CL

3.3 Désignation i. Détermination ii. Anaphore et cataphore un, le, ou rien ? Désignation d'instance, de classe ? ii. Anaphore et cataphore reprise en arrière (supra) ou en avant (infra). Il marchait dans la ville. Il faisait froid. Jean, car c'était lui… iii. Ellipse le [code] source, un [roman policier de la] série noire OK, je prendrai la seconde. rue (Straße f.), chambre (Zimmer n.) ? Ch. Boitet Cours CL

3.4 Rhétorique i. Emphase ii. Thématisation C'est vraiment tout à fait ça, ces principes qui sont les nôtres… ii. Thématisation C'est X qui… Paul, lui, est parti (oral) Vous avez réservé cet hôtel ? Ch. Boitet Cours CL

3.5 Analyse en triade statutaire de Zemb i. Rhème ce qu'on dit ii. Thème de quoi on le dit iii. Phème comment on le dit (assertion/négation, modalité) En discours, le thème est supposé exister, même si le phème change Jean a pris une veste hier Jean a pris une veste hier Pas de veste à prendre (ou pas) Il y a une veste ! C’est très important pour la traduction! Je ne l’ai pas bousculé exprès  Ich habe ihn [ absichtlich nicht | nicht absichtlich ] gestoßen Ch. Boitet Cours CL

III. Les connaissances utilisables en TALN III.1 Sources de connaissances dans un système de TALN 1.1 Types de connaissances à considérer dans les applications i. Connaissances linguistiques a. Langagières Connaissances sur la langue "standard" (lexique, morphologie, syntaxe…) b. Typologiques Connaissances sur la typologie visée (termes et sens préférés et interdits, tours, expressions, préférences observées au niveau du style et de la résolution d'ambiguïtés…) Ch. Boitet Cours CL

ii. Connaissances sémantiques a. Statiques Faits et règles d'un domaine formalisé (ontologie) b. Dynamiques Situations, agents et leurs représentations internes. Nécessité ici d'un apprentissage à partir du contenu des "messages linguistiques". Ch. Boitet Cours CL

iii. Connaissances pragmatiques a. Intentions explicites Actes de parole, force illocutoire… Fils de discours et de dialogue Très important pour le traitement du dialogue, en CHM ou en dialogue humain médiatisé. b. Intentions implicites Aspects réflexifs, intentions cachées, ironie, etc. Ch. Boitet Cours CL

1.2 Connaissances réellement utilisables dans des systèmes de TALN On met les connaissances "qu'on peut" et surtout "qu'on doit" dans des dictionnaires, grammaires, thésaurus. Exemple : « le courrier est arrivé ce matin » est soit imperfectif soit perfectif. On peut proposer le choix : « le courrier est arrivé ce matin  PENDANT que quelque chose se passait » « le courrier est arrivé ce matin  ET PUIS quelque chose s'est passé » et l'on obtiendra alors l'information permettant de bien traduire dans une langue où l'aspect est important, comme le russe ou l'anglais : « the mail arrived this morning (while I was shaving). » « the mail has arrived this morning (and then I left).  » Ch. Boitet Cours CL

Représentations formalisées d’énoncés Ch. Boitet Cours CL

Formalized representations of utterances Ch. Boitet Cours CL

Formale Zwischenstrukturen Ch. Boitet Cours CL