Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France Tendances actuelles.

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

APPRENDRE A LIRE Présentation par : Marie-Christine Ratez CPC Chauny Roselyne Cail CPC Guise.
Terminologie, glossaires et banques de données. Quest-ce que la terminologie? La terminologie est l'ensemble des termes relatifs à un système notionnel.
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
TD METHODOLOGIE : RÉUSSIR LA PARTIE ANALYTIQUE
Le developpement web  Préparé par : ASSAL Lamiae JAMALI Zakarya
XML - Henry Boccon-Gibod 1 XML, Langage de description La question du choix de formalismes Les entités et leur représentations modalités de modèles et.
Urbanisation de Système d'Information
Urbanisation de Systèmes d'Information
UML - Présentation.
Les outils du TAL Par RIGAUD Anaïs RALLIER Armelle SANTIAGO Gwendoline
Par Aline Mahot et Charlyne Routier
EVALUATIONS NATIONALES CM2
Les différents types de Marketing
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
Reconnaissance de la parole
Brevet des collèges Session 2008.
Objectifs : Améliorer la compréhension orale Bibliothèque de films : Utilisation de wikipédia pour les résumés des films: Visualisation de films, séries.
L’observation réfléchie de la langue au cycle 3
Le portfolio électronique
M. Lenain IEN Vittel – Avril 2006
1- Accueil et introduction Cours MGP Accueil et introduction Gilles Corriveau Maîtrise en Gestion de Projet UQTR Automne 1998.
INTELLIGENCE COLLECTIVE : RENCONTRES 2006Nîmes mai 2006 CENTRE DE RECHERCHE LGI2P 1- Doctorante Ecole des mines de Paris, 2- Maitre de Conférences.
Etude des Technologies du Web services
Principes de la technologie orientée objets
L’évaluation des élèves en SVT
Initiation à la conception de systèmes d'information
Réalisée par :Samira RAHALI
Maths, Fourmis, Informatique et Petits Chevaux - 1
Traitements d'images et Vision par ordinateur
Bases de données lexicales
Académie de Versailles - Inspection pédagogique régionale de lettres
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Maîtrise de la langue française
Reconnaissance Vocale
Thème 8 : l'observation et l'expérimentation
Introduction à la littérature scientifique
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Forum des Industries de la Langue, 17 mars 2010
Travail préparatoire > Processus de recherche dinformation LeBlanc, L.; Boisvert, D.; Séguin, C. ; Laframboise, M.-R. et Tardif, G. (2007). Méthodes de.
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Sensibilisation a la modelisation
la maîtrise de la langue française Inspection Pédagogique Régionale
La veille numérique : un outil pour s'informer intelligemment &
ANALYSE METHODE & OUTILS
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
1 Architecture orientée service SOA Architecture orientée service SOA (Service Oriented Architecture)
LE TEXTE ARGUMENTATIF HL & LA DISSERTATION SL
Module 8 : Surveillance des performances de SQL Server
Insérer ici votre texte Insérer ici le titre de votre diapo.
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Human Knowledge La nouvelle génération de moteurs sémantiques.
Algorithmes et Programmation
VIDEO d'une séance de mathématiques cycle 2 : GS CP CE1
Les compétences socle commun en français
Dictionnaires, lexicographie, lexicographes
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Initiation à la conception des systèmes d'informations
L’ergonomie des IHM : pourquoi, comment ?
B2i école : domaines, aptitudes et pistes d’activités
Introduction et Généralités sur l’Algorithmique
TIPE Les dames chinoises
VIVRE ENSEMBLE LANGAGE ORAL ET ECRIT
Le Traitement Automatique des Langues (TAL)
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005) Thierry Poibeau LIPN (CNRS.
Introduction Module 1.
Programme de Français B0 spécial n°11 du 26 novembre 2015.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France Tendances actuelles du traitement des langues Les Arts du spectacle de la francophonie Université Sung-kyun-kwan, 13 juin 2009 Session : la Linguistique française et ses applications

Applications du traitement des langues aujourd'hui La linguistique et le traitement des langues La linguistique pour le traitement des langues L'évolution de la communauté scientifique Recherche fondamentale et appliquée La normalisation Les débats actuels Le Web sémantique L'évaluation Sommaire

Moteurs de recherche Fouille d'opinions Traduction automatique Apprentissage en ligne Classification de documents Correction orthographique Lecture vocale Reconnaissance vocale Agents conversationnels Résumé automatique Applications du traitement des langues

Moteurs de recherche

Fouille d'opinions (1/3)

Les documents exprimant des opinions Plus complexe que les documents techniques Opinions rationnelles ou émotionnelles Le film dure 3 h 30 Un grand Almodovar Opinions explicites ou implicites distribution brillante cinéma dans le cinéma Fouille d'opinions (2/3)

Assumer ou rapporter une opinion On nous avait prévenu. Les derniers jours, à Cannes, sont généralement réservés aux films auxquels les sélectionneurs « ne croient pas vraiment ». En gros, aux plus mauvais films de la sélection. Sur quoi porte l'opinion ? L'émotion tient à la beauté du personnage de Lena Fouille d'opinions (3/3)

Traduction automatique

Apprentissage en ligne

Classification de documents

Correction orthographique (1/2)

Correction orthographique (2/2)

Le TGV 847 à destination de Bordeaux partira voie L Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M Lecture vocale

Le TGV 847 à destination de Bordeaux partira voie L Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M Lecture vocale En raison de la présence de manifestants sur le toit, le TGV 847 à destination de Bordeaux partira avec un retard d'au moins 15 minutes

Appeler Françoise Je voudrais faire un appel en PCV Écrire un nouveau message De quel aéroport part le vol AF 8238 à destination de Séoul ? Reconnaissance vocale

Agents conversationnels

Un faux agent conversationnel

Résumé (74 mots) de l'article de Wikipédia en français sur l'écriture coréenne (237 mots) Le coréen utilise les « hanja » (mot coréen désignant les caractères chinois - « sinogrammes » - très proches de ceux utilisés en Chine et au Japon), bien qu'il tende aujourdhui à ne plus sécrire quavec le hangeul, lalphabet coréen. Lalphabet hangeul comprend 40 lettres (19 consonnes et 21 voyelles). L'alphabet hangeul est utilisé en regroupant les lettres par syllabes occupant des blocs carrés, à raison de 2 à 4 lettres par syllabe. Résumé automatique

Deux communautés scientifiques très différentes: les linguistes et les informaticiens Une difficulté à communiquer et interagir Rapidité, efficacitéProfondeur MathématiquesPhilosophie AnalyseSynthèse Une familiarité avec la linguistique ou l'informatique nécessite au moins 4 années d'études Pour les institutions, la pluridisciplinarité est difficile à gérer Un respect mutuel Une blague des années 1980 qui ridiculisait les linguistes: les problèmes NP-complets, VP-complets... La linguistique et le traitement des langues (1/4)

Les informaticiens méfiants vis-à-vis des linguistes 90 % du traitement des langues est sans dictionnaire « Un travail long, fastidieux et sujet à des erreurs » Les linguistes réticents à codifier les informations Marquage des séquences correctes et incorrectes Je pense à Luc*Je lui pense « Une pluie d'étoiles exterminatrices » La linguistique et le traitement des langues (2/4)

La méthode du « sac de mots » On représente un document par son vocabulaire On néglige l'ordre des mots et la notion de phrase Un document est représenté par un tableau de chiffres Des résultats spectaculaires Peu d'efforts : aucune information linguistique, des algorithmes simples Une explosion du nombre d'utilisateurs Un effet de la popularisation d'Internet depuis 1995 Des échecs prévisibles sur certaines langues (arabe) et certains problèmes (traduction) La linguistique et le traitement des langues (3/4)

Les méthodes fondées sur la linguistique Lexiques : propriétés des mots et des expressions Grammaires : propriétés des constructions « Ressources linguistiques » Une communauté minoritaire Une réserve de solutions à long terme pour les problèmes difficiles La linguistique et le traitement des langues (4/4)

Des contraintes spécifiques Formalisation Seules des données codifiées sont exploitables Confrontation avec la réalité de l'usage linguistique L'exploitation technique des résultats est une forme supplémentaire d'évaluation La linguistique pour le traitement des langues (1/4)

Formalisation Seules des données codifiées sont exploitables Exemple de données non codifiées La linguistique pour le traitement des langues (2/4)

Exemple de données codifiées La linguistique pour le traitement des langues (3/4)

Confrontation avec la réalité de l'usage linguistique L'application au traitement des langues donne une évaluation supplémentaire de la qualité des résultats Précautions méthodologiques : - Définition des notions par des critères - Observation de corpus - Entraînement du jugement d'acceptabilité - Entraînement à la construction d'exemples La linguistique pour le traitement des langues (4/4)

Constructions à verbe support (CVS) Luc prend du repos Les immigrés prennent racine dans leur nouveau pays Critère : l'emploi du nom sans le verbe Prendre du repos a fait du bien à Luc Ce repos a fait du bien à Luc : CVS Prendre racine dans un nouveau pays met du temps *Une racine dans un nouveau pays met du temps Définition des notions par des critères

Observation de corpus

*Du repos m'a fait du bien Ce repos m'a fait du bien Du repos me ferait du bien ?Ce repos me ferait du bien Une forme qui n'apparaît dans aucun corpus peut être acceptable L'introspection est la seule source d'information disponible L'entraînement et le contrôle mutuel compensent la subjectivité de l'introspection Entraînement du jugement d'acceptabilité

Ce repos m'a fait du bien Du repos me ferait du bien Une série d'exemples construite d'une façon non systématique a moins de valeur probante Entraînement à la construction d'exemples Passé composéConditionnel du*Du repos m'a fait du bienDu repos me ferait du bien ceCe repos m'a fait du bien?Ce repos me ferait du bien

Une responsabilité collective, internationale, des chercheurs L'évaluation par les pairs Progressivement adoptée par la communauté scientifique Cette pratique favorise les recherches appréciées par les autres chercheurs du même domaine Des pratiques moins désirables Favoriser les chercheurs qui ont des relations Favoriser les chercheurs qui peuvent financer leurs publications L'évolution de la communauté scientifique (1/2)

L'évaluation par les pairs n'est pas parfaite Certains critères de qualité discutables favorisent les méthodes mathématico-informatiques La popularité auprès d'une population plus vaste Les informaticiens plus nombreux que les chercheurs pluridisciplinaires La facilité, la simplicité Un produit moins coûteux n'est pas forcément meilleur L'efficacité à court terme Construction d'un dictionnaire : 5 à 15 ans La « mode » L'évolution de la communauté scientifique (2/2)

Les solutions exploitables à court terme Recherche privée Quelques petites entreprises spécialisées Des services de grandes entreprises : - sac de mots - mémoire de traductions - achat de résultats de petites entreprises Les universités L'essentiel de l'activité universitaire en traitement des langues Recherche appliquée

Problèmes fondamentaux, applications à long terme Dictionnaires morpho-syntaxiques : 5 ans (Delaf) Dictionnaires syntaxico-sémantiques : 6 ans (Dicovalence) 9 ans (Framenet, Verbnet) 16 ans (Lexique-grammaire) 25 ans (DiCo) Une responsabilité de la recherche publique Une proportion minoritaire de l'activité universitaire en traitement des langues Recherche fondamentale

La normalisation des formats de ressources linguistiques Faire fonctionner ensemble des systèmes indépendants Un effort collectif, international depuis 2001 ISO (Association internationale de normalisation) La normalisation

Le Web sémantique Les ontologies L'intelligence artificielle L'évaluation Les débats actuels

Le Web pour les internautes Le Web pour les programmes Un parallèle Les dictionnaires pour lecteurs humains et les dictionnaires pour le traitement des langues Le Web sémantique

Le Web pour les internautes

Le Web pour les programmes (?)

Dictionnaires pour les lecteurs humains

Dictionnaires pour les programmes

Les ontologies (1/3)

Une ontologie représente une façon de conceptualiser un domaine : objets, classes, attributs, relations, évènements Une ontologie spécifie une représentation logico- sémantique suffisamment formelle pour permettre des raisonnements automatiques Une ontologie décrit une façon de communiquer sur le domaine dans une communauté Une ontologie inclut un réseau sémantique et la terminologie associée Les ontologies (2/3)

Questions logiques : quel système formel ? Questions linguistiques : comment représenter les présuppositions ? les informations implicites ? Faible interaction entre linguistes et informaticiens Ces questions sont étudiées de manière indépendante Les objectifs sont-ils compatibles entre eux ? Les ontologies (3/3)

Simuler sur ordinateur l'intelligence, y compris le langage Années 1960, 1970 et 1980 : enthousiasme et débats L'intelligence artificielle Des « cousins » de l'intelligence La mémoire : les programmes de jeu d'échecs battent le champion du monde (2006) La perception : reconnaissance des visages La statistique : classification de documents, finance Est-ce de l'intelligence ?

Les systèmes experts Systèmes capables de traiter un problème complexe propre à un domaine Ils utilisent un modèle du problème Programmation orientée objet Le génie logiciel moderne met l'accent sur la modélisation des données du problème à résoudre Démesure et réalisme Les recherches sur l'intelligence artificielle ont créé des techniques de modélisation efficaces Intelligence artificielle et génie logiciel

Concours et défis Morpholympics (1994) : étiqueteurs lexicaux de l'allemand Grace (1997) : étiqueteurs lexicaux du français Technolangue/Easy (2004) : analyseurs syntaxiques Évaluer la qualité des résultats de la recherche Un effort collectif, international Parallèle avec l'évaluation par les pairs Une évaluation de plus en plus objective Évaluation, compétition, motivation Traitement des langues et évaluation

La réflexion sur les indicateurs de qualité est pauvre en général Pas d'indicateurs de qualité Les recherches sans indicateurs de qualité sont dévalorisées Indicateurs trompeurs Indicateurs ludiques La compétition pour le plaisir Imperfections de l'évaluation

Certaines recherches fondamentales ne produisent pas de résultats évaluables avant des années Elles sont dévalorisées Un progrès peut faire diminuer temporairement un indicateur de qualité Exemple : l'étiquetage lexical Pas d'indicateurs de qualité

Diminution d'un indicateur de qualité (1/3)

Diminution d'un indicateur de qualité (2/3)

De plus en plus d'informations dans les étiquettes Le nombre d'analyses augmente Un des indicateurs de qualité, la précision de l'étiquetage, diminue Une entente implicite entre chercheurs dans les années 1990 : on n'augmente pas la quantité d'informations dans les étiquettes tant qu'on ne sait pas choisir parmi les analyses Énumérer des analyses et sélectionner des analyses : deux problèmes distincts L'entente équivalait à interrompre des programmes de recherches pour une raison d'évaluation Diminution d'un indicateur de qualité (3/3)

( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen))) Indicateurs trompeurs (1/2) (S (NP *) to (VP visit (NP Mexico)))), (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))).) Évaluation par comparaison avec une référence

Le Penn Treebank (1993) : corpus de l'anglais muni d'annotations syntaxiques, souvent utilisé comme référence pour des évaluations Le Penn Treebank néglige les expressions multi-mots, pourtant déjà étudiées depuis longtemps à l'époque Cela a ralenti les recherches dans ce domaine Indicateurs trompeurs (2/2)

La compétition pour le plaisir Indicateurs ludiques (1/2)

Chaque juge doit dialoguer avec un agent conversationnel et avec une personne, puis deviner lequel des deux est la personne L'agent conversationnel que les juges prennent pour une personne le plus souvent gagne 3000 euros Indicateurs ludiques (2/2)

Des débats sur les ressources linguistiques et la représentation des connaissances : ontologies, normalisation, indicateurs de qualité... Les débats purement informatiques sont perçus comme moins pertinents : automates finis/grammaires algébriques La communauté s'habitue progressivement à la pluridisciplinarité du traitement des langues Conclusion