La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France Tendances actuelles.

Présentations similaires


Présentation au sujet: "Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France Tendances actuelles."— Transcription de la présentation:

1 Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France http://igm.univ-mlv.fr/~laporte/ Tendances actuelles du traitement des langues Les Arts du spectacle de la francophonie Université Sung-kyun-kwan, 13 juin 2009 Session : la Linguistique française et ses applications

2 Applications du traitement des langues aujourd'hui La linguistique et le traitement des langues La linguistique pour le traitement des langues L'évolution de la communauté scientifique Recherche fondamentale et appliquée La normalisation Les débats actuels Le Web sémantique L'évaluation Sommaire

3 Moteurs de recherche Fouille d'opinions Traduction automatique Apprentissage en ligne Classification de documents Correction orthographique Lecture vocale Reconnaissance vocale Agents conversationnels Résumé automatique Applications du traitement des langues

4 Moteurs de recherche

5 Fouille d'opinions (1/3)

6 Les documents exprimant des opinions Plus complexe que les documents techniques Opinions rationnelles ou émotionnelles Le film dure 3 h 30 Un grand Almodovar Opinions explicites ou implicites distribution brillante cinéma dans le cinéma Fouille d'opinions (2/3)

7 Assumer ou rapporter une opinion On nous avait prévenu. Les derniers jours, à Cannes, sont généralement réservés aux films auxquels les sélectionneurs « ne croient pas vraiment ». En gros, aux plus mauvais films de la sélection. Sur quoi porte l'opinion ? L'émotion tient à la beauté du personnage de Lena Fouille d'opinions (3/3)

8 Traduction automatique

9 Apprentissage en ligne

10 Classification de documents

11 Correction orthographique (1/2)

12 Correction orthographique (2/2)

13 Le TGV 847 à destination de Bordeaux partira voie L Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M Lecture vocale

14 Le TGV 847 à destination de Bordeaux partira voie L Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M Lecture vocale En raison de la présence de manifestants sur le toit, le TGV 847 à destination de Bordeaux partira avec un retard d'au moins 15 minutes

15 Appeler Françoise Je voudrais faire un appel en PCV Écrire un nouveau message De quel aéroport part le vol AF 8238 à destination de Séoul ? Reconnaissance vocale

16 Agents conversationnels

17 Un faux agent conversationnel

18 Résumé (74 mots) de l'article de Wikipédia en français sur l'écriture coréenne (237 mots) Le coréen utilise les « hanja » (mot coréen désignant les caractères chinois - « sinogrammes » - très proches de ceux utilisés en Chine et au Japon), bien qu'il tende aujourdhui à ne plus sécrire quavec le hangeul, lalphabet coréen. Lalphabet hangeul comprend 40 lettres (19 consonnes et 21 voyelles). L'alphabet hangeul est utilisé en regroupant les lettres par syllabes occupant des blocs carrés, à raison de 2 à 4 lettres par syllabe. Résumé automatique

19 Deux communautés scientifiques très différentes: les linguistes et les informaticiens Une difficulté à communiquer et interagir Rapidité, efficacitéProfondeur MathématiquesPhilosophie AnalyseSynthèse Une familiarité avec la linguistique ou l'informatique nécessite au moins 4 années d'études Pour les institutions, la pluridisciplinarité est difficile à gérer Un respect mutuel Une blague des années 1980 qui ridiculisait les linguistes: les problèmes NP-complets, VP-complets... La linguistique et le traitement des langues (1/4)

20 Les informaticiens méfiants vis-à-vis des linguistes 90 % du traitement des langues est sans dictionnaire « Un travail long, fastidieux et sujet à des erreurs » Les linguistes réticents à codifier les informations Marquage des séquences correctes et incorrectes Je pense à Luc*Je lui pense « Une pluie d'étoiles exterminatrices » La linguistique et le traitement des langues (2/4)

21 La méthode du « sac de mots » On représente un document par son vocabulaire On néglige l'ordre des mots et la notion de phrase Un document est représenté par un tableau de chiffres Des résultats spectaculaires Peu d'efforts : aucune information linguistique, des algorithmes simples Une explosion du nombre d'utilisateurs Un effet de la popularisation d'Internet depuis 1995 Des échecs prévisibles sur certaines langues (arabe) et certains problèmes (traduction) La linguistique et le traitement des langues (3/4)

22 Les méthodes fondées sur la linguistique Lexiques : propriétés des mots et des expressions Grammaires : propriétés des constructions « Ressources linguistiques » Une communauté minoritaire Une réserve de solutions à long terme pour les problèmes difficiles La linguistique et le traitement des langues (4/4)

23 Des contraintes spécifiques Formalisation Seules des données codifiées sont exploitables Confrontation avec la réalité de l'usage linguistique L'exploitation technique des résultats est une forme supplémentaire d'évaluation La linguistique pour le traitement des langues (1/4)

24 Formalisation Seules des données codifiées sont exploitables Exemple de données non codifiées La linguistique pour le traitement des langues (2/4)

25 Exemple de données codifiées La linguistique pour le traitement des langues (3/4)

26 Confrontation avec la réalité de l'usage linguistique L'application au traitement des langues donne une évaluation supplémentaire de la qualité des résultats Précautions méthodologiques : - Définition des notions par des critères - Observation de corpus - Entraînement du jugement d'acceptabilité - Entraînement à la construction d'exemples La linguistique pour le traitement des langues (4/4)

27 Constructions à verbe support (CVS) Luc prend du repos Les immigrés prennent racine dans leur nouveau pays Critère : l'emploi du nom sans le verbe Prendre du repos a fait du bien à Luc Ce repos a fait du bien à Luc : CVS Prendre racine dans un nouveau pays met du temps *Une racine dans un nouveau pays met du temps Définition des notions par des critères

28 Observation de corpus

29 *Du repos m'a fait du bien Ce repos m'a fait du bien Du repos me ferait du bien ?Ce repos me ferait du bien Une forme qui n'apparaît dans aucun corpus peut être acceptable L'introspection est la seule source d'information disponible L'entraînement et le contrôle mutuel compensent la subjectivité de l'introspection Entraînement du jugement d'acceptabilité

30 Ce repos m'a fait du bien Du repos me ferait du bien Une série d'exemples construite d'une façon non systématique a moins de valeur probante Entraînement à la construction d'exemples Passé composéConditionnel du*Du repos m'a fait du bienDu repos me ferait du bien ceCe repos m'a fait du bien?Ce repos me ferait du bien

31 Une responsabilité collective, internationale, des chercheurs L'évaluation par les pairs Progressivement adoptée par la communauté scientifique Cette pratique favorise les recherches appréciées par les autres chercheurs du même domaine Des pratiques moins désirables Favoriser les chercheurs qui ont des relations Favoriser les chercheurs qui peuvent financer leurs publications L'évolution de la communauté scientifique (1/2)

32 L'évaluation par les pairs n'est pas parfaite Certains critères de qualité discutables favorisent les méthodes mathématico-informatiques La popularité auprès d'une population plus vaste Les informaticiens plus nombreux que les chercheurs pluridisciplinaires La facilité, la simplicité Un produit moins coûteux n'est pas forcément meilleur L'efficacité à court terme Construction d'un dictionnaire : 5 à 15 ans La « mode » L'évolution de la communauté scientifique (2/2)

33 Les solutions exploitables à court terme Recherche privée Quelques petites entreprises spécialisées Des services de grandes entreprises : - sac de mots - mémoire de traductions - achat de résultats de petites entreprises Les universités L'essentiel de l'activité universitaire en traitement des langues Recherche appliquée

34 Problèmes fondamentaux, applications à long terme Dictionnaires morpho-syntaxiques : 5 ans (Delaf) Dictionnaires syntaxico-sémantiques : 6 ans (Dicovalence) 9 ans (Framenet, Verbnet) 16 ans (Lexique-grammaire) 25 ans (DiCo) Une responsabilité de la recherche publique Une proportion minoritaire de l'activité universitaire en traitement des langues Recherche fondamentale

35 La normalisation des formats de ressources linguistiques Faire fonctionner ensemble des systèmes indépendants Un effort collectif, international depuis 2001 ISO (Association internationale de normalisation) La normalisation

36 Le Web sémantique Les ontologies L'intelligence artificielle L'évaluation Les débats actuels

37 Le Web pour les internautes Le Web pour les programmes Un parallèle Les dictionnaires pour lecteurs humains et les dictionnaires pour le traitement des langues Le Web sémantique

38 Le Web pour les internautes

39 Le Web pour les programmes (?)

40 Dictionnaires pour les lecteurs humains

41 Dictionnaires pour les programmes

42 Les ontologies (1/3)

43 Une ontologie représente une façon de conceptualiser un domaine : objets, classes, attributs, relations, évènements Une ontologie spécifie une représentation logico- sémantique suffisamment formelle pour permettre des raisonnements automatiques Une ontologie décrit une façon de communiquer sur le domaine dans une communauté Une ontologie inclut un réseau sémantique et la terminologie associée Les ontologies (2/3)

44 Questions logiques : quel système formel ? Questions linguistiques : comment représenter les présuppositions ? les informations implicites ? Faible interaction entre linguistes et informaticiens Ces questions sont étudiées de manière indépendante Les objectifs sont-ils compatibles entre eux ? Les ontologies (3/3)

45 Simuler sur ordinateur l'intelligence, y compris le langage Années 1960, 1970 et 1980 : enthousiasme et débats L'intelligence artificielle Des « cousins » de l'intelligence La mémoire : les programmes de jeu d'échecs battent le champion du monde (2006) La perception : reconnaissance des visages La statistique : classification de documents, finance Est-ce de l'intelligence ?

46 Les systèmes experts Systèmes capables de traiter un problème complexe propre à un domaine Ils utilisent un modèle du problème Programmation orientée objet Le génie logiciel moderne met l'accent sur la modélisation des données du problème à résoudre Démesure et réalisme Les recherches sur l'intelligence artificielle ont créé des techniques de modélisation efficaces Intelligence artificielle et génie logiciel

47 Concours et défis Morpholympics (1994) : étiqueteurs lexicaux de l'allemand Grace (1997) : étiqueteurs lexicaux du français Technolangue/Easy (2004) : analyseurs syntaxiques Évaluer la qualité des résultats de la recherche Un effort collectif, international Parallèle avec l'évaluation par les pairs Une évaluation de plus en plus objective Évaluation, compétition, motivation Traitement des langues et évaluation

48 La réflexion sur les indicateurs de qualité est pauvre en général Pas d'indicateurs de qualité Les recherches sans indicateurs de qualité sont dévalorisées Indicateurs trompeurs Indicateurs ludiques La compétition pour le plaisir Imperfections de l'évaluation

49 Certaines recherches fondamentales ne produisent pas de résultats évaluables avant des années Elles sont dévalorisées Un progrès peut faire diminuer temporairement un indicateur de qualité Exemple : l'étiquetage lexical Pas d'indicateurs de qualité

50 Diminution d'un indicateur de qualité (1/3)

51 Diminution d'un indicateur de qualité (2/3)

52 De plus en plus d'informations dans les étiquettes Le nombre d'analyses augmente Un des indicateurs de qualité, la précision de l'étiquetage, diminue Une entente implicite entre chercheurs dans les années 1990 : on n'augmente pas la quantité d'informations dans les étiquettes tant qu'on ne sait pas choisir parmi les analyses Énumérer des analyses et sélectionner des analyses : deux problèmes distincts L'entente équivalait à interrompre des programmes de recherches pour une raison d'évaluation Diminution d'un indicateur de qualité (3/3)

53 ( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen))) Indicateurs trompeurs (1/2) (S (NP *) to (VP visit (NP Mexico)))), (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))).) Évaluation par comparaison avec une référence

54 Le Penn Treebank (1993) : corpus de l'anglais muni d'annotations syntaxiques, souvent utilisé comme référence pour des évaluations Le Penn Treebank néglige les expressions multi-mots, pourtant déjà étudiées depuis longtemps à l'époque Cela a ralenti les recherches dans ce domaine Indicateurs trompeurs (2/2)

55 La compétition pour le plaisir Indicateurs ludiques (1/2)

56 Chaque juge doit dialoguer avec un agent conversationnel et avec une personne, puis deviner lequel des deux est la personne L'agent conversationnel que les juges prennent pour une personne le plus souvent gagne 3000 euros Indicateurs ludiques (2/2)

57 Des débats sur les ressources linguistiques et la représentation des connaissances : ontologies, normalisation, indicateurs de qualité... Les débats purement informatiques sont perçus comme moins pertinents : automates finis/grammaires algébriques La communauté s'habitue progressivement à la pluridisciplinarité du traitement des langues Conclusion


Télécharger ppt "Éric Laporte Laboratoire d'Informatique Gaspard-Monge Université Paris-Est Marne-la-Vallée France Tendances actuelles."

Présentations similaires


Annonces Google