ISG – Université de Sousse

Slides:



Advertisements
Présentations similaires
Comparaison de deux algorithmes d’approximation
Advertisements

ACTION COLLECTIVE DEVELOPPEMENT DURABLE HAUT NORMAND 15 décembre 2010.
Objectifs de la séance Aujourd'hui, nous allons apprendre à distinguer certains homophones grammaticaux. A la fin de la séance, vous serez capables de.
Objectifs de la séance Aujourd'hui, nous allons apprendre à distinguer certains homophones grammaticaux. A la fin de la séance, vous serez capables de.
Aujourd'hui, nous allons apprendre à connaître et identifier les différentes sortes de déterminants. A la fin de la séance, vous serez capables de reconnaître.
Algèbre au collège : Entre Sens et Technique
Université de Poitiers Laboratoire d Informatique Scientifique et Industrielle E.A LISI - ENSMA et Université de Poitiers Responsables Francis Cottet.
Comparaison entre les fonctions dimportance pour la parole dérivées en utilisant des rapports signal/bruit internes et externes Gaëtan Gilbert (1) et Christophe.
Reconnaissance de la parole
Transitions de phase en dimensions fractales
OPTIMISATION DES PROPRIETES DE FOCALISATION DE LENTILLES PLATES A BASE DE CRISTAUX PHOTONIQUES N. Fabre, X. Mélique, D. Lippens, et O. Vanbésien IEMN -
Optimisation algébrique de requêtes relationnelles
Encadrants: P. Ghodous et N. Lumineau
La politique de Sécurité
LA DEMARCHE QUALITE, 6 ETAPES, 6 CONDITIONS
Chap 1 Grammaires et dérivations.
Introduction : Compilation et Traduction
Pour un système formel de description linguistique
Modèle cognitif de l’apprentissage des langues étrangères
Anne Reboul Institut des Sciences Cognitives, CNRS, Lyon
Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille.
SÉMINAIRE DE LANCEMENT DES COURS EN LIGNE
DEA Perception et Traitement de l’Information
Modèle Logique de Données
Test et débogage Tests unitaires. Gestion d’erreurs. Notion d’état, de pré-condition et de post-condition. Assertion. Traces de programme. Débogueur et.
Coloration gap sommet identifiante de graphes
Orientation professionnelle 11 Pierre Malenfant
Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée Mohamed-Zakaria KURDI CLIPS – IMAG.
La présentation trompeuse de données
Typologie des outils L ’exerciseur Le tutoriel :
Projet académique concernant l'évaluation des acquis des élèves en mathématiques Lycée René Cassin Arpajon Le 19 janvier 2012.
MAXIMISER les RESULTATS
ps Période 1: septembre octobre Période 2: novembre décembre
Projet de Développement: Planification et Mise en Œuvre
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
EVOLUTION DU SYSTEME D’INFORMATION
Vers une analyse syntaxique à granularité variable Tristan Van rullen
Les tests adaptatifs en langue: quel est leur avenir ? Michel D. LAURIER Université de Montréal Colloque ACFAS 2006 Solutions apportées et problèmes engendrés.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
L’historien, le texte et l’ordinateur novembre 2006 – École Normale LSH de Lyon U.M.R. 6039, CNRS – ILF – UNSA L’apport de l’Analyse de Données.
Aujourd'hui, nous allons étudier les classes grammaticales des mots.
Le codage des nombres en informatique
Construction d'une hiérarchie mémoire faible consommation
Sylwia Ozdowska1, Vincent Claveau2

Visual Aids 1 Quality Manual Structure and Contents Aides visuelles.
Optimisation de structures : Implémentation d’outils d’aide à la conception basés sur les méthodes d’optimisation topologique d’homogénéisation Thomas.
Le modèle économique des moteurs de recherche
ISAGI Planification et suivi des temps : S’adapter au niveau de détail qui vous intéresse AGIRIS Avenue des censives – Tillé – BP BEAUVAIS.
La chute du “L”. La variable Le ‘l’ dans les mots grammaticaux en français canadien parlé absence? ou présence?
Correspondance - Équivalence
Exemple complexe Impression d’étiquettes pour produits chimiques Les étiquettes destinées aux produits chimiques doivent comporter des instructions concernant.
STAN (Suffix Tree ANalyser) Un outil de recherche de motif dans les génomes Grégory Ranchy Anne-Sophie Valin 9 décembre 2004.
Patricia Renault UPMC 2005/2006
Le Traitement Automatique des Langues (TAL)
L’heure est venue de le savoir et de ne pas tomber dans le leurre…
Règles d’or à suivre en rédaction
La chimie et ses dangers
O13- Les homophones grammaticaux
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
L'acquisition du concept de nombre
Système d’information numérique
René Descartes IIIème partie
World Health Organization
chante – joue – brode - possède
Colloque Énergie Perpignan CNRS, le Juillet 2002, Luc Baumstark, Université Lumière Lyon 2 1 GAT 12 Socio-économie Perpignan 2002.
131, rue de Créqui, Lyon 6ème « L’organisation est une machine à maximiser les forces humaines» - Peter Drucker (économiste )
Le livret scolaire (B. O. n° 45 du 27/11/2008).
Mettez chaque phrase au négatif.
Range les nombres du plus petit au plus grand.
Transcription de la présentation:

ISG – Université de Sousse Y a-t-il une taille optimale des règles de succession intervenant dans l’étiquetage grammatical ? Fathi Debili CNRS – ICAR – ENS LSH 15, Parvis René Descartes 69342 Lyon Cedex 07 – France Emna Souissi ISG – Université de Sousse BP 763 Sousse 4000 Tunisie

Les règles mises en œuvre sont souvent binaires ou ternaires Parce que l’étiquette grammaticale d’un mot est souvent déterminée par son voisinage immédiat, la taille des règles mises en œuvre dans les étiqueteurs est généralement fixée à 2 ou à 3 Mais ce n’est pas la seule raison : contrainte technologique; disponibilité de corpus pré étiquetés.

Les règles mises en œuvre sont souvent binaires ou ternaires P(étiquette de rang i | étiquette de rang i-1) P(étiquette de rang i | étiquette de rang i-2, étiquette de rang i-1) C’est général. C’est en particulier ce qui se cache derrière ces expressions.

L’étiquetage m1 m2 m3 m4 ... mL t11 t21 t31 t41 ... tL1 … … … … ... … t1,n1 t2,n2 t3,n3 t4,n4 ... tL,nL

Règle simulée d’ordre 7 engendrée au moyen de règles attestées d’ordre 5 1 2 3 4 5 6 7 Règle attestée a b c d e f g Règle simulée Y a-t-il corrélation entre les proportions grammaticales vs agrammaticales des règles simulées et la taille des règles attestées leur ayant donné naissance ? La proportion des règles simulées agrammaticales devrait aller en diminuant à mesure que la taille des règles attestées génératrices irait croissant. Si tel est le cas, quelle est la valeur minimale de cette taille, taille à partir de laquelle l’on n’obtiendrait plus que des successions simulées attestables ? Ne pourrait-on pas élaborer un protocole expérimental pour déterminer de meilleure façon, empirique et non plus apriorique, la taille optimale des règles de succession devant intervenir dans l’étiquetage grammatical ?

Performances 96% des mots sont correctement étiquetés 57 % des phrases sont correctement étiquetées

Histogramme des successions attestées selon leur taille

Imbrication des ensembles de règles simulées RSq[RA3(T)] avec 3<q≤L attestables non simulées Règles simulées non attestables (qui en principe resteront agrammaticales au-delà de T) Règles simulées potentiellement attestables (mais qui ne figurent pas dans T) Règles simulées attestées (figurent dans T) Règles binaires et ternaires attestées RA2(T) et RA3(T) Règles simulées RSq[RA3(T)]

Discriminance en génération de rang q de règles d’ordre p q,p = Card  RSq[RAp(T)]  RAq(T)     Card  RSq[RAp(T)]  RSq[RAp(T)] RAq(T) RSq[RAp(T)]  RAq(T) = RAq(T) RAp(T)

Discriminance – Couverture q,p = Card  RSq[RAp(Ta)]  RAq(T1…x)     Card  RSq[RAp(Ta)]  q,p = Card  RSq[RAp(Ta)]  RAq(T1…x)     Card  RAq(T1…x)  avec Ta  T1…x RSq[RAp(Ta)] RAq(T1…x) RSq[RAp(Ta)]  RAq(T1…x) RAp(Ta)

La discriminance décroît à mesure que q croît (q,p et q,p du français) L’apprentissage des règles (RA3(T1)) T1 représente 3.5% du total du corpus MULTITAG. Plus une règle est inférente, moins elle est discriminante. Nous retrouvons là ce que nous savions déjà : plus le contexte avant (ou après) est long, plus le choix sur ce qui suit (ou précède) est contraint. Ce que nous ne savions pas, pour ce qui est de l’étiquetage, c’est la taille de ce contexte, taille minimale à partir de laquelle nous constatons que le choix sur ce qui suit devient si contraint qu’il laisse peu de place à la production de successions qui ne soient pas très probablement attestables.

La discriminance croît à mesure que p croît (p+1,p de l’arabe, de l’anglais et du français) Nous observons que le rapport RAq(T) / RSq[RAp(T)] tend vers 1 à mesure que p augmente. Ce qui suggère que nous puissions limiter l’apprentissage aux seules règles de taille inférieure ou égale à p. Car au-delà, les règles simulées d’ordre q issues du chaînage des règles d’ordre p se révèlent pour la plupart correctes. Nul besoin dès lors de construire et de stocker les règles d’ordre supérieur à p. En particulier, pour q = p + 1, nous observons qu’à partir de p = 10, 99,18% des règles simulées sont attestées. 0.0082% des règles simulées restent non attestées, sans que l’on puisse certifier qu’elles sont toutes incorrectes. A partir de p = 10, il y a peu de place pour les règles simulées incorrectes.

La couverture de rang q des règles d’ordre p (q,p) décroît à mesure que p croît. Elle croît légèrement puis décroît à mesure que q croît L’avantage inférentiel doit être relativisée. L’espoir d’une meilleure couverture au prix d’une moins bonne discriminance se perd, puisque plutôt que d’évoluer en sens inverse, discriminance et couverture semblent, au-delà d’un certain seuil, évoluer dans un même sens, celui d’une dégradation à mesure que q croît. Ce résultat souligne en fait moins l’importance de la capacité inférentielle des règles de succession courtes, que l’insuffisance récurrente des corpus d’apprentissage.

Discriminance en analyse de règles d’ordre p C’est la proportion des règles de succession d’ordre p dont l’application s’avère discriminante. Discriminance en analyse avant : elle renseigne sur la capacité du passé ou histoire pour déterminer le présent. Discriminance en analyse arrière : elle renseigne sur la capacité du futur à déterminer le présent. Discriminance en analyse globale : elle renseigne sur la discriminance de la règle prise en entier. La discriminance globale rejoint la mesure des performances de l’étiquetage proprement dit. Discriminance en analyse avant : elle renseigne sur la discriminance du passé ou histoire pour déterminer le présent. Discriminance en analyse arrière : elle renseigne sur la discriminance du futur pour déterminer le présent. Discriminance en analyse bidirectionnelle : elle renseigne sur la discriminance de la règle prise en entier. La discriminance bidirectionnelle rejoint la mesure des performances de l’étiquetage proprement dit.

Discriminance en analyse des règles d’ordre p La discriminance en analyse croît à mesure que la taille des règles croît.

Conclusion Caractérisation des règles: discriminance, couverture Protocole expérimental simple pour la détermination de ces indices Extension de la taille des règles envisageable Cette extension peut être limitée Une limite qui dépend de la nature des règles: 11 si les successions portent sur des étiquettes, mais 9 si les successions portent sur des listes d’étiquettes. Le stock de règles passe de moins d’un pourcent à plusieurs pourcents (32% pour Paris 7) du total des règles que l’on peut extraire d’un corpus d’apprentissage Auto cohérence accessible Ne mettre en œuvre que les règles binaires et ternaires, c’est, dans plus de 98% des cas, surgénérer un très grand nombre de règles non attestées. La proportion des règles engendrées attestables reste à moins d’une fraction de pour cent du total des règles engendrées, dès que taille des phrases dépasse 5 ou 6 mots. Argumentation en faveur et pour l’extension de la taille des règles de succession couramment mises en œuvre dans les étiqueteurs. Ne mettre en œuvre que les règles binaires et ternaires, c’est, dans plus de 98% des cas en situation d’étiquetage, très rapidement surgénérer un très grand nombre de règles non attestées, que l’avantage inférentiel ne permet pas de résorber, la proportion des règles engendrées attestées ou attestables restant à moins d’une fraction de pour cent du total des règles engendrées, dès que l’on dépasse la taille 5 ou 6. La seconde partie de l’argumentation a été de montrer qu’il n’était pas déraisonnable non plus d’envisager cette extension, et d’ajouter aux règles binaires et ternaires, des règles de tailles supérieures. Pourquoi ? Parce que nous avons pu découvrir que cette extension pouvait être limitée, sans perte ou pratiquement, et que cette limite se situait aux environs de 12.

Corpus d’expérimentation MULTITAG Paris 7 Nombre total de mots 756 317 587 219 Nombre de phrases 36 030 21 522 Nombre total de mots SR 46 135 41 435 Taille moyenne de la phrase 21 27 Taille moyenne de la règle SR / AR 14,5 / 18,3 16 / 20 Nombre d’étiquettes grammaticales 337 308 Nombre de règles n-aires AR 12 385 253 11 005 409 Nombre de règles n-aires SR 9 298 904 8 441 420 Proportion des mots non ambigus 41,11 41,09%

La discriminance croît à mesure que p croît (p+1,p successions d’étiquettes ou de listes d’étiquettes)

La discriminance croît à mesure que p croît (p+1,p de l’arabe, de l’anglais et du français) Remplacer par celui qui comporte aussi Paris 7

La couverture de rang q des règles d’ordre p (q,p) décroît à mesure que p croît. Elle croît légèrement puis décroît à mesure que q croît L’apprentissage des règles (RA3(T1)) T1 représente 3.5% du total du corpus MULTITAG.

Discriminance en analyse des règles d’ordre p Comptages en définition et en usage

Histogramme des successions attestées selon leur taille