La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Bases de données lexicales Guy Perrier. Sommaire 1.Lexiques et TALLexiques et TAL 2.Structure informatique généraleStructure informatique générale 3.Les.

Présentations similaires


Présentation au sujet: "Bases de données lexicales Guy Perrier. Sommaire 1.Lexiques et TALLexiques et TAL 2.Structure informatique généraleStructure informatique générale 3.Les."— Transcription de la présentation:

1 Bases de données lexicales Guy Perrier

2 Sommaire 1.Lexiques et TALLexiques et TAL 2.Structure informatique généraleStructure informatique générale 3.Les bases de données relationnellesLes bases de données relationnelles 4.Les automates et les bases de données morphologiques 5.Les lexiques fondés sur les structures de traits 6.Sémantique lexicale

3 1 - Lexiques et TAL phonologique morphologique syntaxiquesémantique Le lexique dune langue associe aux mots de cette langue une information phonologique, morphologique, syntaxique et sémantique. On peut sattacher à un niveau particulier de la langue et considérer un lexique partiel qui ne prenne en compte que ce niveau (lexique morphologique, lexique syntaxique …). lexiques complètement formalisés Le traitement automatique des langues nécessite des lexiques complètement formalisés. La formalisation du lexique doit répondre à deux exigences : linguistique linguistique - les régularités de la langue doivent être exprimées de la façon la plus transparente et la plus directe. informatique informatique - limplémentation doit être la plus compacte et elle doit permettre toutes les requêtes utiles en un temps le plus court possible.

4 1 - Lexiques et TAL entrées lexicales clé daccès Un lexique est un ensemble d entrées lexicales. Une entrée lexicale est une unité linguistique élémentaire qui, en première approximation, sapparente à la notion de mot. Le lexique associe pour chaque entrée une clé daccès à un ensemble d'informations linguistiques décrivant cette entrée. mots Les clés d'accès aux entrées lexicales sont des entités linguistiques qui peuvent varier selon le type de lexique considéré (mots-formes, lemmes, lexèmes, lexies...) et qui seront toutes appelées mots. Un mot sera représenté comme une suite de caractères. Un lexique sous forme électronique doit permettre un certain nombre de fonctions : L'accès aux informations associées à un mot donné, La recherche de toutes les entrées vérifiant une propriété donnée, L'ajout, la suppression dentrées, La mise à jour dentrées individuellement ou collectivement, La modification de la structure des entrées.

5 1 - Lexiques et TAL La structure informatique d'un lexique doit viser à la fois de réduire au maximum sa taille et à assurer de façon efficace les différentes fonctions associées. Dans cette structure, on peut distinguer deux aspects : La structure générale qui réalise l'accès aux entrées lexicales à partir des mots, La représentation de chaque entrée lexicale qui doit viser à prendre en compte au maximum les généralisations linguistiques. Contrairement à la structure générale, la représentation de chaque entrée lexicale dépend du type d'information quelle contient.

6 1 - Lexiques et TAL 1.Dans les entrées ci-jointes du Trésor de la Langue Française Informatisé : a)Repérer les différents types dinformation linguistique présents (phonologiques, morphologiques, syntaxiques et sémantiques) avec leurs liens entre eux, b)Apprécier si elles peuvent être exprimées facilement de façon formelle. c)Imaginer la manière dont elles pourraient être extraites automatiquement des entrées du TLFI. d)Indiquer si certaines informations sont manquantes.

7 2 – Structure informatique générale : tables table ordonnée Une des façons les plus simples d'implémenter un lexique est d'utiliser une table ordonnée. Les entrées lexicales y sont rangés selon un ordre choisi sur les mots (en principe lordre lexicographique). Si le lexique a n entrées, l'espace nécessaire est de n fois la taille dune entrée. Si le lexique a n entrées, le temps d'accès à une entrée est de l'ordre de log n, car on peut profiter du caractère ordonné de la table en utilisant un accès dichotomique.

8 2 – Structure informatique générale : tables tables de hachagecollisions Pour accélérer l'accès aux entrées lexicales à partir des mots, on peut utiliser des tables de hachage mais avec le problème d'avoir à gérer les collisions. arbre de hachage Pour éviter les collisions, on peut organiser chaque entrée comme une sous-table de hachage et on peut répéter cette organisation pour former un arbre de hachage. fonction de hachage Une façon commode de choisir une fonction de hachage est de considérer le début des mots (on peut hacher sur la première lettre par exemple).

9 2 – Structure informatique générale : arbres préfixes (tries) arbre préfixe nœuds terminaux Un arbre préfixe sur un ensemble de symboles est un arbre fini tel que tout lien père- fils est étiqueté par un symbole de. Certains nœuds, parmi lesquels toutes les feuilles, sont distingués comme nœuds terminaux et on peut y attacher de l'information spécifique. Un arbre préfixe, on peut associer un ensemble de mots de qui représentent les chemins dans l'arbre de la racine aux nœuds terminaux. Inversement, un ensemble de mots de peut être structuré sous forme d'un arbre préfixe.

10 2 – Structure informatique générale : arbres préfixes (tries) On peut ainsi structurer l'ensemble des mots d'un lexique sous forme d'un arbre préfixe en attachant l'information linguistique contenue dans les entrées lexicales aux nœuds terminaux. Le temps d'accès à une entrée est alors relativement indépendant de la taille du lexique. Il ne dépend que de la hauteur de l'arbre, c'est-à-dire la longueur des mots. Il est facile d'insérer ou d'enlever une entrée dans un lexique structuré sous forme d'arbre préfixe.

11 2 – Structure informatique générale : automates détats finis acycliques automate d'états finis acyclique cycle Un automate d'états finis acyclique est un automate d'états finis qui ne possède pas de cycle, cest-à-dire de chemin passant deux fois par le même état. On peut ainsi structurer un lexique sous forme d'un automate acyclique en considérant comme alphabet de l'automate l'alphabet des mots du lexique et en attachant l'information linguistique contenue dans les entrées aux états acceptants reconnaissant les mots correspondants. Le temps d'accès à une entrée ne dépend pas de la taille du lexique mais seulement de la longueur maximum des chemins, cest-à-dire des mots. Un arbre préfixe est un cas particulier d'automate acyclique. L'avantage d'un automate acyclique sur un arbre préfixe est quil permet de partager l'information entre entrées et de réduire la taille du lexique.

12 2 – Structure générale informatique : exercices 1.On considère un lexique de entrées. Les mots ont une longueur moyenne de 10 et maximum de 20 caractères. Ils sont formés à laide des 26 lettres de l'alphabet plus le trait d'union et 8 lettres accentuées. Il faut en moyenne 100 octets pour stocker le contenu linguistique dune entrée et il y a seulement 500 contenus différents. Pour les 5 types de structures, tables non ordonnées, tables ordonnées, tables ordonnées avec hachage sur la première lettre des mots, arbres préfixes, automates, répondre aux questions suivantes : a) Un mot étant donné, quel est le temps d'accès maximum à lentrée correspondante ? b)Quelle est la taille occupée par le lexique ? c)Pour un contenu dentrée lexicale donné, quel temps faut-il en moyenne pour retrouver tous les mots correspondants ?

13 2 – Structure générale informatique : exercices 2.Décrire les algorithmes qui permettent dinsérer et de supprimer une entrée donnée dans un lexique selon les différentes façons de le structurer : a)Table non ordonnée. b)Table ordonnée. c)Table ordonnée avec hachage. d)Arbre préfixe. e)Automate détats finis acyclique.


Télécharger ppt "Bases de données lexicales Guy Perrier. Sommaire 1.Lexiques et TALLexiques et TAL 2.Structure informatique généraleStructure informatique générale 3.Les."

Présentations similaires


Annonces Google