La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès.

Présentations similaires


Présentation au sujet: "Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès."— Transcription de la présentation:

1 Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès Tutin LIDILEM Université Stendhal Grenoble 3 Paris, Journée ATALA « Outils de TAL pour laide à la rédaction »

2 Objectif Montrer comment des corpus bilingues alignés étiquetés et annotés sémantiquement permettraient délaborer des outils daide à la rédaction en L2 : –Pour la constitution des données : En permettant au concepteur dextraire facilement des données lexicales fines pour constituer des bases de collocations monolingues et bilingues. –Pour la consultation des données : En permettant à lutilisateur dobserver les phénomènes lexicaux dans leur contexte naturel, les corpus, à partir dun accès onomasiologique et sémasiologique.

3 Plan Les collocations : un phénomène qui doit être observé en corpus Une proposition darchitecture dun outil daide à la rédaction exploitant des corpus bilingues annotés linguistiquement Les ressources TAL exploitées à cette fin

4 Les collocations : un phénomène qui doit être observé sur corpus Les collocations Donner exemples syntaxiques et exemples sémantiques Informations sur les fréquences et les genres Collocations Architecture Ressources TAL

5 Architecture dun système daide à la rédaction basé sur corpus Principes : –Navigation entre les ressources lexicales et les exemples sur corpus. –Accès par le sens (classe sémantique, synonyme) ou par la forme (lemme, catégorie) –Navigation entre les langues par le biais dun lexique pivot et des alignements de phrases. –Exploitation danalogies sémantiques pour vérifier des candidats collocations et proposer le cas échéant des collocations valides. Collocations Architecture Ressources TAL

6 Architecture générale Collocations Architecture Ressources TAL Base+ collocatif corpus monolingue corpus bilingue échec Généralisation à la classe de la base et/ou du collocatif Substitution synonymique Index Fiche lexicographique de la base classe sémantique collocatifs triés par 1/ classes et 2/ fréquences d'occurrence 3/ fréquences des constructions Les exemples sont triés en fonction des correspondances (par ordre de fréquence décroissante) Les exemples sont triés en fonction des constructions (par ordre de fréquence décroissante) Schéma d'interrogation unilingue Base+ collocatif L2 Dictionnaire

7 Accès aux informations linguistiques Exemple de recherche (corpus bilingue) –Critère de recherche : défendre une approche Le corpus ne contient pas d'exemple Possibilité de généraliser : type-verbe='défendre' Résultats, dans le corpus bilingue : pourquoi et comment nous préconisons une démarche de design… why and how we promote a design… En soutenant l' idée d' un essai contrôlé … In endorsing the idea of a placebo-controlled … Trois arguments sont généralement avancés à l' appui … Three arguments are generally put forth to support … Kracke et Parker, aux Etats-Unis, ont avancé l' hypothèse que … Kracke and Parker argued that …. Je veux préconiser une approche au problème… I want to advocate a view of the problem …. (…) Collocations Architecture Ressources TAL

8 Accès aux informations linguistiques Exemple de recherche (corpus bilingue) On obtient ainsi des quasi-synonymes : approche -> démarche défendre -> préconiser Mais aussi des équivalents potentiels en anglais to promote to advocate a view Collocations Architecture Ressources TAL

9 Accès aux informations linguistiques Des classes de quasi-synonymes peuvent être obtenues automatiquement grâce au corpus bilingue : Technique de l'aller-retour Deux unités de L2 qui partagent les mêmes correspondances en L1 ont sans doute des sens en commun. Exemples (extrait d'un corpus de couples de phrases): prouver-verb -> démontrer-verb montrer-verb révéler-verb question-noun -> problème-noun apercevoir-verb -> observer-verb montrer-verb remarquer-verb distinguer-verb trouver-verb voir-verb vivre-verb Les quasi-synonymes permettent également de généraliser la recherche Collocations Architecture Ressources TAL

10 Accès aux informations linguistiques Autre parcours On traduit la requête mot à mot Puis on effectue une recherche dans le corpus en L2. Exemple : approche -> approach préconiser -> promote Trouve-t-on des occurrences de la collocation: to promote + approach ? Collocations Architecture Ressources TAL

11 Accès aux informations linguistiques Collocations Architecture Ressources TAL

12 Accès aux informations linguistiques Collocations Architecture Ressources TAL

13 Accès aux informations linguistiques Pour la traduction des requêtes, on peut utiliser un lexique bilingue extrait à partir du corpus aligné. On calcule les correspondances lexicales On enregistre les équivalences les plus fréquentes et statistiquement significatives Plus le corpus est vaste, mieux on peut filtrer les correspondances valides. Exemple (WHR95)WHR95 Collocations Architecture Ressources TAL

14 Accès aux informations linguistiques Différents types daccès : -Forme -Catégorie -Lemme -Sens (thésaurus) -Classe sémantique -Généralisations -En cas déchec à une réponse, extension à la classe sémantique et aux synonymes Collocations Architecture Ressources TAL

15 Exemple 1 Exemple 1 : défendre approche français ou bilingue Collocations Architecture Ressources TAL

16 Exemple 2 Défendre approche vers langlais Traduction de lexpression en utilisant les équivalents traductionnels et classes sémantiques (en sélectionnant les équivalents jugés pertinents) Collocations Architecture Ressources TAL

17 Ressources TAL nécessaires Corpus -Corpus en anglais et français étiquetés au niveau morpho-syntaxique. -Corpus annotés au niveau des collocations : -Annotation simple à réaliser (par exemple, emploi de transducteurs détats finis). -Annotations à vérifier manuellement. –Corpus bilingues alignés (techniques??). Alignement à vérifier manuellement. Collocations Architecture Ressources TAL

18 Ressources TAL nécessaires Ressources lexicales -Dictionnaire de collocations (produit automatiquement à partir des annotations vérifiées sur corpus). -Lexique déquivalents traductionnels (mots simples), généré automatiquement, à vérifier en partie manuellement. -Lexique des synonymes généré automatiquement à partir des équivalents traductionnels, à vérifier en partie manuellement. Collocations Architecture Ressources TAL

19 Problèmes posés par les ressources La qualité du lexique bilingue et du dictionnaire de synonymes est tributaire de la taille des corpus (difficiles à obtenir). Pistes à envisager : –Corpus dautres domaines, par exemple, presse ou discours institutionnels (vocabulaire abstrait commun). –Exploiter les corpus comparables pour affiner les dictionnaires de synonymes. Collocations Architecture Ressources TAL

20 Interface utilisateur Lintégration des ressources TAL doit être pensée du point de vue de lutilisateur. Points à envisager : –Laccès sémantique aux données doit être simple et « naturel ». Expérimentation nécessaire pour vérifier l « utilisabilité » des étiquettes sémantiques. –Le mode dinterrogation doit être simple mais puissant. Trouver un compromis entre des formulaires peu puissants et des expressions régulières indigestes. Proposer des requêtes préenregistrées pour permettre linterrogation par analogie. Collocations Architecture Ressources TAL

21 Conclusion Des techniques de TAL éprouvées (étiquetage morpho-syntaxique, automates détats finis, alignement de textes bilingues) pourraient être exploitées facilement pour élaborer un outil daide à la rédaction. Une vérification manuelle des outils reste indispensable (mais est relativement peu coûteuse). Lergonomie de linterface utilisateur doit être prise sérieusement en compte. Moteurs de recherche Correcteurs orthographiques


Télécharger ppt "Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès."

Présentations similaires


Annonces Google