Olivier Kraif, Agnès Tutin LIDILEM Des corpus bilingues annotés sémantiquement pour l’aide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès Tutin LIDILEM Université Stendhal Grenoble 3 Paris, Journée ATALA « Outils de TAL pour l’aide à la rédaction »
Objectif Montrer comment des corpus bilingues alignés étiquetés et annotés sémantiquement permettraient d’élaborer des outils d’aide à la rédaction en L2 : Pour la constitution des données : En permettant au concepteur d’extraire facilement des données lexicales fines pour constituer des bases de collocations monolingues et bilingues. Pour la consultation des données : En permettant à l’utilisateur d’observer les phénomènes lexicaux dans leur contexte naturel, les corpus, à partir d’un accès onomasiologique et sémasiologique.
Plan Les collocations : un phénomène qui doit être observé en corpus Une proposition d’architecture d’un outil d’aide à la rédaction exploitant des corpus bilingues annotés linguistiquement Les ressources TAL exploitées à cette fin
Les collocations : un phénomène qui doit être observé sur corpus Architecture Ressources TAL Les collocations Donner exemples syntaxiques et exemples sémantiques Informations sur les fréquences et les genres
Architecture d’un système d’aide à la rédaction basé sur corpus Collocations ► Architecture Ressources TAL Principes : Navigation entre les ressources lexicales et les exemples sur corpus. Accès par le sens (classe sémantique, synonyme) ou par la forme (lemme, catégorie) Navigation entre les langues par le biais d’un lexique pivot et des alignements de phrases. Exploitation d’analogies sémantiques pour vérifier des candidats collocations et proposer le cas échéant des collocations valides.
Architecture générale Collocations ► Architecture Ressources TAL Base+ collocatif L2 Les exemples sont triés en fonction des correspondances (par ordre de fréquence décroissante) Dictionnaire corpus bilingue Index Les exemples sont triés en fonction des constructions (par ordre de fréquence décroissante) Base+ collocatif corpus monolingue Fiche lexicographique de la base classe sémantique collocatifs triés par 1/ classes et 2/ fréquences d'occurrence 3/ fréquences des constructions échec Généralisation à la classe de la base et/ou du collocatif Substitution synonymique Schéma d'interrogation unilingue
Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Exemple de recherche (corpus bilingue) Critère de recherche : défendre une approche Le corpus ne contient pas d'exemple Possibilité de généraliser : type-verbe='défendre' Résultats, dans le corpus bilingue : pourquoi et comment nous préconisons une démarche de design… why and how we promote a design… En soutenant l' idée d' un essai contrôlé … In endorsing the idea of a placebo-controlled … Trois arguments sont généralement avancés à l' appui … Three arguments are generally put forth to support … Kracke et Parker , aux Etats-Unis , ont avancé l' hypothèse que … Kracke and Parker argued that …. Je veux préconiser une approche au problème… I want to advocate a view of the problem …. (…)
Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Exemple de recherche (corpus bilingue) On obtient ainsi des quasi-synonymes : approche -> démarche défendre -> préconiser Mais aussi des équivalents potentiels en anglais to promote to advocate a view
Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Des classes de quasi-synonymes peuvent être obtenues automatiquement grâce au corpus bilingue : Technique de l'aller-retour Deux unités de L2 qui partagent les mêmes correspondances en L1 ont sans doute des sens en commun. Exemples (extrait d'un corpus de 27 000 couples de phrases): prouver-verb -> démontrer-verb montrer-verb révéler-verb question-noun -> problème-noun apercevoir-verb -> observer-verb montrer-verb remarquer-verb distinguer-verb trouver-verb voir-verb vivre-verb Les quasi-synonymes permettent également de généraliser la recherche
Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Autre parcours On traduit la requête mot à mot Puis on effectue une recherche dans le corpus en L2. Exemple : approche -> approach préconiser -> promote Trouve-t-on des occurrences de la collocation: to promote + approach ?
Accès aux informations linguistiques Collocations ► Architecture Ressources TAL
Accès aux informations linguistiques Collocations ► Architecture Ressources TAL
Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Pour la traduction des requêtes, on peut utiliser un lexique bilingue extrait à partir du corpus aligné. On calcule les correspondances lexicales On enregistre les équivalences les plus fréquentes et statistiquement significatives Plus le corpus est vaste, mieux on peut filtrer les correspondances valides. Exemple (WHR95)
Accès aux informations linguistiques Collocations ► Architecture Ressources TAL Différents types d’accès : Forme Catégorie Lemme Sens (thésaurus) Classe sémantique Généralisations En cas d’échec à une réponse, extension à la classe sémantique et aux synonymes
Exemple 1 Exemple 1 : défendre approche français ou bilingue Collocations ► Architecture Ressources TAL Exemple 1 : défendre approche français ou bilingue
Exemple 2 Défendre approche vers l’anglais Collocations ► Architecture Ressources TAL Défendre approche vers l’anglais Traduction de l’expression en utilisant les équivalents traductionnels et classes sémantiques (en sélectionnant les équivalents jugés pertinents)
Ressources TAL nécessaires Collocations Architecture ► Ressources TAL Corpus Corpus en anglais et français étiquetés au niveau morpho-syntaxique. Corpus annotés au niveau des collocations : Annotation simple à réaliser (par exemple, emploi de transducteurs d’états finis). Annotations à vérifier manuellement. Corpus bilingues alignés (techniques??). Alignement à vérifier manuellement.
Ressources TAL nécessaires Collocations Architecture ► Ressources TAL Ressources lexicales Dictionnaire de collocations (produit automatiquement à partir des annotations vérifiées sur corpus). Lexique d’équivalents traductionnels (mots simples), généré automatiquement, à vérifier en partie manuellement. Lexique des synonymes généré automatiquement à partir des équivalents traductionnels, à vérifier en partie manuellement.
Problèmes posés par les ressources Collocations Architecture ► Ressources TAL La qualité du lexique bilingue et du dictionnaire de synonymes est tributaire de la taille des corpus (difficiles à obtenir). Pistes à envisager : Corpus d’autres domaines, par exemple, presse ou discours institutionnels (vocabulaire abstrait commun). Exploiter les corpus comparables pour affiner les dictionnaires de synonymes.
Interface utilisateur Collocations Architecture ► Ressources TAL L’intégration des ressources TAL doit être pensée du point de vue de l’utilisateur. Points à envisager : L’accès sémantique aux données doit être simple et « naturel ». Expérimentation nécessaire pour vérifier l’ « utilisabilité » des étiquettes sémantiques. Le mode d’interrogation doit être simple mais puissant. Trouver un compromis entre des formulaires peu puissants et des expressions régulières indigestes. Proposer des requêtes préenregistrées pour permettre l’interrogation par analogie.
Conclusion Des techniques de TAL éprouvées (étiquetage morpho-syntaxique, automates d’états finis, alignement de textes bilingues) pourraient être exploitées facilement pour élaborer un outil d’aide à la rédaction. Une vérification manuelle des outils reste indispensable (mais est relativement peu coûteuse). L’ergonomie de l’interface utilisateur doit être prise sérieusement en compte. Moteurs de recherche Correcteurs orthographiques