Building an Electronic Dictionary of Computer Science Terminology Farida AOUGHLIS Université de Tizi ouzou Email:fariyamo@yahoo.fr
PLAN Introduction. Terminologie,noms composés. Extraction automatique de terminologie. Extraction manuelle de terminologie. Dictionnaire des termes de l’informatique: DELAC_INF. Extraction automatique des termes de longueur 2. Conclusion.
TERMINOLOGIE, NOMS COMPOSES Terme Nom composé Dictionnaire spécialisé
Extraction automatique de terminologie Approches linguistiques ou syntaxiques Approches statistiques ou numériques Approches mixtes ou hybrides
Approches linguistiques TERMINO David S.,1990 LEXTER Bourigault D.,1995 FASTER Jacquemin C.,1997 XTERM Cerbah F.,1999 LEXPRO Savary A.,2000 fffff
Approches statistiques ANA Enguehard C., 1992 MANTEX Oueslati R., 1999
Approches mixtes XTRACT Smadja F., 1993 ACABIT Daille B., 1994 ASIUM Faure D., 1998
Extraction manuelle de termes Collecte d’ouvrages Extraction Acquisition
Dictionnaire des termes de l’informatique DELAC_INF
Différentes classes recensées Composants binaires : 2 mots pleins Composants ternaires : 3 mots pleins Les plus longs : 4 mots pleins Les plus longs : 5 mots pleins
Composés de longueur 2 NA Adressage absolu NN Mémoire tampon NPN Adressage par octets NDN Allocation de ressources AN Arrière-plan PN Sous programme
Composés de longueur 2 (suite) NPV Demande pour émettre NCN Sauvegarde et restauration VPN Désactiver par commentaires APN Lié au calcul XN Pseudo langage XA Non valide
Composés de longueur 3 NAPN Allocation dynamique de mémoire NPNPN Allocation de ressources en batch NPAA Algorithme du premier adapté NPXA Algorithme du mieux adapté NPXN Appel de sous programme NPNA Architecture à mémoire partagée NPAN Bit de demi retenue
Composés de longueur 3 (suite) NXA Interruption non masquable NACA Unité arithmétique et logique NNN Bus Local PCI NAA Circuit intégré décimal XNPN Non retour à zéro
Composés les plus longs NX4 Algorithme préemptif à priorités dynamiques NX5 Traitement différé à flot de travail unique
Répartition des classes de longueur 2
Répartition des classes de longueur 3
Codification d’une entrée Pour le terme arbre de décision : %arbre[N1]/de/décision,.N+NDN :ms/+ ;un/inform/ /DON89 N1 code du 1er nom du terme / pour séparer chaque champ .N classe possible si on a seulement champ comme terme + ou bien NDN classe du terme complet ms genre et nombre du terme masculin,singulier -+ flexion en genre , pas de féminin – flexion en nombre , pluriel + un : déterminant utilisé inform : information sémantique : le terme est un terme d’informatique DON89 : origine du terme extrait manuellement (bibliographie) Dans le fichier des formes fléchies DELACF_INF nous aurons les entrées : arbre de décision,arbre de décision.N+NDN+z0:ms/un arbres de décision,arbre de décision.N+NDN+z0:mp/un
Extrait de la liste des termes %langage(N1)/adapté(A32)/au/calculateur,.N+NAPN:ms/-+;un %langage(N1)/adapté(A32)/aux/problèmes/de/gestion,.N+NX4 :ms/-+;un %langage(N1)/algébrique(A31),.N+NA:ms/-+;un/ / Cegos80 %langage(N1)/algorithmique(A31),.N+NA:ms/-+;un/ / Cegos80 %langage(N1)/artificiel(A40),.N+NA:ms/-+;un/ / Cegos80 %langage(N1)/bas/niveau,.N+NAN:ms/-+;un/ / Cegos80 %langage(N1)/conversationnel(A40),.N+NA:ms/-+;un/ / Cegos80 %langage(N1)/de/assemblage,.N+NDN:ms/-+;un/ / Cegos80 %langage(N1)/de/balisage,.N+NDN:ms/-+;un/ / Cegos80 %langage(N1)/de/commande,.N+NDN:ms/-+;un/ / Cegos80 %langage(N1)/de/compilation,.N+NDN:ms/-+;un/ / Cegos80 %langage(N1)/de/description/de/page/HTML,.N+NX4:ms/-+;un %langage(N1)/de/description/des/données,.N+NPNPN:ms/-+;un/ / Cegos80 %langage(N1)/de/manipulation/des/données,.N+NPNPN:ms/-+;un/ / Cegos80
Acquisition automatique de termes de longueur 2 Patrons syntaxiques ATN utilisés Traitement phrase par phrase Le terminologue valide ou rejette les candidats termes Les termes simples peuvent être rajoutés Voir adaptation INTEX
Conclusion & Perspectives