Un environnement de développement pour le TALN 15/12/2OO1 Christine Chardenon, FTR&D DMI/GRI
Plan Critères de développement Architecture : applicatifs Architecture : le Cœur TALN Données linguistiques Livrables Conclusion
Critères de développement Indépendance par rapport aux données linguistiques Robustesse Souplesse d’utilisation Sorties multiples Tracabilité de chaque module Portabilité (C,C++ sous Solaris UNIX, LINUX, … WINDOWS) Modules paramétrables Stockage des résultats dans un graphe d’analyse
Architecture : applicatifs TALN Analyse thématique Abrégeur QA topo Serveur
Architecture : le coeur Segmentation Analyse Minimale Chunking Analyse En Dépendance Graphe sémantique
Segmentation Le 15/12/2001, à 11h30, ellemange une peche avec son couto . Fr Segmentation (Le MOT)(15/12/2001 DATE)(, SEP) (à MOT)(11H30 HEURE)(, SEP) (ellemange MOT)(une MOT)(peche MOT)(avec MOT)(son MOT) (couto MOT)
Analyse minimale Analyse Minimale Méthodes correctives Interprétation de segments Analyse morphologique Création d’unité lexicale Analyse Lexicale Exact Utilisateur Correctif Traduction de Traits
Analyse lexicale Une, DET-SING-FEMN une, PRN-SING-FEMN Accès exact une Pêche,NOM-FEMN-SING Pèche,VERB-1PRS-SING Pêché,VERB, PART-PAS … Correction par réaccentuation peche Correction phonétique couto Couteau,NOM-MASC-SING couteaux,NOM-MASC-PL
Analyse morphologique Affixation : indéscotchable, lyaktubu Compositionnelle : SchneeBrettGefahr éclatement éclatement ellemange Elle, PRN-SUJ-3PRS-FEMN Elle, PRN-OBJI-3PRS-FEMN Mange, VERB-3PRS Mangé, VERB-PART-PASS
Analyse minimale : profil [[Corrections] ListeDesCorrections = "RéAccentuation","STOP", "CorrectionPhonétique" ,"CorrectionParConcaténation","STOP", "CorrectionMorpho", "CorrectionTypographique", "STOP","CorrectionMorphoPrédictive", "STOP" ListeDesCorrectionsFormesCapitalisées = "RéAccentuation " FichierPourLaCorrectionMorphoPre = morphoPredFCorrection.ini PasDAnalyseTypoPourUnMotAyantUnNombreDeCaracteresStrictementInferieurA = 5 FichierPourLaCorrectionMorpho = morphoFCorrection.ini [NomsPropres] CatégoriesDesMotsPouvantÊtreDesNomsPropresEnDébutDePhrase = "NOM" NomPropreAjoutésAuxAutresAnalyses = oui
Analyse morpho-syntaxique Chunking … ellemange une peche avec son couto … Elle/elle/P mange/manger/V une/un/D pêche/pêche/N avec/avec/S son/mon/P couteau/couteau/N
Analyse syntaxique Chunking … ellemange une peche avec son couto … Analyse en dépendance Elle/elle/P/1/SUJ(2) mange/manger/V/2 une/un/D/3/DET(4) pêche/pêche/N/4/OBJD(2) avec/avec/S/5/P(8) son/mon/PP/6/PP(7) couteau/couteau/N/7/GPN(2)
Arbre de dépendance GS1 GV-PT, ID3(31), ( NOMBRE/SINGULIER GENRE/FEMININ PERSONNE/3PRS SUJ TRANSITIF/OUI OBJD ) Terminaux mange [ manger , ( PERSONNE/1PRS/3PRS CATEP/GV-PT TRANSITIF/OUI NOMBRE/SINGULIER ), ( us_eat) ] Fonction: SUJ (3) ,PRN-S, ID1(24), ( NOMBRE/SINGULIER GENRE/FEMININ PERSONNE/3PRS ) elle [ je , ( PERSONNE/3PRS CATEP/PRN-S GENRE/FEMININ NOMBRE/SINGULIER ) , ( ) ] Fonction: OBJD (3), GN-NC, ID10(32), ( NOMBRE/SINGULIER GENRE/FEMININ DETER ) Terminaux pêche [ pêche , ( CATEP/GN-NC GENRE/FEMININ NOMBRE/SINGULIER COR/REACC ) , ( us_peach ) ] Fonction: DET(10),DET ID6(14), ( NOMBRE/SINGULIER GENRE/FEMININ ) une [ un, (CATEP/DET GENRE/FEMININ NOMBRE/SINGULIER ) , ( ) ]
Analyse en dépendance : profil [Dépendance_Fr] EnService = vrai FichierRègles = grammaireDep.txt NombreMaximumDeReglesAAppliquer = 300 ModeExtraction = faux CatégoriesPourLExtraction = "GN-NP" AnalyseAPartirDeTousLesGS1 = vrai SolutionsMultiplesàX% = 100
Graphe sémantique eat peach Anap3s agent patient entité entité Construction d’un graphe à partir De l’arbre en dépendance syntaxique De données sémantiques décrivant prédicats et arguments us_eat(eating, objd=patient:food, suj=agent:animate, arg0=situation:action) eat peach Anap3s agent patient entité entité Eat(agent=a,patient=b)&Anap3s(entité=a)&peach(entité=b)
Données(1) x En cours Segmentation Analyse Minimale Chunking Français Anglais Allemand Espagnol En cours Arabe Polonais
Données (2) x appli Analyse en dépendance Données sémantiques thésaurus Français x appli Anglais Allemand Espagnol Arabe Polonais
Livrables Exécutables (+ options d’appels) Librairie dynamique Mode client serveur Choix des sorties ASCII XML
Conclusion Evolution de l’architecture Exploitation de modèles de langage probabiliste Génération Lexicale Génération syntaxique Génération Sémantique
Format Données Lexique eau, [o], N23, -PREPGOUV/DEF-NOM_SEM/NOM_CONC, eau_23, , , , eaux, [o], N20P, -NOM_SEM/NOM_CONC, eau_22, , , ,