Vers une ontologie du domaine de l’astronomie IRIT J. Mothe, N. Hernandez, E. LeMoing MDA, 15 octobre 2004
Objectifs Évaluer la réutilisabilité de la connaissance du thesaurus IAU Détection de concepts Analyse des relations RT (est lié à) Enrichir cette connaissance Détection de nouveaux termes Détection de nouvelles relations MDA, 15 octobre 2004
Connaissance extraite Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Détection de concepts Relations U (utilisé) et UF (utilisé pour) du thesaurus Exemple : hubble sandage variable stars UF h s variable stars Regroupement automatique des termes sous même concepts (label principal = terme recommandé à utiliser) Exemple: concept : hubble sandage variable stars label 2 : h s variable stars MDA, 15 octobre 2004
Connaissance extraite Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Détection de concepts 2959 termes dans le thesaurus 2547 concepts ayant entre 1 et 6 labels À valider MDA, 15 octobre 2004
Analyses des relations RT Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Analyses des relations RT Analyse syntaxique Analyse des mots communs de deux syntagmes reliés par RT Analyse par le logiciel Syntex Analyse du contexte dans lequel apparaissent deux syntagmes reliés par RT, dans un corpus MDA, 15 octobre 2004
Analyses des relations RT Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Analyses des relations RT 5975 relations RT 287 liant syntagmes différant d’un seul mot Exemple : infrared radiation RT infrared 1286 liant syntagmes comportant mot commun Exemple : absorption spectra RT energy spectra Autres ? À partir des corpus (Syntex) Exemple : agb RT hr diagram : A&A95 agb star, hr diagram of star MDA, 15 octobre 2004
Termes différant d’un seul mot Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Termes différant d’un seul mot Deux patrons syntaxiques : m1s1 RT m1s2 m2s2, (Patron A) où m1s2 est une forme adjectivale du mot m1s1 Exemple : infrared RT infrared radiation 234 relations m1s1 RT m1s2 m2s2 (Patron B) où m1s1=m2s2 Exemple : dipole RT electric dipole 53 relations MDA, 15 octobre 2004
Termes différant d’un seul mot (2) Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Termes différant d’un seul mot (2) Relations sémantiques déduites : Patron A : m1s1 RT m1s2 m2s2 - s1 « est un phénomène lié a » s2 Exemple : infrared radiation « est un phénomène lié a » infrared - s1 « est une caractéristique de » s2 Exemple : pulse width « est une caractéristique » de pulse - s1 « est une partie de » s2 Exemple : supernova envelope « est une partie de » supernova MDA, 15 octobre 2004
Termes différant d’un seul mot (3) Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Termes différant d’un seul mot (3) Patron B : m1s1 RT m1s2 m2s2 - s1 « est un » s2 (généricité/spécificité) Exemple : dwarf cepheid « est un » cepheid MDA, 15 octobre 2004
Termes ayant un mot commun Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Termes ayant un mot commun Deux patrons syntaxiques: m1s1 m2s1 …mns1 RT m1s2 m2s2… m2sn où m1s1 = m1s2 (patron C) Exemple : planck black body formula RT planck constant 590 relations m1s1 ... mns1 RT m1s2.. mns2 (patron D) où mns1=mns2 Exemple : absorption spectra RT energy spectra 510 relations MDA, 15 octobre 2004
Termes ayant un mot commun (2) Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Termes ayant un mot commun (2) Relations sémantiques déduites : Patron C : m1s1 m2s1 …mns1 RT m1s1 m2s2… m2sn - s1 et s2 sont des phénomènes liés entre eux Exemple : signal analysi RT signal detection - s1 et s2 sont des caractéristiques liées entre elle Exemple : circumstellar envelope RT circumstellar shell MDA, 15 octobre 2004
Termes ayant un mot commun (3) Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Termes ayant un mot commun (3) Patron D m1s1 ... mns1 RT m1s2.. mns2 s1 et s2 sont deux sous-concepts du concept mns1 Exemple : absorption spectra et energy spectra sont des sous-concepts de spectra MDA, 15 octobre 2004
Syntex : analyseur syntaxique de corpus Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Syntex : analyseur syntaxique de corpus Intérêt : extraire syntaxiquement les expressions d’une collection documentaire [Bourigault & Fabre, 2000] Deux phases Pré-traitement par un étiqueteur Analyse syntaxique Analyse distributionnelle Originalité : apprentissage endogène [Bourigault & Lame, 2002] MDA, 15 octobre 2004
Connaissance extraite Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Syntex Intérêt : analyse syntagmes reliés par RT sans mot commun à partir de contextes d ’apparition dans le corpus Syntagmes reliés par RT avec contexte commun, détermination de la relation sémantique à partir des patrons A,B,C,D Exemple : surface photometry RT surface brightness : Contexte commun galaxy : ( A&A 95 : galaxy surface photometry, surface brightness of galaxy), patron C : surface photometry et surface brightness sont des caractéristiques de galaxy MDA, 15 octobre 2004
Connaissance extraite Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Syntex Syntagmes reliés par RT dont un des mots apparaît dans le contexte de l’autre syntagme, détermination de la relation sémantique à partir des patrons A,B,C,D Exemple : rotation RT angular velocity : Contexte de rotation velocity : ( A&A 95 : rotation velocity), patron B : rotation et angular velocity sont deux types de velocity MDA, 15 octobre 2004
Connaissance extraite Nouvelle connaissance extraites des corpus Connaissance extraite de IAU Bilan Proposition de patrons syntaxiques dans le but de déterminer les relations sémantique entre syntagmes Validation nécessaire Utilisation des patrons pour déduire de nouvelles relations entre concepts à partir des contextes donnés par Syntex MDA, 15 octobre 2004
Nouvelle connaissance extraite des corpus Connaissance extraite de IAU Détection de nouveaux termes du domaine Termes apparaissant souvent dans le corpus Termes avec fort tf.idf Analyse en cours MDA, 15 octobre 2004
Nouvelle connaissance extraite des corpus Connaissance extraite de IAU Détection de nouvelles relations Entre termes de l’ontologie Entre termes proposés précédemment À partir des patrons syntaxiques et contextes des termes donnés par syntex MDA, 15 octobre 2004
Conclusion Construction d’une ontologie à partir du thesaurus IAU Extraction de nouvelles connaissances à partir de corpus Apprentissage des relations syntaxiques Validation pour semi-automatiser le procédé MDA, 15 octobre 2004