Vers une ontologie du domaine de lastronomie IRIT J. Mothe, N. Hernandez, E. LeMoing
Objectifs Concevoir une ontologie du domaine Évaluer la réutilisabilité de la connaissance du thesaurus IAU –Détection de concepts –Analyse des relations Enrichir cette connaissance à partir de textes –Détection de nouveaux termes –Détection de nouvelles relations Intégration avec les UCD
IAU Thesaurus (représentation terminologique du domaine de lastronomie) crée en termes dont 2222 expressions (magnetic field, X ray,…) 5000 relations entre termes de plusieurs natures : –t1 BT t2 : terme t2 plus spécifique t1 –t1 NT t2 : terme t2 plus générique t1 –t1 U t2 : utiliser le terme t1 plutôt le terme t2 –t1 UF t2 : utiliser le terme t2 à la place de t1 –t1 RT t2 : t1 et t2 sont liés
Recherche termes IAU / CORPUS APJ –1999 : 865 termes retrouvés –2002 : 877 termes retrouvés A&A –1995 : 832 termes retrouvés –2002 : 884 termes 588 termes communs aux 4 corpus IAU adapté à lindexation de nos corpus
Détection de concepts Relations U (utilisé) et UF (utilisé pour) du thesaurus Exemple : hubble sandage variable stars UF H S variable stars Regroupement automatique des termes sous même concepts (label principal = terme recommandé à utiliser) Exemple: concept : hubble sandage variable stars label 2 : H S variable stars Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
2959 termes dans le thesaurus 2547 concepts ayant entre 1 et 6 labels Problèmes posés après première validation: Casse non-respectée reprise de la casse de IAU (assez satisfaisant) Ex : Ae STARS E CORONA e component Détection de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Labels ambiguës (définissant plusieurs concepts) harmonic overtones est label overtones est label des des concepts :concepts: HARMONIC FREQUENCIES OVERTONE FREQUENCIES OVERTONE FREQUENCIES OVERTONE MODES isolés et à valider individuellement Concepts ou labels trop éloignés de lastronomie CONCEPT : AZIMUTH bearing Détection de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Besoin : Définir une procédure dévaluation Evaluer labels correspondant à plusieurs concepts Evaluer concepts ayant plusieurs labels Evaluer concepts ayant un seul label Pertinence ou non par rapport au domaine Tout le domaine ?? Détection de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Relation BT/NT définie comme relation de généricité/spécificité Création dune hiérarchisation Problème redondance dans relations Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU suppression de 193 cycles
Au premier niveau : 1132 concepts Difficulté pour la navigation dans lontologie Type des concepts Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Nouveau niveau hiérarchique à partir du patron : m1 s1 / m1 s2 m2 s2 où m1 s1 =m2 s2 Exemples : CURVES :CURVES OF GROWTH- VELOCITY CURVES- HD CURVE- COLOR (dans onto) : INTRINSIC COLORS- ULTRAVIOLET COLORS concepts Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU Concepts actuellement de niveau 1 Concept plus spécifique présent dans lontologie Concept plus spécifique proposé à ajouter
Niveau plus abstrait à partir de wordnet + ressources Sur les 682 concepts de premier niveau 189 ne sont pas dans wordnet 9 types abstraits : act#n#2 : 140 abstraction#n#6 : 225 state#n#4 : 41psychological_feature#n#1 : 113 entity#n#1 : 368possession#n#2 : 6 phenomenon#n#1 : 105group#n#1 : 39 event#n#1 : 55 Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
act#n#2 : something that people do or cause to happen EX : APPROXIMATION -FRAGMENTATION -EXPLOSION -RETARDATION state#n#4 : the way something is with respect to its main attributes; "the current state of knowledge"; "his state of health"; "in a weak financial state" EX : PRESSURE -PLANE -IONIZATION -DESTRUCTION Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
psychological_feature#n#1 : a feature of the mental life of a living organism EX :SEEING – WAVELENGTH- PHOTOCHEMISTRY entity#n#1 :that which is perceived or known or inferred to have its own distinct existence (living or nonliving) EX : BEAM -THERMOSPHERE -CORE -BELT possession#n#2 :anything owned or possessed EX : ADJUSTMENT -RATES -EFFECTS Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
abstraction#n#6 : a general concept formed by extracting common features from specific examples EX PROMINENCE -SOLSTICE -EPOCH -GAP phenomenon#n#1 :any state or process known through the senses rather than by intuition or reasoning EX JETS -GRAVITATION -radioactivity - TRANSPARENCY Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
group#n#1 : any number of entities (members) considered as a unit EX : SYSTEM -INTERIOR -CLOUD -BETA event#n#1 : something that happens at a given place and time EX : VARIATION -ENCOUNTER - TIDE – DISSIPATION trop vague Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Utilisation de ressources du domaine (dictionnaire) ? faible couverture du domaine (environ 300 définition) Définir manuellement => utiliser pour concepts hors WordNet Hiérarchie de concepts Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Analyses des relations RT Analyse syntaxique Analyse des mots communs de deux syntagmes reliés par RT Analyse par le logiciel Syntex Analyse du contexte dans lequel apparaissent deux syntagmes reliés par RT, dans un corpus Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Analyses des relations RT 5975 relations RT 287 liant syntagmes différant dun seul mot Exemple : infrared radiation RT infrared 1286 liant syntagmes comportant mot commun Exemple : absorption spectra RT energy spectra Autres ? À partir des corpus (Syntex) Exemple : agb RT hr diagram : A&A95 agb star, hr diagram of star Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Analyse des relations RT Définition de quatre patrons syntaxiques : Rôle grammatical des termes communs dans le syntagme pour découvrir relations sémantiques Exemple : Patron B - m1 s1 RT m1 s2 m2 s2 - s1 « est un » s2 (généricité/spécificité) Exemple : dwarf cepheid « est un » cepheid Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Syntex Intérêt : analyse syntagmes reliés par RT sans mot commun à partir de contextes d apparition dans le corpus Syntagmes reliés par RT avec contexte commun, détermination de la relation sémantique à partir des patrons A,B,C,D Syntagmes reliés par RT dont un des mots apparaît dans le contexte de lautre syntagme, détermination de la relation sémantique à partir des patrons A,B,C,D Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Types de relation Bilan de la première proposition: s1 « est un phénomène lié a » s2 s 1 « est une caractéristique de » s2 s1 « est une partie de » s2 s1 « est un » s2 (généricité/spécificité) s1 et s2 sont des phénomènes liés entre eux s1 et s2 sont des caractéristiques liées entre elles s1 et s2 sont deux sous-concepts dun même concept relations intéressantes? Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Types de relation Autres approches : –Utiliser les verbes apparaissant dans le corpus Verbes apparaissant fréquemment : trop généraux car liés à la rédaction de publication find show Present have observe use Verbes avec fort tf.idf : Mauvaise reconnaissance de syntex Mirror eclipse s vector Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Types de relation –Utiliser le type des concepts Physical phenomena : « causer par » … Physical process : « fait interagir ».. Astronomical instrumentation : « mesure » … Astronomical/physical technics : « étudie » … Astronomical object : « est une partie de » … Property/caracteristic : « caractèrise » … Theory Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Détection de nouveaux termes du domaine –Termes apparaissant souvent dans le corpus –Termes avec fort tf.idf ou fort tf.idf moyen –Syntagmes contenant un terme de lontologie évaluer pour fixer seuil et meilleure approche Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Limites : –Mauvaise reconnaissance de Syntex (x ray, a star, …) Besoin dun fichier en entrée de Syntex des termes ayant une structure propre au domaine, proposition dune liste (évaluée) –Pour approche à partir des termes de lontologie, être certain de la pertinence des termes Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Futur Proposition de typage des concepts Nouvelles analyses de Syntex Nouvelles analyses des relations RT Approfondir ajout de nouveaux termes et leurs liens avec lexistant Lien avec UCD
Termes différant dun seul mot (2) Relations sémantiques déduites : Patron A : m1 s1 RT m1 s2 m2 s2 - s1 « est un phénomène lié a » s2 Exemple : infrared radiation « est un phénomène lié a » infrared - s1 « est une caractéristique de » s2 Exemple : pulse width « est une caractéristique » de pulse - s1 « est une partie de » s2 Exemple : supernova envelope « est une partie de » supernova Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Termes différant dun seul mot (3) Patron B : m1 s1 RT m1 s2 m2 s2 - s1 « est un » s2 (généricité/spécificité) Exemple : dwarf cepheid « est un » cepheid Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Termes ayant un mot commun Deux patrons syntaxiques: –m1 s1 m2 s1 …mn s1 RT m1 s2 m2 s2… m2 sn où m1 s1 = m1 s2 (patron C) Exemple : planck black body formula RT planck constant 590 relations –m1 s1... mn s1 RT m1 s2.. mn s2 (patron D) où mn s1 =mn s2 Exemple : absorption spectra RT energy spectra 510 relations Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Termes ayant un mot commun (2) Relations sémantiques déduites : Patron C : m1 s1 m2 s1 …mn s1 RT m1 s1 m2 s2… m2 sn - s1 et s2 sont des phénomènes liés entre eux Exemple : signal analysi RT signal detection - s1 et s2 sont des caractéristiques liées entre elle Exemple : circumstellar envelope RT circumstellar shell Nouvelle connaissance extraite des corpus Connaissance extraite de IAU
Termes ayant un mot commun (3) Patron D m1 s1... mn s1 RT m1 s2.. mn s2 –s1 et s2 sont deux sous-concepts du concept mn s1 Exemple : absorption spectra et energy spectra sont des sous- concepts de spectra Nouvelle connaissance extraite des corpus Connaissance extraite de IAU