Rapport dexpérimentations ACI-MDA H. KOU, A. Napoli and Y. Toussaint Orpailleur, LORIA/INRIA-Lorraine, Nancy, 15/10/2004
Plan Rappel sur les travaux précédents Descriptions et UCDs Analyse de la distributions dUCDs Passage à léchelle : Division de Corpus Performance Observations Distribution de performance Conclusion
Rappel sur les travaux précédents(1) Corpus 4904 descriptions:3371 pour lapprentissage (70%) et 1533 pour le test (30%) 98 UCDs: au moins 30 descriptions termes Connaissances pour lapprentissage Label, unit, descriptions Algorithmes évalués: k-NN et Naive Bayes: ont échoué Rocchio: a réussit
Rappel sur les travaux précédents(2) Performance par Rocchio Nbr UCDsRappel 183.7% 290.8% 393.1% Pour un UCD, rappel=Nbr de descriptions associées trouvées/nbr de descriptions associées
Passage à léchelle : Descriptions et UCDs Au total: 124,096 descriptions 1,183 UCDs Moyenne 105 descriptions / UCD Certains UCDs sont très fréquents; et dautres beaucoup moins Ex. 10,687 pour lUCD ERROR. 1 pour 145 UCDs
Analyse de la distributions dUCDs
Division du corpus Ont été retirés tous les UCD associés à moins de 4 descriptions : 305 Corpus est composé des 873 UCDs 123,518 descriptions Le corpus est divisé en deux parties : Apprentissage (70%):85951 Test (30%): termes
Performance Nbr UCDsRappel 166.3% 276.7% 380.7% Rocchio
Observations Rappels = 0 pour 37 UCDs Rappels très faibles pour 127 UCDs Rappels assez forts pour 119 UCDs Rappels très forts pour 519 UCDs
Rappels = 0 pour 37 UCDs (1) UCD nbr de desc AT_DATA 4 INST_PLATE_DIST 4 PHOT_DDO_ PHOT_MAG_K 4 PHOT_PHG_R-I 4 PHOT_HST_F850LP 4 PHOT_COUNT-RATE_GAMMA 4 PHOT_SB_LIMIT 4 PHOT_UV_ POS_RADIUS 4 PHOT_UV_ PHOT_DDO_ PHOT_IR_K-10 5 PHOT_HST_CI_B-V 5 PHOT_UV_COLOR 5 PHOT_DDO_ OBS_SLIT_ORIENT 6 SPECT_PECUL 6 UCD nbr de desc STAT_STDEV 6 PHOT_STR_U-V 6 INST_DET_MISC 7 INST_TYPE 8 ID_PARAM 9 PHOT_FLUX_RADIO_850M 9 MODEL_POP-SYNTHESIS 11 PHOT_FLUX_DENSITY 11 PHOT_FLUX_RADIO_180G 11 PHOT_UV_ INST_WAVELENGTH_COVERAGE 13 PHOT_HST_V 14 PHOT_COUNTS_MISC 15 POS_ANG_DIST_REL 19 PHOT_HST_CI_V-I 20 STAT_PROP 20 PHOT_SPHOT_INDEX 23 PHYS_DENSITY_SURFACE 37 CLASS_STRUCT 56
Rappels = 0 pour certain UCDs (2) Hétérogénéité entre ses descriptions pour apprentissage et pour test AT_DATA test Fraction of cascade contribution from the first series Fraction of cascade contribution from the second series apprentissage Fe XVI dielectronic satellite atomic data SPECT_PECUL test Spectral-luminosity peculiarities Spectral peculiarities apprentissage [yn] Emission line found in spectrum? (3) [Be] Be: Be star [ABE] Spectral characteristics (1) Spectrum
Rappels très faibles pour certains UCDs (1) Rappels (0, 0.50] pour 127 UCDs Certains UCDs sont fréquents Exemples UCD rappel nbr de desc REMARKS, CODE_MISC, ID_ALTERNATIVE, ID_MAIN, Concepts très étendus
Rappels très faibles pour certains UCDs (2)
Rappels très faibles pour certains UCDs (3) Spécialisation de définition dUCDs
Rappels assez forts pour certains UCDs Rappels [0.70, 0.90) pour 119 UCDs Pour améliorer les performances: Spécialisation de définition dUCDs Conversion dunités: 4850 MHz=>4.85 Ghz Flux density at 4850 MHz dans PHOT_FLUX_RADIO_5G PHOT_FLUX_RADIO_5G retourné si 4850 MHz=>4.85 Ghz PHOT_FLUX_RADIO_110M retourné sinon Error PHOT_FLUX_RADIO_5G_ERROR POS_EQ_RA_MAIN_ERROR
Rappels très forts pour certains UCDs(1) Rappels (9.0,1.0] pour 519 UCDs 271 UCDs un peu fréquents (<20 ) ucd rappel nbr de desc AT_ENERGY_FORMATION 1 4 AT_FREQUENCY_ROTAT 1 4 AT_LIFETIME 1 4 INST_ANG_PHASE 1 4 AT_TRANS_TYPE 1 4 INST_BASELINE 1 4 MODEL_FLUX 1 4 PHOT_CLASS 1 4 PHOT_DDO_M48 1 4
Rappels très forts pour certains UCDs(2) Vecteurs conceptuels bien concentrés TIME_EXPTIME => Exposure Time => time 0.35,exposure 0.319,exptime 0.16, exp 0.121,exposition 0.064, integration 0.039, total 0.033,texp 0.03, live 0.025,… Descriptions homogènes entre apprentissage et test
Rappels très forts pour certains UCDs(3)
Distribution de performance Rappel Nbr de UCD Rappel et Pourcentage dUCD
Conclusion Bonne perfomance globale dassignation UCD par Rocchio: 58% UCD dont les rappels>90% 71% UCD dont les rappels>70% Les définitions de certains UCDs restent à être spécialsés Mauvaise performance dassignation UCD Concepts très étendus 31% UCDs très peu utilisés Rapport dutilisation des connaissances de domaine pour améliorer les perfomances.
Pour le future Installer notre maquette à Strasbourg Rédiger des documents expliquant la structure des programmes, des données et comment maintenir le système
Merci
Vecteurs conceptuels étendus ID_ALTERNATIVE => Alternative identification => name 0.171,other 0.099,hd 0.047,identification 0.043,designation 0.04,number 0.039,catalog 0.039,cat 0.033,star 0.026,alternate 0.023,iras 0.021,hr 0.018,… ID_MAIN => Main Identifier of a Celestial Object => name 0.222,star 0.096,number 0.062,identification 0.054,id 0.052,designation 0.04,source 0.04,galaxy 0.036,object 0.035,hd 0.03,cluster 0.023,catalog 0.019,… CODE_MISC => Miscellaneous Codes or Flags => f 0.098,flag 0.07,code 0.033,indicate 0.026,band 0.018,source 0.017,reliable 0.014,cluster 0.013,measurement 0.012,confusion 0.012,note 0.012,type 0.012, …
Vecteurs conceptuals concentrés PHOT_JHN_V-I => Johnson color index V-I (JHN) => v-i 0.74,v 0.403,index 0.175,color 0.149,colour 0.147,dereddenned 0.021,v-ic 0.019,ic 0.016,johnson 0.014,… AT_OSC_STRENGTH => Oscillator Strength => oscillate 0.41,strength 0.335,gf 0.295,log 0.219,loggf 0.132,fv 0.046,fl 0.044,length 0.039,gf-value 0.037,j 0.032,absorption 0.031,statistical … PHOT_JHN_H-K => Johnson color index H-K (JHN) => h-k 0.658,k 0.427,h 0.362,color 0.13,index 0.095,colour 0.075,h-ks 0.035,ks 0.025,observe 0.024,cit 0.014,k-h 0.014,2mass 0.013,… PHOT_FLUX_IR_25 => Flux density (IRAS) at 25 microns => flux 0.246,mu 0.19,density 0.185,f ,25um 0.123,m 0.122,um 0.108,s25um 0.103,f25um 0.101,25micron 0.088,iras 0.083,s ,micron 0.066,… PHYS_TEMP_EFFEC => Effective Temperature => effective 0.354,temperature 0.354,teff 0.335,log 0.157,logte 0.137,logtu 0.086,uncorrected 0.083,wr 0.082,star 0.045,logteff 0.045,logarithm 0.027,…
Analysis de distributions dUCDs ERROR RECORD 9485 ID_MAIN 5811 NOTE 4797 POS_EQ_RA_MAIN 3716 POS_EQ_DEC_MAIN 3697 ID_ALTERNATIVE 3282 PHYS_ABUND_MISC 3019 CODE_ERROR 2468 NUMBER 2440 REFER_CODE 2286 CODE_MISC 2216 REMARKS 2019 CODE_LIMIT 1979 TIME_DATE 1975 SPECT_EQ-WIDTH 1854 VELOC_HC 1343 PHOT_JHN_V 1262 PHOT_DIFF_MAG 1240 FIT_PARAM_VALUE 1239 ID_NUMBER 1125