UE303.c : cours n°6 Conception de système d’information multimédia Promo. Master (M2) IST-IE 05/06 Conception de thésaurus : Terme - Concept - Relations sémantiques Par : Sahbi SIDHOM MCF. Université Nancy 2 Equipe de recherche SITE – LORIA sahbi.sidhom@loria.fr
Thésaurus : définitions (Michel Hudon, 1995) « une liste de mots simples ou d’expression ayant une valeur de terme dans un domaine limité de connaissance, le terme ayant définit comme la représentation linguistique (symbolique) d’un concept unique ». (Van Slype, 1987) « une liste structurée de concepts, destinée à représenter d’une manière univoque le contenu des documents et des questions dans un système documentaire déterminé, et à assister l’utilisateur dans l’indexation des document et des questions ». (AFNOR, 1981) « une liste d’autorité organisée de descripteurs et de non descripteurs obéissant à des règles terminologiques propres et reliés entre eux par des relations sémantiques (hiérarchiques, associatives, ou d’équivalence). Cette liste sert à traduire en un langage artificiel dépourvu d’ambiguïté des notion exprimé en langage naturel ». M2 IST-IE thésaurus : n° 6
Composants d’un thésaurus Un lexique (ou vocabulaires d’entrée, ensemble de mots d’une langue) descripteurs et non descripteurs Un sous ensemble de définitions et de notes d’application Notes historiques et notes d’application pratique Une structure classificatoire exprimée par des relations sémantiques entre les termes du lexique, et parfois traduits par une notation symboliques relation d’équivalence intra linguistique relation d’équivalence inter linguistique relation hiérarchique relation d’association M2 IST-IE thésaurus : n° 6
Rôle et fonction d’un thésaurus Faciliter la recherche documentaire et d’en augmenter l’efficacité Permettre un repérage exhaustif en liant les concepts et les termes proches Réduire l’impact des problèmes causés par la synonymie présente dans le langage naturel M2 IST-IE thésaurus : n° 6
Thésaurus et autre sources « terminologiques » Thésaurus de description et dictionnaire différence d’acception: concepts / Mots Thésaurus de description et thésaurus littéraire différence dans le rôle: définition / référence Thésaurus de description et banque terminologique différence d’interprétation: relations sémantiques Thésaurus de description et vedette-matière différence d’organisation: structure / hiérarchie M2 IST-IE thésaurus : n° 6
La structure sémantique d’un thésaurus Relation d’équivalence intra-linguistique entre des synonymes qui expriment la même idée, on distingue le mono-équivalent et le pluri-équivalent. On utilise la notation EM et le EP Relation hiérarchique relation d’inclusion et de supériorité, on distingue entre terme spécifique et terme générique. On utilise la notation TS/ TG Relation d’association analogie et lien de signification entre descripteurs. Moins définit et subjective. On utilise la notation TA Relation inter-linguistique relation symétrique entre deux descripteurs de deux ou plusieurs langues. on distingue entre équivalence complète et équivalence partielle. On utilise le notation An/ FR/ ES M2 IST-IE thésaurus : n° 6
Création d’un nouveau thésaurus Pour créer un nouveau thésaurus, il faut une: Évaluation des vocabulaires disponibles Analyse des besoins particuliers à l’environnement Domaine à couvrir, type et nombre de documents à traiter, besoin des usagers, … Évaluation des ressources Sélection des caractéristiques essentielles du thésaurus Profondeur et structure du thésaurus, … M2 IST-IE thésaurus : n° 6
Processus de construction d’un thésaurus : la collecte du vocabulaire Diverses sources terminologiques peuvent contribuer à l’exploitation : Un langage documentaire existant Un thésaurus extérieur au service Une Banque de données terminologiques Une indexation intellectuelle Une indexation automatique … M2 IST-IE thésaurus : n° 6
le groupement se fait par thème ou par facette Processus de construction d’un thésaurus : listage des micro-disciplines établir une liste provisoire des grands thèmes. Le nombre de groupes à retenir est fonction du volume thésaurial la liste de micro-disciplines a pour objet de faciliter la manipulation et la prise de décision le groupement se fait par thème ou par facette M2 IST-IE thésaurus : n° 6
Processus de construction d’un thésaurus : réduction du langage documentaire Cette phase comporte les étapes suivantes établissement de la structure d’équivalence sémantique établissement de la structure hiérarchique traitement des doubles emplois recherche des équivalents inter-linguistiques établissement des relations associatives Élaboration de la structure d’équivalence sémantique Établir la liste des termes synonymes ou quasi-synonymes Choisir dans chaque liste les termes qui auront le statut de non descripteur et les rattacher au descripteur/ on choisi le plus neutre, le plus utilisé dans la profession M2 IST-IE thésaurus : n° 6
synonymie véritable La forme complète d’un nom et son abréviation Ex: IMA (institut de monde Arabe) Le nom populaire et le nom scientifique Ex: Vitamine C (Acide Ascorbique) Le nom scientifique et le nom commercial Ex: Acide Acétylsalicylique (Asprine) Les variantes orthographiques d’un même mot Ex: clef (clé) L’appellation ancienne et l’appellation moderne d’un même concept Ex: pays sous développé (pays en développement) Les termes d’origine linguistique différents Ex: Marketing (mercatique) Les termes d’origine culturelle différents Ex : Parking (stationnement) M2 IST-IE thésaurus : n° 6
Élaboration de la structure hiérarchique Construire des chaînes hiérarchiques par micro-discipline. Toutes les hiérarchies ne possèdent pas un nombre égal de niveaux. Mais il y a une logique comparable entre concepts qu’il faut respecter. On identifie les relations hiérarchiques par plusieurs moyens comme l’emploie des énoncés suivants: Certain A sont des B. Tous les B sont A (relation d’inclusion) . Ex: animaux / Rongeurs # animaux familiers / Rongeurs X (spécifique) est toujours et nécessairement un Y (générique) Ex: la discrimination religieuse est toujours et nécessairement un type de discrimination (TG) M2 IST-IE thésaurus : n° 6
Traitement des doubles emplois Traitement de la poly-hiérarchies: le même concepts exprimés dans deux ou plusieurs micro-thésaurus Traitement des anomalies Descripteurs identiques désignant des concepts différents: ajouter un qualificateurs Non descripteurs identiques liés à des descripteurs différents: Ajouter un qualificateur Termes retenus à la fois comme descripteurs dans un champs et non descripteurs dans un autre: élimination dans l’un ou l’autre champs Relation hiérarchique entre descripteurs et non descripteurs : à exclure M2 IST-IE thésaurus : n° 6
Recherche des équivalents inter-linguistiques La recherche des équivalents linguistiques ne peut se faire qu’à partir du moment où le contenu sémantique des descripteurs de la langue de base est fixé, grâce à des relations d’appartenance et d’équivalence. on trouve les situations suivantes: Équivalence certaine. Ex: route / Road Léger décalage de sens. Ex: services de documentation/ special library Pas d’équivalence de tout. Utilisation d’une périphrase ou adoption de terme étrangers M2 IST-IE thésaurus : n° 6
Établissement des relations associatives Seuls les termes qui ont été choisis comme descripteurs peuvent être associés. L’association se fait à un niveau inter-hiérarchique Plusieurs types d’association possibles : la cause et l’effet: ex: infection et Maladie le tout et sa partie ex: livre et reliure l’action et son agent . Ex: économie et économiste l’action et le lieu d’action. Ex: enseignement et école la science et son objet. EX: documentation et document l’objet et sa propriété. Ex : Poison et Toxicité l’objet et son application . Ex : Ordinateur et traitement de données M2 IST-IE thésaurus : n° 6
Derniers étapes de construction Réalisation de l’édition expérimentale Formation des « indexeurs » Tester le thésaurus ajout de descripteurs modification des structures explication des descripteurs (encore ambigus) Révision finale et réalisation de l’édition opérationnelle M2 IST-IE thésaurus : n° 6
Liens utiles http://fr.thesaurus.gc.ca/intro_f.html M2 IST-IE thésaurus : n° 6
INAthèque : thésaurus Descripteurs : Collège de France; science; chercheur (scientifique); recherche scientifique; société; culture-savoir Descripteurs secondaires : sciences humaines; enseignement M2 IST-IE thésaurus : n° 6
Explications : relations M2 IST-IE thésaurus : n° 6
Relations d’équivalence : EM, EP (élimine la synonymie) B EM : Employer Déf. : non DES ----------- DES Ex. : Calculateur ------------ Ordinateur EP EP : Employer Pour Déf. : DES ----------- non DES Ex. : Ecologie ------------ Étude du milieu/ environnement M2 IST-IE thésaurus : n° 6
Relations hiérarchiques : TS, TG (rapports de supériorité / subordination) TS : (terme spécifique) Déf. : relation qui va du générique au spécifique Ex. : Oiseau ------------- Rapace ------------- Aigle TG TG : (terme générique) Déf. : relation qui va du spécifique au générique Ex. : Aigle ------------- Rapace diurne Chouette ------------- Rapace nocturne M2 IST-IE thésaurus : n° 6
Relations associatives : TA (pour exprimer des analogie de significations) B Antonymie (sens contraire) Ex. : imperméabilité ------------- perméabilité TA 2. Cause et effet Ex. : enseignement ------------- instruction 3. Rapport instrumental Ex. : écriture ------------- crayon M2 IST-IE thésaurus : n° 6
Notes d’application : NA Brèves explications, définitions, ce qui explique les modalités d’emploi d’un terme DES (descripteur) pour éviter les ambiguïtés (la polysémie) Exemple : mémoire ------------ informatique ------- psychologie ------- études NA A NA B C M2 IST-IE thésaurus : n° 6