Approche critique des produits IdL Master 1 IdL Année 2009 - 2010 Auriane Faure faureauriane@gmail.com http://aurianefaure.free.fr
Objet du cours Produits IdL et Sciences du langage Construction et mise en œuvre d’une évaluation Quelle évolution possible / nécessaire d’un logiciel Regard critique sur le TAL et les outils qui l’utilisent Produits IdL et ScL : quand on enseigne une langue, ou quand on l’utilise par l’intermédiaire d’un logiciel, même problématique centrale : il faut connaître son fonctionnement intrinsèque, et donc être capable de la modéliser. Important dans les idL, la modélisation de la langue exploitée ! Quelle portion de langue, quel modèle ? En tenir compte dans les tests mis en place pour évaluation > quelle tâche teste-t-on? Avec quel échantillons de langue ? Quelle portion ? Ex : je dois tester un conjugueur automatique. Quand je donne un verbe à l’infinitif en entrée, il doit me le conjuguer correctement. Ex avec verbe du 2nd groupe… quels verbes pour couverture complète -ir ou -ïr . Idem groupe 1er : quel verbe tester pour voir si le logiciel est cohérent… voir comment il conjugue le verbe aller Compétences qu’il faut pour évaluer Bien connaître le domaine du produit > lgstc, technique (info), et éventuellement socio > usages, pratiques, réception de l’outil… Approche critique des produits IdL - Cours 1
Déroulement Cours d’introduction à l’évaluation Cours sur 4 grandes familles d’outils IdL Mener une évaluation Approche critique des produits IdL - Cours 1
Plan 1. Le TAL et les produits IdL 2. Une approche critique ? 3. Principes d’évaluation Pourquoi ? Quoi ? Comment ? Approche critique des produits IdL - Cours 1
1. Le TAL Approche critique des produits IdL - Cours 1
1. Le TAL Terminologie TAL : plutôt recherche. Utilisation de l’informatique pour traiter le langage naturel TAL = NLP = Linguistique computationnelle = CL IdL : domaine applicatif. Logiciels utilisant le langage sous des aspects très limités En gros, pas vraiment de différence Approche critique des produits IdL - Cours 1
D’où vient le TAL ? Du mythe de l’automate… D’après J. Véronis (2001) Du mythe de l’automate… Imiter les fonctions humaines Mécanique physique Mécanique des langues À la linguistique computationnelle Naissance de l’ordinateur Ordinateur et cerveau humain… Linguistique informatique Mythe de l’automate : imiter les fonctions humaines, but tecnique, récératif, sctfq… La capacité de langage est la plus difficile à modéliser. Elle fait appel à la compréhension, et donc à l’intelligence, alors qu’on ne sait reproduire que des choses purelent mécaniques. A la renaissance, vision mécaniste du corps humain : Da Vinci (16ème) voit le corps comme un agencement de poulis et de cordes. Fin obscurantisme religieux, accès aux cadavres pour autopsie et dissection: compréhension de la mécanique interne. Mécanique des langues : 17 et 18ème + phonation : articulatoire, acoustique, mécanique : observation du conduit vocal, des organes, de la production de sons. Construction de têtes parlantes > Von Kempelen (1791) soufflet, anche, résonneur qu’on active à la main + grammaire et sémantique : - grammaire comme système de la langue > 17ème, langue artificielle universelle qui serait fondée sur un mécanisme de calcul (moyen de C entre les peuples)… - sémantique : « langue philosophique » : « dénombrer toutes les pensées des hommes, et découvrir l’ordre naturel de leur composition à partir des éléments primitifs (de sens) ». La pensée comme CALCUL (prémisses de l’infotq) Linguistique computationnelle +Naissance de l’ordo 2GM : besoin de calculs massifs en crypto, balistique, et physique nuclaire > machines à calculer. 1948 : transistor: possibilité de miniaturisation. 1965 : IBM ordinateur 64 à 256Ko de RAM Début Wx TAL dbt 50’s, en TA. 1960 : The box is in the pen / the pen is in the box > besoin de K sur le monde, impossible pour ordi. Coup d’arrêt +Ordo et cerveau Débat sur la nature de la pensée et l’intelligence. 1er Wx en IA : simuler la pensée humaine par le calcul de la machine. IA et langage : réseaux sémantique > représentation des K, inférences > $ de dialogue ELIZA +linguistique informatique Connexions qui s’établissent entre communauté TAL et IA : émergence d’une vraie linguistique informatique 62 : Asso for CL; 75 : revue CLs ; Plusieurs directions : morpho, syntaxe, sémantique Multiples applications. Approche critique des produits IdL - Cours 1
Le TAL Double objectif Double compétence Etude des langues et de la faculté de langage Exécution de certaines tâches linguistiques Double compétence Sciences du langage Informatique Traditionnel « Analyse / Génération » Le TAL… ou TALN : langage NATUREL, par opposition à un langage contrôle Double objectif 1) vision + scientifique 2) vision plus technologique Double compétence Traitement de l’écrit et de l’oral; besoinde connaissances linguistiques sur les différents niveaux, sur les théories des langages, etc. Infotq : compréhension d’algorithme, capacité de conception d’un système modulaire, parfois coder, maîtrise des modèles informatiques et statistiques. Traditionnel : quand on parle de Tal, il s’agit de traiter par l’outil informatique de la langue naturelle. Traitement = transformer un objet d’entrée en un objet de sortie. Ds cette situation, traitement de 2 types : * agir sur les textes pour les corriger, condenser, traduire > étape intermédiaire : extraire une représentation > ANALYSE * produire un texte en langue naturelle, à partir d’une représentation > GENERATION Approche critique des produits IdL - Cours 1
Le TAL (2) Modélisation informatique Modélisation linguistique Opérationnaliser des modèles linguistiques pour les tester et comprendre le système linguistique sous-jacent Reproduire une capacité humaine (sans comprendre son fonctionnement) pour exécution d’une tâche Modélisation linguistique Parole Ecrit Modélisation informatique : deux perspectives différentes 1) Importer des modèles linguistique et cognitifs, les adapter, les tester 2) Modéliser le langage humain pour le reproduire par la machine, sans chercher à expliquer son fonctionnement… Vision d’ingénierie de la langue. Objectif de productivité face à une tâche, mais pas de compréhension des mécanismes. + Utilisation de modèles d’IA, algo info et math, modèles statistiques + Modélisation informatique -> développement informatique -> outils logiciels Modélisation linguistique : tous les niveaux d’étude du langage sont traités. Théories linguistiques mises à l’épreuve, puis ajustées de manière empirique… Connaissances sur la langue : Phonéiques et ^phonologiques Morphologiques : onstruction des mots Syntaxiques Sémantiques Pragmatiques A chaque domaine de connaissance peut correspondre un module dans l’implémentation informatique (architecture séquentielle, en strates). Ou utilisation Approche critique des produits IdL - Cours 1
Produits IdL Typologie Parole Ecrit A : reconnaissance G : synthèse 1. Le TAL Produits IdL Typologie Parole A : reconnaissance G : synthèse Ecrit Traduction automatique Recherche d’information Dialogue homme-machine Aide à la rédaction Outils pour l’apprentissage des langues Génération automatique de textes Leur demander une liste, et compléter avec la liste Popescu-Belli Parole Reconnaissance de signal : message/locuteur Synthèse : produire un message original Ecrit Traduction automatique et aide à la traduction automatique RI : indexation automatique, extraction de termes/de concepts, recherche documentaire Dialogue HM : interfaces en LN pour interrogation BD, commandes robot/machine, systèmes experts Aide à la rédaction : correcteurs (ortho, syntaxe, style) Outils apptsg des langues. Plutôt mixtes (parole aussi) GAT : produire à partir de données brutes des textes en LN. Ex. bourse, météo : on a des données brutes très structurées donc faciles à exploiter. Approche critique des produits IdL - Cours 1
2. Approche critique Approche critique des produits IdL - Cours 1
Esprit critique… La Zététique La science de l’esprit critique 2. Approche critique Esprit critique… La Zététique La science de l’esprit critique Je doute donc je suis Zététique : méthode de recherche fondée sur le doute et la vérification des informations. Refus de toute affirmation dogmatique « Scepticisme provisoire. Considérer le doute come un moyen, non comme une fin ». Déf. Sur le le site de l’Observatoire de zététique. Y’a une asso de zététique à Gre, avec chercheurs de la fac mais pas seulement. Cycle de conférence à Antigone (site), et midis critiques du DLST (pas loin de EVE) Zététique W sur q? paranormal, pseudo-sciences, pseudo-médecins, etc. Approche critique des produits IdL - Cours 1
Approche critique… Approche critique Evaluation Regard complet et complexe Analyse Méthode expérimentale Evaluation Croiser les regards critiques : Journaux spécialisés Campagnes d’évaluation Avoir une approche Critique : analyser une situation en tenant compte de tous ces paramètres. Mettre en place des conditions expérimentales contrôlées et stables. Lorsque approche critique d’un produit logiciel, tenir compte de tous ses paramètres, de son interface, des calculs effectués et comment ils le sont. Pour comparaison, mêmes données et même protocole. > Théorisé, formalisé, rationnalisé par la notion d’évaluation, les recherches et pratiques développées par communautés scientifiques et industrielles. Approche critique des produits IdL - Cours 1
3. Principes d’évaluation Approche critique des produits IdL - Cours 1
3.1. Pourquoi évaluer Approche critique des produits IdL - Cours 1
Pourquoi évaluer ? Emulation Validation Retour d’expérience Evaluation : mesurer à quel point un $ répond correctement à une tâche précise. Objectif est donc pour un système d’être le meilleur possible: donner le + de réponses justes. Emulation : Innovation : mesurer impact de nouvelles approches sur $; Construction de référentiel commun (tâches et terminologie) Confrontation de résultat et communication dans la com. Stfq Validation Phase essentielle en développement logiciel : valider hypothèses rch, attester progrès réalisés, choisir parmi alternatives de recherche, clarifier l’offre technologique Augmentation de la pertinence d’un $ Visibilité des résultats Retour d’expérience Industrialisation : éval met en avant des techno/des axes de recherche susceptibles d’intéresser industriels pour mise sur le marché > développement appli commerciale Financeurs : moyen pour financeurs projet et/ou campagne d’avoir un retour quantifié sur les progrès effectués Approche critique des produits IdL - Cours 1
Pourquoi évaluer en TAL? Problématique ancienne Test de Cranfield : 1960 Pratique informatique forte Problématique actuelle Maturité des propositions Foisonnement de l’offre Evaluation en TAL pour les mêmes raisons qu’évoquer précédemment. Pbtq ancienne Cranfield : 1960. évaluation comparative de 33 systèmes d’indexation (SRI) sur une collection de 1400 documents et un ensemble de 331 requêtes ; Pratique inftq forte, débeuguer, tester applications pour voir si elles fonctionnent > « tradition » héritée de ce domaine Pbtq actuelle Domaine qui a évolué, maturité des propositions, des modèles. Recul, temps écoulé. Du coup bcp de propositions logicielles, pas toutes bonnes, pas toutes bonnes pour les mêmes raisons… Débrousailler un peu tout ça, et viser les meilleures propositions Approche critique des produits IdL - Cours 1
Deux orientations Evaluation orientée système 3.1. Pourquoi évaluer ? Deux orientations Evaluation orientée système Méthodes de laboratoire Limites Evaluation orientée utilisateur Prise en compte du contexte d’usage Modélisation des usages/usagers Orienté Système (system oriented) Méthodes de labo : protocoles fixes, mesures et métriques précises Limites : quelle place pour l’humain ? Du coup, volonté de replacer l’utilisateur (l’humain) au centre du processus > User oriented. Volonté initiale d’améliorer les protocoles pour meilleure prise en compte, puis constitution d’un champ de recherche à part entière Nous nous placerons dans une éval system oriented > evaluation orientée usager demande des protocoles avec humains nombreux, long à mettre ne place… Orienté system sera suffisant, et déjà assez vaste. Approche critique des produits IdL - Cours 1
Campagnes d’évaluation 3.1. Pourquoi évaluer ? Campagnes d’évaluation Campagnes thématiques Organisation et objectifs Ressources fournies Déroulement Phase d’entraînement Phase d’apprentissage Phase de test Analyse des résultats Ressources fournies > coprus de test, d’apprentissage. Questions Organisation : organismes nationaux/internationaux . Objectifs : comparaison normée, pour affichage public. Approche critique des produits IdL - Cours 1
Campagnes d’évaluation 3.1. Pourquoi évaluer ? Campagnes d’évaluation Cranfield 2 (1960) Campagnes USA (80’s) Programmes européens (90’s) Le programme Technolangue Organisation de campagnes d’évaluation Élaboration de méthodologies génériques d’évaluation Enjeux théoriques et méthodologiques des pratiques évaluatives Cranfield : évaluation comparative de 33 systèmes d’indexation (SRI) sur une collection de 1400 documents et un ensemble de 331 requêtes ; Les USA Approche descendante avec un pilotage fort par une infrastructure permanente : • Defence Advanced Research Projets Agency (DARPA) ; • National Institute of Standards and Technology (NIST) ; • Linguistic Data consortium (LDC). Europe : prise de conscience tardive des enjeux… Objectifs : France : prog Technolange (2002-2009) 1. Avoir des protocoles d’évaluation pertinents, efficaces, robustes ; 2. Prise en compte aussi bien des caractéristiques intrinsèques des technologies et des systèmes que des contextes réels d’usage. Approche critique des produits IdL - Cours 1
3.2. Quoi évaluer ? Approche critique des produits IdL - Cours 1 Evaluer les deux dimensions : Linguistique : couverture d’un phénomène, d’un champ, d’un style 2. Informatique : les performances d’un système en calcul, l’implémentation linguistique. J’insiste fortement sur le fait que l’aspect linguistique ne DOIT pas être dissocié. Approche critique des produits IdL - Cours 1
La « qualité » d’un système 3.2. Quoi évaluer ? La « qualité » d’un système Norme ISO « Ensemble des caractéristiques d’un logiciel pour répondre aux besoins de ses utilisateurs » 3 dimensions À l’usage Externe Interne Organisation Internationale de normalisation > édicte des normes internationales (17500 today) sur thèmes très variés > qlT $, frigo ou machine à laver, confection fromages,etc. Evaluation globale d’un système. Définition, reprise dans 3 aspects, 3 dimensions traitées A l’usage : analyse besoin des utilisateurs. Placer le $ ds contexte et voir adéquation logiciel <-> besoins Externe : spécification fonctionnelles (quels calculs pour quels résultats). Mesurer l’exécution logicielle et sa pertinence Interne : modèle choisi, conception : sans execution du logiciel, dissection de ses composantes et leurs rôles respectifs.
La « qualité » d’un système 3.2. Quoi évaluer ? La « qualité » d’un système Norme ISO « Ensemble des caractéristiques d’un logiciel pour répondre aux besoins de ses utilisateurs » 3 dimensions À l’usage Externe Interne
5 niveaux d’évaluation Evaluation de la recherche de base 3.2. Quoi évaluer ? 5 niveaux d’évaluation D’après le consortium ELSE Evaluation de la recherche de base Evaluation technologique Evaluation d’usage Evaluation d’impact Evaluation de programme Consortium ELSE, issu du projet européen du même nom Reprend les 3 niveaux vus précédemment, mais en ajoute deux supplémentaires, dus à son contexte « campagne d’évaluation » E. De rch : valider une nvL idée, mesurer innovation d’une méthode par rapport à d’autres E. Technologique : mesure efficacité et performance du $ face à une tâche (résolution d’un pb bien défini) E. d’usage : mesure l’utilisation (utilisabilité) d’un techno par user en condition écologique pour résoudre un problème E. d’impact : évaluation des conséquences socio-éco d’une techno E. De programme : voir si programme de financement a atteint ses obj initiaux > techno - centré +« analyse des pratiques » > anthropocentré; sociologie des usages; observation des pratiques en conditions écologiques Approche critique des produits IdL - Cours 1
5 niveaux d’évaluation Evaluation de la recherche de base 3.2. Quoi évaluer ? 5 niveaux d’évaluation D’après le consortium ELSE Evaluation de la recherche de base Evaluation technologique Evaluation d’usage Evaluation d’impact Evaluation de programme Approche critique des produits IdL - Cours 1
Dimension « usages » Utilisabilité Satisfaction Rendement 3.2. Quoi évaluer ? Dimension « usages » Utilisabilité Satisfaction Rendement Replacer l’utilisateur dans processus d’évaluation Analyse des pratiques Reprendre ici les 3 dimensions « essentielles » dans une évaluation. Souvent traitées séparement, parfois traitées conjointement : usages, externe (ou orienté calcul), interne (ou orienté processus de calcul internes) Ce qui est aussi Evaluation d’usage dans ELSE : « mesure l’utilisation (utilisabilité) d’un techno par user en condition écologique pour résoudre un problème » = Ergonomie; sureté de l’utilisateur face à l’outil : ose-t-il s’en emparer ou pas ? Satisfaction : « Analyse du besoin et réponse apportée à ce besoin Rendement : adéquation entre besoin et qualité et quantité des réponses apportées. Ex : si demande large/demande très spécialisée, noyer de réponse ou très peu de réponses Il s’agit dans cette dimension de rendre à l’utilisateur (ou lui donner, parce qu’il est toujours oublié par les spécialistes qui développe l’ouitl qui lui est destiné…) sa place dans l’évaluation, et au delà dans la construction systèmes. Passer d’une vision techno-centrée à une vision anthropo-centrée. Approche qui peut être couplée à cette dimension d’éval : l’analyse des pratiques: Observer comment utilisateur se saisit de l’outil, se familiarise avec, le détourne (« catachrèse katakrèz »). Sociologie des usages > modes de réception de la technique et de ses usages
Dimension « externe » Pour résoudre un problème posé : Performance 3.2. Quoi évaluer ? Dimension « externe » Pour résoudre un problème posé : Performance Couverture Robustesse Pertinence Evaluation = évaluation technologique. spécification fonctionnelles (quels calculs pour quels résultats). Mesurer l’exécution logicielle pour résoudre un problème bien défini et sa pertinence Fonctionnement « normal » Tâches attendues, conditions « habituelles » Mesure des performances attendues Fonctionnement « à la marge » Tâches inattendues Mesurer la robustesse Performance : est-ce que tout est optimal au niveau de la conception, du développement du système ? Possibilité d’amélioration ? rapidité du calcul Couverture : Etendue du domaine langagier couvert (ex TA : une langue vers une autre ? N vers n ?. Ex RI : mots-clés, langage naturel ?) Robustesse : réponses en condition habituelle et en condition inhabituelle. Ex. Je change le format d’entrée, je change le type de données en entrée (style journalistique > style romancé). Est-ce que le logiciel est conçu pour supporter des conditions inhabituelles ? Proche de la notion d’adaptabilité : capable de réagir « intelligemment » en dehors de son domaine de couverture initial ? Pertinence : Résultats fournis en adéquation avec la tâche initiale ? Résultats justes ? Vision généralement BINAIRE, mais attention : interprétation de l’utilisateur (retour pbtq place de l’utilisateur dans les systèmes)
Dimension « interne » Caractéristiques intrinsèques 3.2. Quoi évaluer ? Dimension « interne » Caractéristiques intrinsèques Modèle linguistique Conception du système = évaluation de la recherche Interne : modèle choisi, conception : sans execution du logiciel, dissection de ses composantes et leurs rôles respectifs.
3.3. Comment évaluer ? Approche critique des produits IdL - Cours 1 Maintenant qu’on a vu les aspects généraux à évaluer, voir précisément comment évaluer la dimension « externe » ou « technologique », c’est à dire évaluer comment le système effectue une tache précise > évaluer s’il produit des réponses justes et pertinentes. Approche critique des produits IdL - Cours 1
Individuelle vs comparative 3.3. Comment évaluer ? Individuelle vs comparative Evaluation individuelle Aptitude d’un système à réaliser une tâche Mesure de performance au regard d’une mesure étalon Evaluation comparative Réalisation d’une tâche et comparaison avec résultats d’autres systèmes Deux méthodes : 1. Fixer une mesure étalon (gold standard) Permet d’établir un classement des différents systèmes évalués 2. Comparer les performances de différents systèmes pour faire un choix ; Comparer les performances Exemple en recherche d’information : + on recherche sur le net les pages traitant du sujet Ségolène Royal et les chèques contraceptifs. On sait que 5 documents particulièrement pertinents existent (ex Article du Monde, article Planning familiaux, article CR poitou charentes, articles FRASC, article Le Figaro) Cas 1 : On lance plusieurs requêtes avec un moteur et on regarde le résultat Cas 2 : On lance la même requête avec Yahoo, Google, Kartoo, The Brain, etc. et on voit comment chacun positionne ces documents Exemple en TA… Approche critique des produits IdL - Cours 1
Deux types d’évaluation 3.3. Comment évaluer ? Deux types d’évaluation Boîte noire Entrée/sortie Evaluation des résultats Boîte transparente Structure interne Diagnostic précis des performances Le choix entre les 2 dépend du but de l’évaluation En génie logiciel : Boîte noire : Tests choisis en fonction des relations entre entrée et sortie. On ne s’intéresse pas à la structure interne du $. Analyse des donnÈes fournies au systËme (entrant / input)et des rÈsultats produits par celui-ci (sortant / output). Evaluation de la performance globale du systËme dans líobjectif pour lequel il a ÈtÈ conÁu. On ne tient pas compte des performances et de la qualitÈ interne du systËme. ␣Cíest líÈvaluation la moins problÈmatique, la plus objective. Utilisation : analyse comparative de systËmes diffÈrents.ï BOITE TRANSPARENTE Concentrer test sur modules internes; mesurer la couverture du $. Mesurer impact de chaque module sur performances globales Observation du fonctionnement du systËme ‡ travers le comportement de ses diffÈrentes composantes face au besoin demandÈ. ␣Evaluation centrÈe sur la qualitÈ du systËme, sur son optimalisation. ␣Elle nÈcessite líaccËs ‡ líarchitecture et aux codages du systËme. Utilisation : analyse d’architectures modulaires. Choix : BN : éval comprative entre $ BT : +analytique > évaluation générique (ex : projets européens) + méthodes centrées sur l’utilisateur : encore limitées, et difficilement conciliable avec éval comparatives. Approche critique des produits IdL - Cours 1
Processus Quelle tâche linguistique ? Quelle tâche de contrôle ? 3.3. Comment évaluer ? Processus Quelle tâche linguistique ? Quelle tâche de contrôle ? Quelles ressources ? Quelle métrique ? Exemple : campagne d’évaluation en RI Définir l’objectif de l’évaluation : quel phénomène linguistique je cherche à tester ? Traduction d’expressions figées / aptsg règles de conjugaison des vb du 2nd groupe Ici, on définit la tâche, le processus, le traitement que le système doit effectuer Ressources > quelles données en entrée au système ? Quelle batterie de test ? Eventuellement les données justes/jugées pertinentes Quelle métrique ? Mesurer les résultats du traitement sur les données d’entrées > juste/pertinent ? Binaire (juste/faux), échelle ? Tout cela revient à établir un protocole, dont chaque étape est pensée en fonction de l’objectif de départ, et permet d’obtenir des résultats quantifiés à traiter pour évaluer le système dans une tâche. En RI : Retrouver des documents dans un ensemble documentaire Pour une requête donner une liste de doc pertinents Ressource : l’ensemble doc, les requêtes à tester, les résultats à obtenir Métrique : rappel (%des réponses pertinentes données par le système / l’ensemble des réponses existantes ds corpus de base) et précision (% réponses positives ds réponsesdonnées par le système). Binaire Approche critique des produits IdL - Cours 1
Métriques Idée générale du niveau de performance Etat de l’art commun 3.3. Comment évaluer ? Métriques Idée générale du niveau de performance Etat de l’art commun Types de mesures : Une valeur de référence Une comparaison entre systèmes Implication de l’humain Idée générale Dans une optique « économique ». ex : reco optique de caractères est « rentable » si reco réussie à 99,7%… Sinon, plus efficace de se servir d’un clavier. Représentative de la difficulté de la tâche… Seuil +- haut en fonction de la tâche > exigence adaptée Donc dépendante de la tâche Etat de l’art commun dans une éval comparative, la métrique est la même pour tous. Permet d’avoir une comparaison égalitaire des systèmes. Fige un état de l’art à un instant t: systèmes tous traité dans le smêmes conditions en même temps. En plus, on voit les progrès entre deux éval… Valeur de référence ou comparaison Obtenir valeur de référence à partir du rappel et de la précision + une tâche est « techinque » plus elle est facile à mesurer… quand grande part d’interprétaton, métrique difficile à trouver > formalisation compliquée mais nécessaire en évaluation Dans vos évaluations, se fixer une métrique. Implication de l’humain pour choix des métriqus, vérification éventuelle des résultats (si processus ps automatisé) Approche critique des produits IdL - Cours 1
Ressources TOUT tester est impossible 3.3. Comment évaluer ? Ressources TOUT tester est impossible Echantillon représentatif et significatif Construction : Cas général Cas particuliers Quand on veut évaluer comment un système traite un phénomène linguistique, il est impossible de TOUT traiter, tous les cas. Ce serait fastidieux (genre tous les verbes du 2nd groupe), et parfois impossible parce que TOUT n’existe pas (tous les noms propres: exhaustivité n’est pas possible). Du coup, obligation de constituer un corpus référentiel, qui est un échantillonage des cas linguistiques à traiter. Parfois les ressources existent (c’est le cas dans les campagnes d’évaluation), parfois il faut les créer : ce sera le cas dans ce cours. Par exemple dans campagnes d’éval des moteurs de recherche, on donne en entrée Ressource : l’ensemble doc, les requêtes à tester, les résultats à obtenir Pour vos évaluations, construction d’une collection de tests en entrée, et validation/invalidation des résultats obtenus. Approche critique des produits IdL - Cours 1
Exemples de travaux rendus Analyse comparative de la correction orthographique entre Word et OpenOffice (accessible en ligne : ) Google vs. Yahoo!Search (RI) RI avec ou sans index dans l’encyclopédie Universalis