La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

INF L11 Langage et informatique 1

Présentations similaires


Présentation au sujet: "INF L11 Langage et informatique 1"— Transcription de la présentation:

1 INF L11 Langage et informatique 1
Cours 10 – Correction orthographique

2 Introduction Quantité colossale de textes écrits
Sans doute en très grande progression Web Chats SMS Blogs La planète n’a jamais autant écrit ! Orthographe souvent approximative

3 Application Pas seulement problème cosmétique Exemples
Recherche d’information

4 Exemple (Google) 488941 britney spears 40134 brittany spears
36315 brittney spears 24342 britany spears 7331 britny spears 6633 briteny spears 2696 britteny spears 1807 briney spears 1635 brittny spears 1479 brintey spears 1479 britanny spears 1338 britiny spears 1211 britnet spears 1096 britiney spears 991 britaney spears 991 britnay spears 811 brithney spears 811 brtiney spears 664 birtney spears 664 brintney spears 664 briteney spears 601 bitney spears 601 brinty spears 544 brittaney spears 544 brittnay spears 364 britey spears 364 brittiny spears 329 brtney spears 269 bretney spears 269 britneys spears 244 britne spears 244 brytney spears 220 breatney spears 220 britiany spears 199 britnney spears 163 britnry spears 147 breatny spears 147 brittiney spears 147 britty spears 147 brotney spears 147 brutney spears 133 britteney spears 133 briyney spears 121 bittany spears 121 bridney spears 121 britainy spears 121 britmey spears 109 brietney spears 109 brithny spears 109 britni spears ... etc.

5

6 Application Pas seulement problème cosmétique Exemples
Recherche d’information Traduction automatique

7

8 Application Pas seulement problème cosmétique Exemples
Recherche d’information Traduction automatique Synthèse de la parole

9

10 Terminologie Tradition orthographe d’usage ou lexicale
écriture du mot en lui-même, sans considération des rapports qu’il entretient avec le reste de la phrase ex. fôte, ortografe, lappin, etc. orthographe grammaticale partie qui dépend des relations grammaticales accords : des faute d’orthographe, nous sommes venu conjugaisons : je vous aimez, nous avons manger homographes grammaticaux : c’est – ces –ses, à – a, etc.

11 Terminologie Jargon informatique Correcteur orthographique
= orthographe d’usage (lexicale) Correcteur grammatical = orthographe grammaticale + autres erreurs de grammaire, non orthographiques

12 Orthographe lexicale Principe de base
La machine contient un dictionnaire Chaque mot du texte est comparé au dictionnaire

13 Deux problèmes différents
Détecter les erreurs Souligner les mots erronés Fournir des corrections possibles

14 ? Détection Un accès au dictionnaire orthograffe ... orteil orteils
orthodoxe orthodoxes orthodoxie orthodoxies orthogonal orthogonale orthogonales orthogonaux orthographe orthographes orthophonie orthophonies orthopédie orthopédies orthopédique orthopédiques ortie orties orthograffe ? Détection Un accès au dictionnaire

15 ? Correction Plus compliqué orthograffe ... orteil orteils orthodoxe
orthodoxes orthodoxie orthodoxies orthogonal orthogonale orthogonales orthogonaux orthographe orthographes orthophonie orthophonies orthopédie orthopédies orthopédique orthopédiques ortie orties orthograffe ? on propose quoi ? Correction Plus compliqué

16 Problème Où chercher ? ortographe ... orteil orteils orthodoxe
orthodoxes orthodoxie orthodoxies orthogonal orthogonale orthogonales orthogonaux orthographe orthographes orthophonie orthophonies orthopédie orthopédies orthopédique orthopédiques ortie orties Problème Où chercher ? ortographe (loin !)

17 Problème Encore pire rthographe ... orteil orteils orthodoxe
orthodoxes orthodoxie orthodoxies orthogonal orthogonale orthogonales orthogonaux orthographe orthographes orthophonie orthophonies orthopédie orthopédies orthopédique orthopédiques ortie orties Problème Encore pire rthographe (très très loin !)

18 Temps de calcul Il faudrait parcourir tout le dictionnaire pour chaque mot Trop coûteux en temps de calcul Donc, méthodes approximatives bonnes la plupart du temps échouent de temps à autre... Il faut avoir un « modèle des erreurs »

19 Modèle des erreurs Erreurs de performance Erreur de compétence
L’utilisateur sait, mais son doigt glisse... brintey spears Erreur de compétence L’utilisateur ne sait pas et produit une graphie approximative brittany spears

20 Erreurs de performance
Catégories les plus fréquentes Insertion beazcoup Suppression beauoup Substitution bezucoup Interversion baeucoup Dans la grande majorité des cas une seule erreur

21 Diverses techniques Exemple : clé
on classe les lettres du mot par ordre alphabétique et on enlève les doublons on fait pareil avec le dictionnaire ORTHOGRAPHE AEGHOPRT ORTHOGRAFFE AEFGHORT ORTOGRAPHE RTOGRAPHE ... On n’examine que les clés de longueur N-1, N ou N+1

22 clés identiques à une lettre près
Accidents L’affaire Cordial / NPA (mars 2000) Anti-stress  anti-arabes !!! scandale, procès... Pourtant, l’explication est simple : anti-arabes ABEINRST anti-stress AEINRST clés identiques à une lettre près

23 Solution Microsoft Supprimer le mot anti-arabe du dictionnaire !
Pourtant c’est un mot français, et utile Il sert à dénoncer les sentiments anti-arabes Faire une recherche Google Le premier lien (10/12/2004) pointe sur le site du MRAP (qui avait porté plainte, puis retiré sa plaine), qui dénonce le racisme anti-arabe...

24 Autre exemple Marie-Solange  marie-salope Supprimé du dictionnaire !
test: marie-salpe  ne suggère plus rien « logiciels politiquement corrects » mais linguistiquement idiots...

25 Erreurs de compétence Erreurs phono-graphiques Homographes
eau  o ph  f etc. Homographes pantoufle de verre, etc. Très difficile !

26 Un défi... Une vraie dictée (V. Rey) : Original :
Un corbeau perche sur lantène d'un batiman piin dans son bece une souris blésé. Ranu furid par sept ezo cuèle des anfen lance dé caiou pour lobijé a canvol. Original : Un corbeau perché sur l'antenne d'un bâtiment tient dans son bec une souris blessée. Rendus furieux par cet oiseau cruel, des enfants lancent des cailloux pour l'obliger à s'envoler.

27 Autres problèmes Le lexique d’une langue n’est pas clos
morphologie dérivationnelle

28 Dérivation Préfixes, suffixes Infinité de mots possibles
coller, collable, collabilité, recoller, recollable, recollabilité, décoller, décollable, décollabilité, surcoller, surcollable, surcollabilité, redécoller, redécollable, redécollabilité, surdécoller, surdécollable, surdécollabilité, etc.

29 Google (10/12/2004) dire 9 140 000 redire 175 000 reredire 61
19 rerereredire 8 rererereredire 10 rerererereredire 2 faire refaire rerefaire 116 rererefaire 22 rerererefaire 1 rererererefaire rerererererefaire 3 rererererererefaire 2

30 Autres problèmes Le lexique d’une langue n’est pas clos
morphologie dérivationnelle emprunts

31 Emprunts différentes sources francisation science informatique
laser, radar, sonar informatique bug, mail, blog, SMS medias, show business casting, zapping, nominer francisation tagguer, rapper, zapper, bugger (bugguer?)

32 Français 35 000 mots courants  4 200 emprunts anglais (25 %)
italien (16,8 %) francique (13 %) arabe (5,1 %)

33 Exemples intégrés... Arabe Italien etc.
alambic, alcool, algèbre, assassin, azur, café, carafe, chiffre, coton, élixir, épinard, estragon, gazelle, girafe, goudron, guitare, harem, hasard, jupe, matraque, momie, nénuphar, orange, sirop, sucre, zéro Italien arcade, artisan, balcon, banque, banqueroute, bouffon, burlesque, caleçon, caresse, carnaval, charlatan, citron, concert, corridor, courtisan, douche, escadron, faïence, festin, frégate, gazette, gondole, passager, poltron, porcelaine, soldat, sonnet etc.

34 Autres problèmes Le lexique d’une langue n’est pas clos
morphologie dérivationnelle emprunts néologismes

35 Néologismes Noms propres Sciences Société etc.
sarkozien (ou sarkosien ?), benladenisation Sciences nanotechnologies Société bioterrorisme, sidologie, insécuritaire, internaute etc.

36 Evaluation des performances
4 cas possibles Alerte Pas alerte Erreur OK Faux négatifs Pas erreur Faux positif Bruit = faux positifs / nb total d’alertes Silence = faux négatifs / nb total erreurs

37 Exemple Alerte Pas alerte Total Erreur 13 3 16 Pas erreur 2 92 94 15
Alerte Pas alerte Total Erreur 13 3 16 Pas erreur 2 92 94 15 95 110 Bruit =2/15 13,3% Silence =3/16 18,8%

38


Télécharger ppt "INF L11 Langage et informatique 1"

Présentations similaires


Annonces Google