INF L11 Langage et informatique 1 Cours 6 – Moteurs de recherche : Les langues du monde
Introduction Détection de la langue Les robots Les moteurs reconnaissent la langue des documents lors de l’indexation Les moteurs n’affichent que les pages correspondant à cette langue lors des requêtes
Exemple
Information sur les langues Wikipedia Base Ethnologue
Quelques liens (1) Yamada UCLA Language Materials Project Liens sur de nombreuses langues, cours et laboratoire de langues virtuel. UCLA Language Materials Project Articles sur de nombreuses langues avec cartes Projet Rosetta Archive des langues du monde "Le Petit Prince" en 100 langues Quelques phrases du Prince Prince (parlées) Orbis Latinus Le latin et les langues qui en dérivent ILoveLanguages Guide avec de nombreux liens sur les langues du monde
Quelques liens (2) KryssTal Lingva Prismo Omniglot Alphabets Information sur les langues Lingva Prismo Cartes des langues, quizz, exemples sonores, liens (en français) Omniglot Un guide des systèmes d’écriture avec des exemples graphiques Alphabets Site sur les écritures Déclaration des droits de l’homme En plus de 300 langues
Nombre de langues Environ 6800 selon la base Ethnologue difficile à connaître exactement dépend de la définition de « langue »
Programme Unesco « Langues en danger » Quelques chiffres Plus de 50% des langues sont en danger de disparition 96% des langues sont parlées par 4% de la population mondiale 90% des langues ne sont pas représentées sur Internet 1 langue disparaît en moyenne toutes les deux semaines Programme Unesco « Langues en danger »
Familles de langues Encyclopédie Encarta
Les langues les plus parlées http://www.krysstal.com/spoken.html
Contenu du Web Unesco
Moteurs Google = 35 langues (oct 2004)
Moteurs Yahoo = 37 langues (oct 2004)
Systèmes d’écriture Sur 6800 langues, seulement 100 à 200 langues écrites 25 systèmes d’écriture
Systèmes d’écriture Ecritures alphabétiques Ecritures syllabiques arabe, hébreu grec, latin, cyrillique, arménien, georgien, mongol Ecritures syllabiques bengali, birman, devanagari, gujarati, khmer, lao, malayalam, tamil, thaï, tibétain... Ecritures logographiques chinois Systèmes mixtes coréen, japonais A voir : Un guide des systèmes d’écriture avec des exemples graphiques : Omniglot
Alphabet latin Alphabet de base (anglais) 26 lettres Nombreux diacritiques et caractères spéciaux français : àâçéèêë etc. espagnol : ñ chèque: čšž etc.
cf. http://pedroiy.free.fr/alphabets/ Parfois système très complexe Exemple : vietnamien cf. http://pedroiy.free.fr/alphabets/
Nombreux codes informatiques Situation très complexe Nombreux problèmes de compatibilité