réseau mondial pour la diversité linguistique DILINET ÉLABORATION D’INDICATEURS POUR LA DIVERSITÉ LINGUISTIQUE SUR L’INTERNET UN PROJET MAAYA EN ÉTUDE DE FAISABILITÉ
AVEC LE SOUTIEN DE L'UNESCO l'UNION LATINE l'OIF
Daniel Pimienta pimienta@funredes Daniel Pimienta pimienta@funredes.org ASSOCIATION RÉSEAUX & DÉVELOPPEMENT http://funredes.org http://funredes.org/LC
DU CONSEIL EXÉCUTIF DE MAAYA FUNREDES UN MEMBRE DU CONSEIL EXÉCUTIF DE MAAYA http://maaya.org
RÉFÉRENCES (1/3) “Douze années de mesure de la diversité linguistique dans l’Internet: bilan et perspectives”, Unesco/2009. http://portal.unesco.org/ci/fr/ev.php-URL_ID=29594&URL_DO=DO_PRINTPAGE&URL_SECTION=201.html
RÉFÉRENCES (2/3) -”Accessing Contents”, D. Pimienta, Chapter of Global Information Society Watch, APC, HIVOS, ITEM, 2008 http://www.giswatch.org/gisw2008/thematic/AccessingContent.html - Mesurer la diversité linguistique dans l’Internet, UNESCO, 12/2005, un ensemble d’articles signés par: J. Paolillo, D. Pimienta, D. Prado, et al. http://unesdoc.unesco.org/images/0014/001421/142186f.pdf
-“Quel espace reste-t-il dans l’Internet, hors la langue anglaise et la culture "made in USA" ?”, in « Nord et Sud numériques », Les Cahiers du Numériques, Vol 2 No 3/4 Hermès, Numéro spécial sur la fracture numérique, 2001 http://funredes.org/lc/l5/cahiersNumFinal.html - Activités de Funredes pour la promotion de la diversité linguistique dans l'Internet et enseignements de l'expérience, 5/05 http://portal.unesco.org/ci/en/file_download.php/92a27500bf11f4c73cd567943deb4077Daniel+Pimienta.doc RÉFÉRENCES (3/3)
LA RÉALITÉ À GRANDS TRAITS 40.000 langues ont existé Entre 6.000 & 9.000 toujours vivantes Une disparition tous les 2 mois Environ 500 sont localisées Wikipédia utilise 264 langues Google travaille dans 45 langues
LA RÉALITÉ À GRANDS TRAITS! 10 langues principales sur Internet en millions d’usagers Anglais Chinois Espagnol Japonais Français Portugais Allemand Arabe Russe Coréen Toutes les autres Millions d’usagers Millions d’usagers
LA RÉALITÉ À GRANDS TRAITS ANGLAIS USAGERS DE L’INTERNET PAGES WEB Fuente: FUNREDES/UL Année SOURCE: FUNREDES/UL 2007
LA FRACTURE DIGITALE EST BEAUCOUP PLUS PROFONDE EN TERMES DE CONTENU QU’EN TERMES D’ACCÈS
L’AFRIQUE PAR EXEMPLE 4,8 % des usagers d’Internet (source InternetWorldStats – 2010) 0,6 % des pages web en anglais (source FUNREDES/UL 2007) 0,6 % des pages web en français Les langue africaines locales pèsent chacune entre 0,006 % & 0,06 % du total des pages web (source LOP 2007)
DIVERSITÉ LINGUISTIQUE DANS INTERNET Situation paradoxale INTERNET EST-IL VRAIMENT POUR TOUS? IDN INDICATEURS
DIVERSITÉ LINGUISTIQUE PARADOXE DES INDICATEURS INTÉRÊT CAPACITÉ 1988 89 90 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09 2010
DIVERSITÉ LINGUISTIQUE PARADOXE DES INDICATEURS INTÉRÊT LOP…………… FUNREDES/UL…………………………………..…. IDESCAT……. ALIS/ISOC………..OCLC FUNREDES……………….. XEROX…………………….. CAPACITÉ 1988 89 90 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09 2010
QUELS INDICATEURS AVONS NOUS? Usagers de l’Internet par langue (source InternetworldStats) Pages web par langue (pas toutes!) Autres indicateurs par pays (FUNREDES/UL)
OÙ SE TROUVE LE GOULOT D’ÉTRANGLEMENT? Les deux principaux indicateurs pour la construction d’activités dépendent de: L'exploration des ccTLD pour les langues d’Asie, Afrique et Caraïbes avec application des algorithmes d’identification (LOP). L’utilisation de la capacité de comptage des moteurs de recherche et leur grand pourcentage de couverture du web (FUNREDES/UNION LATINE).
OÙ SE TROUVE LE GOULOT D’ÉTRANGLEMENT? Mais… - La taille du web devient trop grande pour l’exploration traditionnelle (proche de l’infini!). Les moteur de recherche ont cessé d’indexer une partie substantielle (80% 20%). Les comptages des moteurs de recherche ne sont plus fiables. … Et de toutes façons nous n’obtenons que des données statiques essentiellement centrées sur le nombre de pages web par langue.
DILINET: UN PROJET DE RECHERCHE Collaboration entre l’UNESCO, l’OIF et l’UNION LATINE avec la participation de l’UIT. Définition du projet et du consortium réalisée par FUNREDES pour MAAYA, le 15 mars 2011 Ayant pour cible de préparer un projet complet EU/PF7 pour Obj. ICT- 2011.4.4 Gestion intelligente de l’information Janvier 2012
BESOINS INVENTAIRE CONTEXTES SCHÉMA DILINET ET2 MAAYA ET1 GESTION DU PROJET BESOINS INVENTAIRE CONTEXTES UPF COORD. SC. : R. BAEZA-YATES AGENDA DE RECHERCHE AU-DELÀ DES LIMITES DE L’ EXPLORATION ET4 ISTI PRODUITS1 PRODUCTION PÉRENNE D’INDICATEURS ET3 FUNREDES ET6 ET7 CADRE DE CONTRÔLE DES PRODUITS DIALOGIC LIMSI AU-DELÀ DES INDICATEURS DE BASE AU-DELÀ DE L’HTML VISIBLE ET5 UPF ET8 ET9 MAAYA YAHOO EXALEAD PILOTES CA D R E D ’ I M P A C T PRODUITS3 PRODUITS2
AGENDA DE RECHERCHE INNOVANTE DES LIMITES DE L’EXPLORATION AU-DELÀ DES INDICATEURS DE BASE DU HTML VISIBLE
SURMONTER LES LIMITES DE L’EXPLORATION MESURER GRÂCE AUX ALGORITHMES GRÂCE AUX INFRASTRUCTURES SUPER-ORDINATEUR BOINC APPROCHE STATISTIQUE APPROCHE MATHÉMATIQUE
DÉPASSER LA FRONTIÈRE HTML VISIBLE MESURER EXPLORER DE NOUVEAUX ESPACES NOUVEAUX FORMATS DE RECONNAISSANCE LINGUISTIQUE VOIX/VIDEO AUTRES FORMATS WEB 2.0 AUTRES ESPACES (JEUX, TÉL. PORTABLE…)
DÉPASSER LA BARRIÈRE DES INDICATEURS DE BASE MESURER CÔTÉ OFFRE CÔTÉ DEMANDE CARACTÉRISATION DU CONTENU visualisation analytique COLLECTE DU COMPORTEMENT DES USAGERS ENQUÊTES STATISTIQUES CARTES CONCEPTUELLES
PRODUITS & IMPACT ATTENDUS Production pérenne d’indicateurs fiables pour la diversité linguistique. Perspectives élargies par de nouveaux formats et espaces. Sensibilisation et formation des décideurs à l’intégration de la diversité linguistique dans les politiques du virtuel. Création d’opportunités industrielles issues de la diversité linguistique. Impacts sur la recherche dans le domaine de la gestion intelligente de l’information.
CONSORTIUM DILINET 1 UPF Espagne Coordination générale et extraction de l’information 2 LIMSI/CNRS France Coordination des technologies linguistiques 3 MAAYA Suisse Coordination linguistique 4 FUNREDES République Dominicaine Coordination du cadre de contrôle des produits 5 UNESCO Politiques linguistiques 6 UIT Indicateurs 7 OIF 8 UNION LATINE Statistiques linguistiques 9 MENON Belgique Viabilité 10 LOP Japon Reconnaissance des langues 11 CCHS/CSIC Caractérisation du contenu 12 ISTI/CNR Italie Statistiques/Mathématiques pour l’indexation 13 DIALOGIC Pays-Bas Collecte d'informations sur le comportement des usagers 14 YAHOO ou BARCELONA MEDIA Extraction de l’information 15 EXALEAD 16 A DÉFINIR Pilote industriel
ACTIVITES DILINET ET1 : Gestion du projet (UPF) ET2 : Contexte, inventaire, besoins (MAAYA) ET3 : Cadre de contrôle des produits (FUNREDES) ET4: Au-delà des limites de l’indexation (ISTI) ET5: Au-delà de l’HTML visible du point de vue de l’offre et au-delà des indicateurs de base pour les espaces (UPF) ET6: Au-delà de l’HTML visible du point de vue de la demande (DIALOGIC) ET7: Au-delà des indicateurs de base pour les formats (LIMSI) ET8: Cadre d’évaluation des impacts sur la recherche (UPF) ET9: Cadre d’évaluation des impacts sur la société (MAAYA)
Gracias Thank you Obrigado Dhonnyobaad Orkun Toda raba MERCI Tack Abhar Obrigado Amesegnalhu Shukran Dhonnyobaad Dekuji Adjarama Doh jeh N’gue penù