La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les technologies de la langue en France et en Europe :

Présentations similaires


Présentation au sujet: "Les technologies de la langue en France et en Europe :"— Transcription de la présentation:

1 Les technologies de la langue en France et en Europe :
Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU

2 Journée Techno-Langue
Plan La situation des programmes en France et en Europe (J. Mariani) CLEF (C. Peters) TC-Star, CHIL… (A. Waibel) Discussion générale 14 juin 2007 Journée Techno-Langue

3 Journée Techno-Langue
Courtesy NIST/ Darpa 14 juin 2007 Journée Techno-Langue

4 Recherche Technologique de Base
Evaluation usages. Acceptabilité Evaluation quantitative Publications Recherche Scientifique Amont Recherche Technologique de Base (RTB) Technologies nécessaires pour les applications Développement d’applications innovantes (RRIT) Identification de verrous Résultats de recherche Technologies validées Long terme / haut risque Fort retour d’investissement Evolutionaire Marché 14 juin 2007 Journée Techno-Langue

5 Structure de Techno-Langue
Programme infrastructurel pour soutenir les TL génériques, les applications innovantes continuant d’être financées par les RRIT (110 M€ / an) RNRT Télécoms RNTL Logiciel RIAM Audiovisuel et Multimédia VSE 14 juin 2007 Journée Techno-Langue

6 Journée Techno-Langue
Action Techno-langue Action soutenue par MESR, MinEFI, MCC Budget 20 M€ / 7,5 M€ aides Durée : 3 ans 4 volets: Ressources linguistiques Evaluation Standards Veille technologique Mettre en place une infrastructure pérenne pour développer les technologies de la langue en France et pour le Français Attention particulière portée à la diffusion des ressources linguistiques et des kits d’évaluation 14 juin 2007 Journée Techno-Langue

7 Journée Techno-Langue
ESTER Tâche: transcription et indexation d’émissions de radio A permis de produire un corpus de taille nécessaire pour le Français 1600 h enregistrées, 100 h transcrites (1 Mmots, 350 locuteurs) A permis de mesurer les performances sur différentes tâches 13 participants (3 industriels) Transcription, Segmentation, Identification de locuteurs Reconnaissance d’Entités Nommées (parole / texte transcrit) Détection et suivi de thèmes pour l’indexation : reporté A permis à chacun de partager ses approches à la lueur des résultats Atelier interne final en mars 2005 A permis de diffuser de manière pérenne les ressources produites Distribution du Kit d’évaluation (Données de développement et de test, logiciel de mesure des performances, résultats) (ELDA) Données en partie utilisées dans EASY. 14 juin 2007 Journée Techno-Langue

8 Journée Techno-Langue
ESTER A veillé à établir le lien avec la recherche amont Atelier pour les linguistes (mai 2005) Présentation des données et outils disponibles, et des résultats Identification des verrous nécessitant des recherches fondamentales Comporte un lien avec le développement d’applications innovantes Projet RNTL Audiosurf (mai 2006) Sinequa, Vecsys, LIMSI-CNRS, Radio France Moteur de recherche dans les émissions de radio Portail Audiosurf : ESTER 2 en préparation (financement DGA) Indexation automatique : détection et suivi de thèmes Accents régionaux Emissions de télévision Parole spontanée (interviews, débats, plateau télé…) 14 juin 2007 Journée Techno-Langue

9 Suite de Techno-Langue
Programme Techno-Vision ( ) Géré par le MESR, budget 5 M€ / 2,2 M€ (DGA) sur 3 ans 10 campagnes d’évaluation en traitement d’images Appel 2006 ARA « Masses de données & Connaissances Ambiantes » Géré par l’ANR Thème 5: Traitement automatique des langues 3 M€ prévus pour les Technologies de la Langue 3 projets retenus Pas encore d’infrastructure pérenne pour l’évaluation Rapport MCC/DGLF2 « La langue au cœur du numérique » (J. Pierre, Fév. 2006) 14 juin 2007 Journée Techno-Langue

10 TL pour la globalisation
Communication au niveau national Programme indien sur les technologies de la langue TDIL : Technology Development for Indian Languages Une des 10 priorités nationales Anglais + 18 langues indiennes traitées : Assamese, Bengali, Gujrati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Manipuri, Marathi, Napali, Oriya, Punjabi, Sanskrit, Sindhi, Tamil, Telegu, Urdu. Traduction automatique, Synthèse et reconnaissance vocales, moteurs de recherche, OCR, correcteurs orthographiques, ressources linguistiques… Communication au niveau mondial Besoins de traduction: Toile mondiale (Cf Google: 11 langues, 25 paires de langues (10 Google))) Notices techniques… 14 juin 2007 Journée Techno-Langue

11 TL pour une Europe multilingue
La langue, élément spécifique de la construction européenne Enjeu économique, culturel et politique (double) : Préserver les cultures des Etats Membres (EM) Préférence pour les langues maternelles (Sites Web en Allemand (75%)...) 50% des citoyens Européens ne parlent qu’une langue (à peine 3% des japonais parlent une langue étrangère) Permettre la communication entre les citoyens des Etats Membres UE: 27 pays, 23 langues « officielles » / 506 paires de langues 1650 traducteurs à la Commission Européenne (1,4 Mpages traduites 2005) 30% du budget du Parlement Européen (300 M€) – 500 traducteurs Nécessité du multilinguisme, mais coût très important Besoin de l’aide des Technologies de la Langue pour permettre le multilinguisme en réduisant les coûts Investissement trop grand pour la CE seule (# TL x # langues) A partager avec les Etats Membres (subsidiarité) 14 juin 2007 Journée Techno-Langue

12 Programme Européen en TL
Espace Européen de la Recherche (ERA) Coordonner efforts de recherche de la CE (< 15%) et des EM (> 85%) ERA-Net (6ème PCRD): coordonner programmes nationaux ERA-Net+ thématiques (7ème PCRD): coordonner + financer projets communs Article 169 (CE + EM+ industriels) Thèmes actuels: Aide aux personnes dépendantes, soutien aux PMEs, Métrologie, Recherche en mer Baltique… TL bien adaptées à l’ERA La CE aurait en priorité la responsabilité de veiller à asssurer : la coordination: gestion, standards, évaluation technologies, communication. Le coût du développement de Technologies de la Langue génériques: Reconnaissance, synthèse, compréhension vocales, dialogue oral, étiquetage morphosyntaxique, analyse et génération de textes, recherche d’informations, compréhension de documents, traduction automatique... Chaque Etat Membre aurait en priorité à assurer une bonne couverture de sa/ses langue(s): Ressources Langagières (essentiel) : corpus (annnotés) (oral / écrit), lexique (avec prononciations), dictionnaires… Développements / adaptations TL aux spécificités de sa/ses langue(s) 14 juin 2007 Journée Techno-Langue

13 Proposition ERA-Net Lang-Net
Infrastructure pour le développement de technologies de la langue pour toutes les langues européennes. Ressources (données et outils), standards, veille, évaluation Coordination des efforts nationaux et communautaires 11 pays / régions partenaires : Allemagne, France, Italie, Région du Trentin, République Tchèque, Danemark, Norvège, Pays-Bas / Flandres-Belgique (Dutch Language Union), Espagne, Région Basque, Suède Contacts: Europe (Autriche Région Catalane, Finlande, Grèce, Islande, Portugal, Suisse, GB), Etats-Unis, Japon, Afrique du Sud, Israël, Canada… Extensible à d’autres partenaires: NEM (Slovénie, Chypre, Pologne, Hongrie, Malte, Pays Baltes Roumanie, Bulgarie…) Proposition déposée en mars 2005, non retenue 14 juin 2007 Journée Techno-Langue

14 Journée Techno-Langue
Situation à la CE DG INFSO + Media Science & Technology Forum on Multilingualism (Juin 2005, Fév. 2006) Visite délégation Française à H. Forster & B. Smith (Septembre 2005) Rapport TC-Star : Introduction signée par V. Reding & J. Figel Commissaire Education, formation, culture et multilinguisme (J. Figel) « Une nouvelle stratégie cadre pour le multilinguisme» (Nov. 2005) Site Web dans 20 langues : La CE mettra en place un Groupe de Haut Niveau sur le Multilinguisme (Nov. 2006/Sept. 2007) La CE organisera une réunion ministérielle sur le Multilinguisme (2008) La CE fera d’autres communications devant le Parlement et le Conseil (fin 2008) Nouveau Commissaire pour le multilinguisme ( ) : Leonard Orban 14 juin 2007 Journée Techno-Langue

15 Journée Techno-Langue
Demande Européenne Mémorandum pour une Europe numérique Soumis par la France à la présidence finlandaise de l’UE (2006) «TL pour une Europe Multilingue» comme sujet de recherche spécifique Comité des régions Utilisation officielle de 3 langues régionales espagnoles en réunion Bibliothèque Numérique Européenne Dimension multilingue / interlingue, et nécessité d’avoir des outils Intelligence Economique (ENISA) Plate-forme multilingue d’alerte et d’échange d’informations pour les Etats Membres… Traduction des brevets européens (OEB)… 14 juin 2007 Journée Techno-Langue

16 Place des TL dans le FP7 (2007-2013)
Evaluation dans les projets FP6 CLEF (Cross-Language Evaluation Forum), TC-Star, CHIL, AMI… Programme Cooperation (TIC) Pilier technologique «Simulation, visualisation, interaction, mixed realities» Challenge 2: Cognitive systems, Interaction, Robotics Objectif 2.1. Cognitive systems, Interaction, Robotics Coopération internationale : Priorité pour TL pour la langue arabe ! ESFRI (Infrastructures de recherche) CLARIN : Infrastructure pour les ressources et les outils linguistiques en appui aux Sciences Humaines et Sociales E-Content + Réseau Thématique «Ressources linguistiques pour le traitement des langues» (SHS + TIC) (budget : 1 M€) 14 juin 2007 Journée Techno-Langue

17 Journée Techno-Langue
Conclusions Techno-Langue : Programme national sur les Technologies de la Langue pour le Français Ressources Linguistiques, Standards, Veille et Evaluation Difficulté pour la pérennisation NIST Français ou Européen ? DARPA Française ou Européenne ? Forte nécessité de Technologies de la Langue pour permettre le multilinguisme en Europe (et dans le monde) Peut-être le thème le plus adapté à un effort partagé entre la CE et les Etats-Membres, mais soutenu de manière insuffisante, parcellaire et non-coordonnée dans le 7ème PCRD ( ) 14 juin 2007 Journée Techno-Langue

18 Journée Techno-Langue
Questions (1) L’infrastructure d’évaluation est-elle suffisante ? Quel est le bilan des campagnes d’évaluation? Faisons nous bien les choses ? Que devrions nous faire ? Comment financer les campagnes d’évaluation ? Commission Européenne ? Etats-Membres ? Régions ? Jusqu’à quel degré ces initiatives peuvent-elles s’appuyer sur le volontariat ? Doit-il y avoir une entité permanente pour l’évaluation ? Une infrastructure ? Doit-elle être publique ou privée ? Faut-il financer à 100 % ? Comment ? Y a-t-il assez, trop ou trop peu d’initiatives sur l’évaluation en Europe sur les différents aspects des TL (TALN, IR, CHM etc) ? Faut-il tendre à plus de synergie? 14 juin 2007 Journée Techno-Langue

19 Journée Techno-Langue
Questions (2) L’infrastructure sur les RL est-elle suffisante ? Faisons nous bien les choses ? Que devrions nous faire ? Cela répond-il aux besoins de la recherche ? De l’industrie ? Coûts ? Qualité ? Catalogue ? IPR ? La couverture des langues est-elle suffisante (pour le Français / pour les langues Européennes) ? Y a-t-il assez, trop ou trop peu d’initiatives sur les RL en Europe pour les différents aspects des TL (TALN, IR, CHM etc, SHS, TIC, Médical etc) ? Faut-il tendre à plus de synergie? Les standards sont-ils suffisamment établis ? 14 juin 2007 Journée Techno-Langue

20 Journée Techno-Langue
Questions (3) L’effort de recherche est-il suffisant face à l’enjeu ? Est-on suffisamment bien organisé en France ? Financements suffisants ? Effort suffisamment continu ? Est-on suffisamment bien organisé en Europe ? Y a-t-il assez, trop ou trop peu de programmes sur les TL en Europe (régional (Pôles/Clusters d’excellence…), National (ANR, CNRS…), Européen (FP7 (ideas, coordination, infrastructure, mobility): IPs, STREPs, NoEs; ERA-Net+, Article 169, eContent+…)) ? Faut-il plus de coordination ? Comment peut-on réclamer des financements publics importants quand le marché apparaît relativement limité et incertain ? Comment assurer la participation et le soutien des industriels ? PMEs ? Grands groupes ? 14 juin 2007 Journée Techno-Langue

21 Journée Techno-Langue
Questions Is the infrastructure for LR sufficient ? What are we doing wrong ? What should we be doing ? Does it respond to the needs of research ? Of industry ? Cost ? Quality ? Catalogue ? IPR ? Is there a proper language coverage (France / Europe) ? Are there not enough or too many language resources initiatives in Europe on different aspects of HLT (NLP, IR, HMC etc, HSS, ICT, Medical etc) ? Should we be aiming at more synergy? Are the standards sufficiently established ? 14 juin 2007 Journée Techno-Langue

22 Journée Techno-Langue
Questions Is the infrastructure for evaluation sufficient ? What are the real achievements of our evaluation campaigns? What are we doing wrong ? What should we be doing ? How can evaluation campaigns be supported ? European Commission ? Countries ? Regions ? To what extent can such initiatives rely on voluntary efforts? Should there be a permanent evaluation entity ? infrastructure ? Should it be public / private ? Should it be funded 100 % ? How ? Are there not enough or too many evaluation initiatives in Europe on different aspects of HLT (NLP, IR, HMC etc) ? Should we be aiming at more synergy? 14 juin 2007 Journée Techno-Langue

23 Journée Techno-Langue
Questions Is the research effort sufficient in front of the challenge ? Are we sufficiently organized at the French level ? Enough funding ? Enough continuity ? Are we sufficiently organized at the European level ? Are there not enough or too many programs in Europe on HLT (Regional (Poles/Clusters of excellence…), National (ANR, CNRS…), FP7 (ideas, coordination, infrastructure, mobility): IPs, STREPs, NoEs, ERA-Net+, Article 169, eContent…) ? Should we be aiming at more coordination ? How can we claim for big R&D funding when the market looks small and uncertain ? How can we ensure industrial participation and support ? SMEs ? Large groups ? 14 juin 2007 Journée Techno-Langue


Télécharger ppt "Les technologies de la langue en France et en Europe :"

Présentations similaires


Annonces Google