La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU.

Présentations similaires


Présentation au sujet: "Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU."— Transcription de la présentation:

1 Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU

2 14 juin 2007Journée Techno-Langue2 Plan La situation des programmes en France et en Europe (J. Mariani)La situation des programmes en France et en Europe (J. Mariani) CLEF (C. Peters)CLEF (C. Peters) TC-Star, CHIL… (A. Waibel)TC-Star, CHIL… (A. Waibel) Discussion généraleDiscussion générale

3 14 juin 2007Journée Techno-Langue3 Courtesy NIST/ Darpa

4 14 juin 2007Journée Techno-Langue4 Recherche Scientifique Amont Recherche Technologique de Base (RTB) Développement dapplications innovantes (RRIT) Identification de verrous Résultats de recherche Technologies nécessaires pour les applications Technologies validées Long terme / haut risque Fort retour dinvestissement Evolutionaire Publications Evaluation quantitative Evaluation usages. Acceptabilité Recherche Technologique de Base Marché

5 14 juin 2007Journée Techno-Langue5 Structure de Techno-Langue Programme infrastructurel pour soutenir les TL génériques, les applications innovantes continuant dêtre financées par les RRIT (110 M / an) RNRT Télécoms RNTL Logiciel RIAM Audiovisuel et Multimédia VSE

6 14 juin 2007Journée Techno-Langue6 Action Techno-langue Action soutenue par MESR, MinEFI, MCCAction soutenue par MESR, MinEFI, MCC –Budget 20 M / 7,5 M aides –Durée : 3 ans 4 volets:4 volets: –Ressources linguistiques –Evaluation –Standards –Veille technologique Mettre en place une infrastructure pérenne pour développer les technologies de la langue en France et pour le FrançaisMettre en place une infrastructure pérenne pour développer les technologies de la langue en France et pour le Français Attention particulière portée à la diffusion des ressources linguistiques et des kits dévaluationAttention particulière portée à la diffusion des ressources linguistiques et des kits dévaluation

7 14 juin 2007Journée Techno-Langue7 ESTER Tâche: transcription et indexation démissions de radioTâche: transcription et indexation démissions de radio –A permis de produire un corpus de taille nécessaire pour le Français 1600 h enregistrées, 100 h transcrites (1 Mmots, 350 locuteurs) –A permis de mesurer les performances sur différentes tâches 13 participants (3 industriels) Transcription, Segmentation, Identification de locuteurs Reconnaissance dEntités Nommées (parole / texte transcrit) Détection et suivi de thèmes pour lindexation : reporté –A permis à chacun de partager ses approches à la lueur des résultats Atelier interne final en mars 2005 –A permis de diffuser de manière pérenne les ressources produites Distribution du Kit dévaluation (Données de développement et de test, logiciel de mesure des performances, résultats) (ELDA) Données en partie utilisées dans EASY.

8 14 juin 2007Journée Techno-Langue8 ESTER –A veillé à établir le lien avec la recherche amont Atelier pour les linguistes (mai 2005) Présentation des données et outils disponibles, et des résultats Identification des verrous nécessitant des recherches fondamentales –Comporte un lien avec le développement dapplications innovantes Projet RNTL Audiosurf (mai 2006) Sinequa, Vecsys, LIMSI-CNRS, Radio France Moteur de recherche dans les émissions de radio Portail Audiosurf : ESTER 2 en préparation (financement DGA)ESTER 2 en préparation (financement DGA) –Indexation automatique : détection et suivi de thèmes –Accents régionaux –Emissions de télévision –Parole spontanée (interviews, débats, plateau télé…)

9 14 juin 2007Journée Techno-Langue9 Suite de Techno-Langue Programme Techno-Vision ( )Programme Techno-Vision ( ) –Géré par le MESR, budget 5 M / 2,2 M (DGA) sur 3 ans –10 campagnes dévaluation en traitement dimages Appel 2006 ARA « Masses de données & Connaissances Ambiantes »Appel 2006 ARA « Masses de données & Connaissances Ambiantes » –Géré par lANR –Thème 5: Traitement automatique des langues 3 M prévus pour les Technologies de la Langue 3 projets retenus Pas encore dinfrastructure pérenne pour lévaluationPas encore dinfrastructure pérenne pour lévaluation Rapport MCC/DGLF2 « La langue au cœur du numérique » (J. Pierre, Fév. 2006)Rapport MCC/DGLF2 « La langue au cœur du numérique » (J. Pierre, Fév. 2006)

10 14 juin 2007Journée Techno-Langue10 TL pour la globalisation Communication au niveau nationalCommunication au niveau national –Programme indien sur les technologies de la langue –TDIL : Technology Development for Indian Languages –Une des 10 priorités nationales –Anglais + 18 langues indiennes traitées : Assamese, Bengali, Gujrati, Hindi, Kannada, Kashmiri, Konkani, Malayalam, Manipuri, Marathi, Napali, Oriya, Punjabi, Sanskrit, Sindhi, Tamil, Telegu, Urdu. –Traduction automatique, Synthèse et reconnaissance vocales, moteurs de recherche, OCR, correcteurs orthographiques, ressources linguistiques… Communication au niveau mondialCommunication au niveau mondial –Besoins de traduction: Toile mondiale (Cf Google: 11 langues, 25 paires de langues (10 Google))) Notices techniques…

11 14 juin 2007Journée Techno-Langue11 TL pour une Europe multilingue La langue, élément spécifique de la construction européenneLa langue, élément spécifique de la construction européenne –Enjeu économique, culturel et politique (double) : Préserver les cultures des Etats Membres (EM) –Préférence pour les langues maternelles (Sites Web en Allemand (75%)...) –50% des citoyens Européens ne parlent quune langue –(à peine 3% des japonais parlent une langue étrangère) Permettre la communication entre les citoyens des Etats Membres –UE: 27 pays, 23 langues « officielles » / 506 paires de langues –1650 traducteurs à la Commission Européenne (1,4 Mpages traduites 2005) –30% du budget du Parlement Européen (300 M) – 500 traducteurs –Nécessité du multilinguisme, mais coût très important –Besoin de laide des Technologies de la Langue pour permettre le multilinguisme en réduisant les coûts Investissement trop grand pour la CE seule (# TL x # langues)Investissement trop grand pour la CE seule (# TL x # langues) A partager avec les Etats Membres (subsidiarité)A partager avec les Etats Membres (subsidiarité)

12 14 juin 2007Journée Techno-Langue12 Programme Européen en TL Espace Européen de la Recherche (ERA)Espace Européen de la Recherche (ERA) –Coordonner efforts de recherche de la CE ( 85%) –ERA-Net (6ème PCRD): coordonner programmes nationaux –ERA-Net+ thématiques (7 ème PCRD): coordonner + financer projets communs –Article 169 (CE + EM+ industriels) Thèmes actuels: Aide aux personnes dépendantes, soutien aux PMEs, Métrologie, Recherche en mer Baltique… TL bien adaptées à lERATL bien adaptées à lERA –La CE aurait en priorité la responsabilité de veiller à asssurer : la coordination: gestion, standards, évaluation technologies, communication. Le coût du développement de Technologies de la Langue génériques: –Reconnaissance, synthèse, compréhension vocales, dialogue oral, étiquetage morphosyntaxique, analyse et génération de textes, recherche dinformations, compréhension de documents, traduction automatique... –Chaque Etat Membre aurait en priorité à assurer une bonne couverture de sa/ses langue(s): Ressources Langagières (essentiel) : corpus (annnotés) (oral / écrit), lexique (avec prononciations), dictionnaires… Développements / adaptations TL aux spécificités de sa/ses langue(s)

13 14 juin 2007Journée Techno-Langue13 Proposition ERA-Net Lang-Net Infrastructure pour le développement de technologies de la langue pour toutes les langues européennes.Infrastructure pour le développement de technologies de la langue pour toutes les langues européennes. –Ressources (données et outils), standards, veille, évaluation Coordination des efforts nationaux et communautairesCoordination des efforts nationaux et communautaires –11 pays / régions partenaires : Allemagne, France, Italie, Région du Trentin, République Tchèque, Danemark, Norvège, Pays-Bas / Flandres- Belgique (Dutch Language Union), Espagne, Région Basque, Suède –Contacts: Europe (Autriche Région Catalane, Finlande, Grèce, Islande, Portugal, Suisse, GB), Etats-Unis, Japon, Afrique du Sud, Israël, Canada… –Extensible à dautres partenaires: NEM (Slovénie, Chypre, Pologne, Hongrie, Malte, Pays Baltes Roumanie, Bulgarie…) Proposition déposée en mars 2005, non retenueProposition déposée en mars 2005, non retenue

14 14 juin 2007Journée Techno-Langue14 Situation à la CE DG INFSO + MediaDG INFSO + Media –Science & Technology Forum on Multilingualism (Juin 2005, Fév. 2006) –Visite délégation Française à H. Forster & B. Smith (Septembre 2005) –Rapport TC-Star : Introduction signée par V. Reding & J. Figel Commissaire Education, formation, culture et multilinguisme (J. Figel)Commissaire Education, formation, culture et multilinguisme (J. Figel) –« Une nouvelle stratégie cadre pour le multilinguisme» (Nov. 2005) Site Web dans 20 langues : La CE mettra en place un Groupe de Haut Niveau sur le Multilinguisme (Nov. 2006/Sept. 2007) La CE organisera une réunion ministérielle sur le Multilinguisme (2008) La CE fera dautres communications devant le Parlement et le Conseil (fin 2008) Nouveau Commissaire pour le multilinguisme ( ) : Leonard OrbanNouveau Commissaire pour le multilinguisme ( ) : Leonard Orban

15 14 juin 2007Journée Techno-Langue15 Demande Européenne Mémorandum pour une Europe numériqueMémorandum pour une Europe numérique –Soumis par la France à la présidence finlandaise de lUE (2006) –«TL pour une Europe Multilingue» comme sujet de recherche spécifique Comité des régionsComité des régions Utilisation officielle de 3 langues régionales espagnoles en réunion Bibliothèque Numérique EuropéenneBibliothèque Numérique Européenne –Dimension multilingue / interlingue, et nécessité davoir des outils Intelligence Economique (ENISA)Intelligence Economique (ENISA) –Plate-forme multilingue dalerte et déchange dinformations pour les Etats Membres… Traduction des brevets européens (OEB)…Traduction des brevets européens (OEB)…

16 14 juin 2007Journée Techno-Langue16 Place des TL dans le FP7 ( ) Evaluation dans les projets FP6Evaluation dans les projets FP6 –CLEF (Cross-Language Evaluation Forum), TC-Star, CHIL, AMI… Programme Cooperation (TIC)Programme Cooperation (TIC) –Pilier technologique «Simulation, visualisation, interaction, mixed realities» –Challenge 2: Cognitive systems, Interaction, Robotics Objectif 2.1. Cognitive systems, Interaction, Robotics –Coopération internationale : Priorité pour TL pour la langue arabe ! ESFRI (Infrastructures de recherche)ESFRI (Infrastructures de recherche) –CLARIN : Infrastructure pour les ressources et les outils linguistiques en appui aux Sciences Humaines et Sociales E-Content +E-Content + –Réseau Thématique «Ressources linguistiques pour le traitement des langues» (SHS + TIC) (budget : 1 M)

17 14 juin 2007Journée Techno-Langue17 Conclusions –Techno-Langue : Programme national sur les Technologies de la Langue pour le Français Ressources Linguistiques, Standards, Veille et Evaluation Difficulté pour la pérennisation –NIST Français ou Européen ? –DARPA Française ou Européenne ? –Forte nécessité de Technologies de la Langue pour permettre le multilinguisme en Europe (et dans le monde) –Peut-être le thème le plus adapté à un effort partagé entre la CE et les Etats-Membres, mais soutenu de manière insuffisante, parcellaire et non-coordonnée dans le 7 ème PCRD ( )

18 14 juin 2007Journée Techno-Langue18 Questions (1) Linfrastructure dévaluation est-elle suffisante ?Linfrastructure dévaluation est-elle suffisante ? –Quel est le bilan des campagnes dévaluation? –Faisons nous bien les choses ? Que devrions nous faire ? –Comment financer les campagnes dévaluation ? Commission Européenne ? Etats-Membres ? Régions ? –Jusquà quel degré ces initiatives peuvent-elles sappuyer sur le volontariat ? Doit-il y avoir une entité permanente pour lévaluation ? Une infrastructure ? Doit-elle être publique ou privée ? Faut-il financer à 100 % ? Comment ? –Y a-t-il assez, trop ou trop peu dinitiatives sur lévaluation en Europe sur les différents aspects des TL (TALN, IR, CHM etc) ? Faut-il tendre à plus de synergie?

19 14 juin 2007Journée Techno-Langue19 Questions (2) Linfrastructure sur les RL est-elle suffisante ?Linfrastructure sur les RL est-elle suffisante ? –Faisons nous bien les choses ? Que devrions nous faire ? Cela répond-il aux besoins de la recherche ? De lindustrie ? Coûts ? Qualité ? Catalogue ? IPR ? –La couverture des langues est-elle suffisante (pour le Français / pour les langues Européennes) ? –Y a-t-il assez, trop ou trop peu dinitiatives sur les RL en Europe pour les différents aspects des TL (TALN, IR, CHM etc, SHS, TIC, Médical etc) ? Faut-il tendre à plus de synergie? –Les standards sont-ils suffisamment établis ?

20 14 juin 2007Journée Techno-Langue20 Questions (3) Leffort de recherche est-il suffisant face à lenjeu ?Leffort de recherche est-il suffisant face à lenjeu ? –Est-on suffisamment bien organisé en France ? Financements suffisants ? Effort suffisamment continu ? –Est-on suffisamment bien organisé en Europe ? Financements suffisants ? Effort suffisamment continu ? –Y a-t-il assez, trop ou trop peu de programmes sur les TL en Europe (régional (Pôles/Clusters dexcellence…), National (ANR, CNRS…), Européen (FP7 (ideas, coordination, infrastructure, mobility): IPs, STREPs, NoEs; ERA-Net+, Article 169, eContent+…)) ? Faut-il plus de coordination ? –Comment peut-on réclamer des financements publics importants quand le marché apparaît relativement limité et incertain ? –Comment assurer la participation et le soutien des industriels ? PMEs ? Grands groupes ?

21 14 juin 2007Journée Techno-Langue21 Questions Is the infrastructure for LR sufficient ?Is the infrastructure for LR sufficient ? –What are we doing wrong ? What should we be doing ? Does it respond to the needs of research ? Of industry ? Cost ? Quality ? Catalogue ? IPR ? –Is there a proper language coverage (France / Europe) ? –Are there not enough or too many language resources initiatives in Europe on different aspects of HLT (NLP, IR, HMC etc, HSS, ICT, Medical etc) ? Should we be aiming at more synergy? Are the standards sufficiently established ?

22 14 juin 2007Journée Techno-Langue22 Questions Is the infrastructure for evaluation sufficient ?Is the infrastructure for evaluation sufficient ? –What are the real achievements of our evaluation campaigns? What are we doing wrong ? What should we be doing ? –How can evaluation campaigns be supported ? European Commission ? Countries ? Regions ? –To what extent can such initiatives rely on voluntary efforts? Should there be a permanent evaluation entity ? infrastructure ? Should it be public / private ? Should it be funded 100 % ? How ? –Are there not enough or too many evaluation initiatives in Europe on different aspects of HLT (NLP, IR, HMC etc) ? Should we be aiming at more synergy?

23 14 juin 2007Journée Techno-Langue23 Questions Is the research effort sufficient in front of the challenge ?Is the research effort sufficient in front of the challenge ? –Are we sufficiently organized at the French level ? Enough funding ? Enough continuity ? –Are we sufficiently organized at the European level ? Enough funding ? Enough continuity ? –Are there not enough or too many programs in Europe on HLT (Regional (Poles/Clusters of excellence…), National (ANR, CNRS…), FP7 (ideas, coordination, infrastructure, mobility): IPs, STREPs, NoEs, ERA-Net+, Article 169, eContent…) ? Should we be aiming at more coordination ? –How can we claim for big R&D funding when the market looks small and uncertain ? –How can we ensure industrial participation and support ? SMEs ? Large groups ?


Télécharger ppt "Les technologies de la langue en France et en Europe : Quelles perspectives ? J. Mariani, LIMSI-CNRS C. Peters, ISTI-CNR A. Waibel, Univ. Karlsruhe + CMU."

Présentations similaires


Annonces Google