1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
2/20 Plan L’influence de Noam Chomsky dans le domaine de la linguistique. Empirisme vs. Rationalisme. La montée du traitement statistique des langues naturelles (TSLN). L’intérêt du TSLN.
3/20 « Colorless green ideas sleeps furiously» Noam Chomsky Professeur émérite du MIT en linguistique Créateur de la théorie de la « grammaire générative » Publications: De 1955 à 2005, linguistiques et politiques © David Levine
4/20 « Colorless green ideas sleeps furiously» (2) Indépendance de la grammaire par rapport au sens. Phrase peu probable mais correcte grammaticalement.
5/20 Les arguments Chomskiens Il est impossible pour toutes phrases s d’avoir: grammatical(s) « Apprendre 10℮9 paramètres à un enfant, alors que son enfance dure 10℮8 secondes. » Compétence versus performance.
6/20 Conclusion Chomskienne « We are forced to conclude [...] that probabilistic models give no particular insight into some of the basic problems of syntactic structure. » N. Chomsky [1957]
7/20 Rationalisme Courant de pensée: Doctrine selon laquelle tout ce qui existe à sa raison d’être et peut donc être considéré comme intelligible. En linguistique: Théorie du langage utilisant une approche cognitive et s’appuyant sur des données dites introspectives.
8/20 Empirisme Courant de pensée: Théorie d’après laquelle toutes nos connaissances sont des acquisitions de l’expérience. En linguistique: Approche motivée par l’analyse empirique des langues et l’utilisation de corpus de données comme matière première.
9/20 Début des hostilités… G. Lakoff [1973] vs. N. Chomsky [1973]. Avancées dans le domaine de la reconnaissance de la parole. Appuie du DARPA. Coopération rationalistes/empiristes: Identifier la catégorie syntaxique d’un mot dans un phrase (tagging). Problèmes de désambiguïsation.
10/20 The Balancing Act Workshop tenu en 1994, J. L. Klavans and P. Resnik [1996]: Rapprocher empiristes et rationalistes. Tenter de combiner les deux approches. Steve Abney [1996]: Statistical Methods and Linguistics.
11/20 Les arguments Chomskiens par Steve Abney « Colorless ideas… » Techniques de lissage. Pour tt s: grammatical(s) grammatical(s) En demander trop à un enfant… Utiliser le parallélisme. Compétence versus performance. Émergence
12/20 Les avantages de l’approche statistique Désambiguïsation Grammaire probabiliste. Degré de « grammaticalité » Estimation de paramètres. Naturalness Travaux sur les collocations. Stratégies de parsing Tolérance d’erreur Apprentissage « à la volée »
13/20 Une symbiose nécessaire Complémentarité des deux approches: Tout système statistique est basé sur une représentation symbolique et algébrique. On compte des mots: discrétisation. Les HMM sont à états finis et basés sur une description algébrique du langage. L’approche symbolique à elle seule ne peut capturer entièrement et parfaitement une langue vivante.
14/20 Bibliographie S. Abney. Statistical Method and Linguistics. In The Blancing Act, 1996, p N. Chomsky. Syntactic Structures. Mouton, la Hague, N. Chomsky. Chomsky Replies. NYR, J. L. Klavans and P. Resnik. The Balancing Act, Combining Symbolic and Statistical Approaches to Language. MIT Press, G. Lakoff. Deep Language. NYR, J. R. Searle. Special Supplement: Chomsky’s Revolution in Linguistics. NYR, K. W. Church and R. Mercer. Introduction to the special on computation linguistics using large corpora. Computational Linguistics, 19(1):1-24.
15/20 Merci Questions, suggestions, critiques? C’est votre tour.