Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo
L’ancien empirisme et l’ancien rationalisme
Le nouvel empirisme Definir le corpus (les donnés). Laisser à la Nature de la marge pour qu’Elle puisse nous parler. Trouver l’hypothèse la plus probable, étant donnés les faits que la Nature nous a octroyés. Conceptuellement similaire à la grammaire générative classique, mais supérieure de deux façons.
Superieur de deux façons? La notion de “confirmation de la grammaire par les faits” devient explicitée pour la premiere fois. Il n’est pas nécessaire d’éxpliciter des contraintes sur grammaires possibles: la complexité algorithmique fait tout.
Feuille de route 1.Une analyse probabiliste, du point de vue formelle 2.Le nouvel empirisme: Trouver l’hypothèse la plus probable, étant donnés les faits: maximiser pr (H|D) 3.Minimiser -1 * log pr (H|D) 4.Approches bayésiennes: complexité du modèle (grammaire) et probabilité des données
6.Pourquoi “bayésiennes”? Règle de Bayes 7.Diviser le problème en deux parties: –le degré de confirmation de la grammaire par les faits, et –la complexité de la grammaire 8.Conclusions
1. Analyse probabiliste Une analyse probabiliste assigne un nombre à chaque représentation possible; Ce sont des probabilités. La somme des probabilités de toutes les représentations doit égaler 1.0. Nous voulons que la probabilité qui est assignée à la réalité soit grande.
2. Le nouvel empirisme Une expérience scientifique doit offrir assez de marge à la Nature pour nous surprendre. C'est-à-dire, une étude qui confirme ce que l’on croie déjà était mal conçue ; elle nous enseigne peu de choses. Des méthodes quantitatives nous permettent de comprendre et de mesurer la Nature. La performance de nos modèles sera maximale si nous écoutons la Nature.
2 bis. Le nouvel empirisme Trouver l’hypothèse la plus probable, étant données les observations: Prendre en consideration la probabilité apriori des hypothèses = complexités des modèles
4. Pourquoi “bayésiennes”? Regle de Bayes Elle n’est qu’une manipulation de la définition de la probabilité conditionnelle.
La règle de Bayes D = Données H = Hypothèse
La règle de Bayes D = Données H = Hypothèse
5. Equivalence mathématique “Maximiser pr (H|D)” équivaut “Minimiser -1 * log pr (H|D)” Donc: “Minimiser –log pr(D|H) – log pr(H) + log pr(D)” D = Données H = Hypothèse
A retenir: Minimiser –log pr(D|H) – log pr(H) – log pr(D) D = Données H = Hypothèse
6. Règle de Bayes divise le problème en deux parties Minimiser –log pr(D|H) – log pr(H) – log pr(D) D = Données H = Hypothèse
6. Règle de Bayes divise le problème en deux parties Minimiser –log pr(D|H) – log pr(H) – log pr(D) D = Données H = Hypothèse quantité positive: plus elle est petite, plus la probabilité de D, étant donné H, est grande.
6. Règle de Bayes divise le problème en deux parties Minimiser –log pr(D|H) – log pr(H) – log pr(D) D = Données H = Hypothèse quantité positive: plus elle est petite, plus la probabilité de D, étant donné H, est grande. “longueur optimale de D compressé par H”
6. Règle de Bayes divise le problème en deux parties Minimiser –log pr(D|H) – log pr(H) – log pr(D) D = Données H = Hypothèse quantité positive: plus elle est petite, plus la probabilité de D, étant donné H, est grande. degré inverse de confirmation de la grammaire H par données D
Chomsky Language and Mind A third task is that of determining just what it means for a hypothesis about the generative grammar of a language to be “consistent” with the data of sense. Notice that it is a great oversimplification to suppose that a child must discover a generative grammar that accounts for all the linguistic data that has been presented to him and that “projects” such data to an infinite range of potential sound-meaning relations….
Chomsky Language and Mind The task, then, is to study what we might think of as the problem of “confirmation”—in this context, the problem of what relation must hold between a potential grammar and a set of data for this grammar to be confirmed as the actual theory of the language in question.
Si trois conditions sont satisfaites, cette mesure M est équivalente à une probabilité: La mesure est toujours positive; Plus la mesure est grande, moins les données D appuyent H; Si un corpus C contient 2 phrases, P 1 et P 2, M(C) = M(P 1 ) + M(P 2 ) Supposons qu’une telle mesure M existe…
6 (rappel): Règle de Bayes divise le problème en deux parties Minimiser –log pr(D|H) – log pr(H) – log pr(D) D = Données H = Hypothèse quantité positive: plus elle est petite, plus la probabilité de D, étant H, est grande. Comment mesurer la probabilité d’une grammaire?
Complexité algorithmique On mesure la probabilité d’un algorithme par son complexité algorithmique. C’est un fait non-trivial que cela défini une probabilité.
7 : Règle de Bayes divise le problème en deux parties Minimiser –log pr(D|H) – log pr(H) – log pr(D) D = Données H = Hypothèse degré inverse de confirmation de la grammaire H par données D (quantité qui est constant, une fois les données sont choisies: donc, qui ne varie pas)
7 : En somme Minimiser la somme de: la mesure probabiliste de la grammaire basée sur les données la complexié algorithmique de l’analyse +
7. Conclusions Un nouvel empirisme : 1.valorise les recherches empiriques et les bases de données; 2.donne une base théorique pour la notion de complexité d’une grammaire; 3.sans recours à une grammaire innée, mais avec recours à une grammaire vraiment universelle; 4.donne une base théorique qui explique et explicite la relation entre une grammaire et les données qu’elle engendre.
Fin