Présentation du cours de Statistique de première année AgroParisTech
Définition de l’ingénieur AgroParisTech Une formation à la complexité du vivant La spécificité de l’ingénieur AgroParisTech repose sur une formation intégrant les sciences et technologies du vivant et de l’environnement aux sciences de l’ingénieur et aux sciences humaines, économiques et sociales. … Au terme de son cursus, il possède, en particulier, des capacités à :analyser et modéliser des systèmes complexes et incertains
Pourquoi des modèles mathématiques de la réalité ? Propriétés du langage mathématique pas ambigu, oblige à la rigueur donne des prédictions chiffrées international modélise les phénomènes complexes modélise l’aléatoire permet de tester des hypothèses réfutable pluridisciplinaire
Les méthodes Statistiques à AgroParisTech : Pourquoi? Pour comprendre : elles sont nécessaires dans le domaine des sciences : l’expérimentation et les enquêtes en Biologie, Agronomie,Sciences alimentaires…donne des résultats chiffrés qu’il faut analyser en tenant compte de la variabilité du matériel expérimental Pour agir :gestion des entreprises, connaissance des clients, analyse et prédiction de l ’environnement économique, contrôle de qualité Une opportunité pour le premier emploi : les agros sont connus comme « bons en statistique », compétence recherchée par les employeurs. L ’ histoire des méthodes statistiques a commencé en agronomie, biométrie, biostatistique,
Les méthodes statistiques sont demandées par les autres disciplines SVS génomique, bioinformatique écologie, génétique quantitative nutrition humaine épidémiologie SIAFFE agriculture de précision, bassin versant, diffusion des substances SESG Enquêtes, marketing gestion indust et financière, prévision finances SPAB Génie des équipements, procédés, chaîne du froid Modélisation mathématique des systèmes dynamiques Statistique, Analyse des données expérimentales Mécanique des fluides, thermody- namique Optimisation mathématique Bases de données, Algorithmique
Quel genre de Mathématiques ? Contenu Probabilité Statistique Mathématique Algèbre linéaire, calcul matriciel Pédagogie Maths formels : définition, démonstration conclusion Maths appliquées : on vise des résultats opérationnels peu de démonstrations utilisation de logiciels professionnels (Statgraphics, MATLAB, SAS) travail sur projet (en deuxième année)
AVIS aux matheux Pour ceux qui veulent continuer les mathématiques en tant que discipline et faire une licence et maitrise de mathématiques Faire une demande d ’inscription (par dérogation) à centre de télé-enseignement universitaire http://tele6.upmc.fr/
Enseignement des Probabilités et des Statistiques à AgroParistech Première année Tronc commun (22h) : Inférence statistique, estimations et tests d’hypothèses, regression simple Module intégratif: Modélisation en biologie des populations : de la structure des génomes à l’extinction des populations Seconde année Tronc commun de statistique (25h) : modèle linéaire, analyse des données, apprentissage du logiciel SAS Modules optionnels : Gestion de la qualité, Méthodes Statistiques pour l’Environnement Méthodes et modèles d ’aide à la décision,
Enseignement des Probabilités et des Statistiques à AgroParisTech Troisième année : Master M2 Probabilité et Statistique, avec Paris XI, l’ENS 1-8 étudiants AgroParisTech par an font l’option Statistique Appliquée, biostatistiques ; recherche : Ens. Sup, INRA, CNRS, INSERM, CIRAD, IRD. banques, compagnies d’assurances, industrie alimentaire, sociétés pharmaceutiques
Pourquoi des modèles statistiques ? Processus (biologique) trop complexe pour être décrit en détail Input, X Output, Y Modèle Statistique : Y = f(X) + E E est une variable aléatoire qui traduit la variabilité (biologique)
Exemple Ration alimentaire Production laitière (PL) Vache trop complexe pour être décrite en détail Modèle Statistique : Y = m + E m est la moyenne de la PL pour les vaches d’un type donné E est une variable aléatoire qui traduit la variabilité entre les vaches
Idée Modèle Statistique : Y = m + E Ration alimentaire Vache trop complexe pour être décrite en détail Production laitière Modèle Statistique : Y = m + E On connaît certains éléments de fonctionnement de la vache mais pas tous. De plus les éléments sont reliés entre eux (boucles de rétroaction)…trop complexe. On renonce (provisoirement) à tout comprendre et prédire On remplace le modèle détaillé fondamental par un modèle grossier E contient tous les phénomènes volontairement ignorés
Intérêt n°1: on peut répondre à des questions simples Vache trop complexe pour être décrite en détail Ration alimentaire Production laitière Modèle Statistique : Y = m + E Estimer m. Le résultat est-il fiable ? Estimer la précision de cette estimation Comparer m1 et m2 pour 2 rations alimentaires différentes;(Y-a-t-il une différence réelle compte tenu de la variabilité des résultats?) Relier m avec la quantité de ration alimentaire ingérée
Intérêt n°2: on peut intégrer des connaissances dans le modèle Vache trop complexe pour être décrite en détail Ration alimentaire Production laitière Modèle Statistique 1: Y = m + E On sait que Y est fonction de l’age et de la race de la vache ainsi que du taux de protéines de la ration Modèle Statistique 2: Y = m+f1(age)+f2(race)+f3(taux de protéines) + E où les fonctions f1, f2 et f3 peuvent être connues ou estimées
Intérêt n°3 : on peut utiliser le modèle pour prédire le comportement du processus sans le comprendre complètement Applications: crédit scoring, avalanches, diagnostic automatique, indicateurs économiques, reconnaissance des formes, comportement d’un consommateur,...
Plan des cours-TD 0. Rappels de probabilité 1. Recueil des données, échantillonnage (enquêtes, marketing, sciences sociales) 2. Estimation de paramètres (m?, fiabilité de cette estimation) 3. Test d’hypothèse (m1=m2 ?) 4. Régression
Travail autonome à faire en plus du cours et des TD Devoirs Lire le chapitre du livre avant le cours et avant le TD correspondant : QUIZ Faire les exercices du livre avant l’examen
Contrôle des connaissances La note du module de Statistique est la moyenne de la note du contrôle écrit et de celle des devoirs, quizz et test-surprise, avec un seuil éliminatoire appliqué à la note de l’examen Z = [Y+1/6.5(Q1+Q2+T+X1+X2+X3+X4)]/2 si Y >=6 Z = Y si Y < 6 où Y est la note du contrôle écrit, Xi est la note du devoir i, Qi la note du Quizz i et T la note du test surprise puis intégration de la note dans la note ECTS du bloc Sciences de l’Ingénieur modélisation mathématiques
Date COURS/TD Contenu Chapitre à lire Devoir avant le TD 12/10 COURS 1 Présentation générale + cours sur l'Echantillonnage 13/10 TD 1 Probabilités Chapitre 7 Devoir 1 19/10 TD 2 Probabilités 26/10 TD 3 Echantillonnage Chapitre 2 27/10 COURS 2 Estimation de paramètres 2/11 TD 4 Estimation de paramètres Chapitre 3 Devoir 2 23/11 TD 5 QUIZ+Intervalle de confiance Chapitre 3 24/11 COURS 3 Tests d'hypothèses 25/11 TD 6 Tests d'hypothèses (1) Chapitre 4 Devoir 3 30/11 TD 7 Tests d'hypothèses (2) Chapitre 4 2/12 TD 8 QUIZ+Comparaison Chapitre 5 Devoir 4 de 2 populations 7/12 TD9 Régression linéaire Chapitre 6 9/12 TD 9 Régression linéaire Chapitre 6 14/12 TD 10 Regression linéaire 8/1 Examen écrit Seul document autorisé : le livre, calculette conseillée