BP Bernard Palagos - Cemagref Montpellier

Slides:



Advertisements
Présentations similaires
Comparaison d’une moyenne observée à une moyenne théorique
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
ANOVA à un facteur (Rehailia)
Présentation des données
Principe Exemple Utilisation d’une macro
STATISTIQUE INFERENTIELLE L ’ESTIMATION
Thomas G. Dietterich Approximate Statistical Tests for Comparing
Introduction aux statistiques
Les tests d’hypothèses (II)
Les tests d’hypothèses (I)
TESTS RELATIFS AUX CARACTERES QUANTITATIFS
Inférence statistique
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de deux pourcentages observés
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Tests de comparaison de pourcentages
Les TESTS STATISTIQUES
Échantillonnage-Estimation
Les tests d’hypothèses
Statistique et probabilités au collège
Régression -corrélation
Tests de comparaison de moyennes
Les liens entre les variables et les tests d’hypothèse
Méthodes de Biostatistique
Les principaux résumés de la statistique
Régression linéaire simple
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
La corrélation et la régression multiple
Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.
Le test t.
Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
Régression linéaire multiple : hypothèses & interprétation
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Statistique Descriptive Analyse des données
une introduction pragmatique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
STATISTIQUES DESCRIPTIVES
STATISTIQUES – PROBABILITÉS
Probabilités et Statistiques Année 2010/2011
Chapitre 3: Variables aléatoires réelles continues
Concepts fondamentaux: statistiques et distributions
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
ou comment savoir si les différences observées sont significatives
Statistique Descriptive Les Paramètres de Tendance Centrale
LOI NORMALE LOI STUDENT ECHANTILLONS ET TESTS DE MOYENNE
1 L2 STE. Test du χ2 d’adéquation/conformité: Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie.
BIOSTATISTIQUES Définitions.
Probabilités et statistique MQT-1102
ECHANTILLONAGE ET ESTIMATION
Mesures de description des valeurs des variables
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
UED SIM – Département OLCI Année Arts & Métiers ParisTech CER ANGERS Probabilités et statistiques Cours n° 2.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Chapitre 6 Les tests d ’ hypoth è se 1 – Comparer des moyennes ou des proportions.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
TP1: Statistique application chapitre 2. Le tableau suivant reprend le taux d'intérêt (en %) payé par 20 banques sur les dépôts d'épargne de leurs clients.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Chap. III Statistiques inférentielles
Transcription de la présentation:

Chemometrics is the chemical discipline that uses mathematics, statistics BP Bernard Palagos - Cemagref Montpellier SG Serge Guillaume - Cemagref Montpellier SP Sébastien Preys - Ondalys BP BP SG BP BP BP BP SG SG KNN Decision TREE SP SG B. Palagos

Statistique descriptive (analyse exploratoire) Inférence statistique UTILISATION DES STATISTIQUES Statistique descriptive (analyse exploratoire) Données on illustre (graphiques) on résume (critères) Pas de généralisation Inférence statistique Estimation des paramètres d’une population à partir d’échantillon Intervalle de confiance Test d’hypothèse sur des valeurs des paramètres de la population Test de comparaison de populations Généralisation ACP ….. B. Palagos

Statistique descriptive (analyse exploratoire) UTILISATION DES STATISTIQUES Statistique descriptive (analyse exploratoire) Données on illustre (graphiques) on résume (critères) Pas de généralisation B. Palagos

Nominale sexe couleur Ordinale bon mauvais classes d’âge TYPE DE DONNEES Nominale sexe couleur Ordinale bon mauvais classes d’âge PH Poids notes B. Palagos

TABLEAU INDIVIDUS – VARIABLES CONTINUES B. Palagos

TABLEAU INDIVIDUS – VARIABLES DISCRETES B. Palagos

TABLEAU DE CONTINGENCE treatments x troubles Anxiety (A) Epilepsy (E) Sleep (S) Sum Clonazepan (C) 0 5 3 8 Diazepan (D) 5 4 2 11 Lorazepam (L) 4 0 2 6 Teriazolam (T) 1 0 4 5 Sum 10 9 11 30 B. Palagos

REPRESENTATION GRAPHIQUES PRI EAU 63.00 3635.00 77.00 3190.00 86.00 3530.00 89.00 3350.00 91.00 3070.00 92.00 3130.00 95.00 3490.00 3460.00 106.00 3380.00 74.00 3500.00 76.00 4030.00 85.00 3365.00 57.00 3515.00 3960.00 132.00 2925.00 152.00 2720.00 153.00 2340.00 Nuage de points B. Palagos

REPRESENTATION GRAPHIQUES V1 V2 V3 V4 ……….. V250 [1,] 0.001414187 0.001517513 0.001625822 0.001739089 [2,] 0.001710376 0.001839079 0.001974161 0.002115296 ………………… Spectres obtenus par NIR 642 pommes 256 longueurs d’ondes (300 à 1200 nanomètres) B. Palagos

HISTOGRAMME DE FREQUENCE 3 possibilités : bornes des classes fixées classes d’éffectifs égaux nc à fixer classes d’amplitudes égales nc à fixer amplitude = (max-min)/nc Données rangées par ordre croissant: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Largeur de classe : 10 Milieu de classe B. Palagos

Coefficient de variation RESUMES STATISTIQUES n observations (x1, ……,xn) Résumés Tendance centrale Variation Quartile Moyenne Mode Coefficient de variation Médiane Etendue Variance Ecart-type B. Palagos

TENDANCE CENTRALE Tendance centrale Moyenne Mediane Mode B. Palagos

La plus connue des mesures de la tendance centrale MOYENNE La plus connue des mesures de la tendance centrale Influencée par les valeurs extrêmes (outliers) C’est un indicateur peu robuste 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Moyenne = 5 Moyenne = 6 B. Palagos

Mesure robuste de la tendance centrale MEDIANE Mesure robuste de la tendance centrale Pas influencée par les valeurs extrêmes Calcul : observations rangées par ordre croissant n pair, la médiane est la valeur du milieu n impair, la médiane est la moyenne des deux milieux 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Mediane = 5 Mediane = 5 B. Palagos

On rajoute une autre observation MOYENNE-MEDIANE On rajoute une autre observation Médiane peu sensible Moyenne sensible aux valeurs extrêmes B. Palagos

Mesure de tendance centrale Valeur de plus haute fréquence MODE Mesure de tendance centrale Valeur de plus haute fréquence Pas influencée par valeurs extrêmes Utilisé surtout pour qualitatives On peut n’avoir aucun mode On peut avoir plusieurs modes 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Pas de Mode 0 1 2 3 4 5 6 Mode = 9 B. Palagos

25% 25% 25% 25% QUARTILES Découpage échantillon en 4 parties Mediane Position du ième Quartile Données ordonnées : 11 12 13 16 16 17 18 21 22 B. Palagos

X X BOX-PLOT Box-plot (boîte à moustache , boîte de dispersion) Graphique représentant la dispersion des données Utilisation des quartiles Détection de données atypiques X X max min 12.5 16 19.5 22 11 B. Palagos

BOX-PLOT - Outliers Q1-1.5(Q3-Q1) Q3+1.5(Q3-Q1). B. Palagos

Détection de données atypiques BOX-PLOT Détection de données atypiques B. Palagos

Comparaison de séries de données BOX-PLOT Comparaison de séries de données max 12.32 10.4 B. Palagos

Variation MESURES DE VARIATION Variance Ecart-type Coefficient de variation Etendue Données ordonnées : 11 12 13 16 16 17 17 18 21 IQ = Q3 – Q1 =17.5 – 12.5 =5 Intervalle Interquartile B. Palagos

Mesures importantes de la variation Variation autour de la moyenne VARIANCE & ECART-TYPE Mesures importantes de la variation Variation autour de la moyenne Variance de X1 ……… Xn de moyenne Ecart-type c’est la racine carrée de la variance Ecart-type même unité que les données B. Palagos

Importance de l’écart-type ECART-TYPE Importance de l’écart-type Echantillon A Moy = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21 Echantillon B Moy = 15.5 s = 0.9258 11 12 13 14 15 16 17 18 19 20 21 Echantillon C Moy = 15.5 s = 4.57 11 12 13 14 15 16 17 18 19 20 21 B. Palagos

COEFFICENT DE VARIATION Mesure la variation relative par rapport à la moyenne Toujours en (%) Utilisée pour comparer 2 ou plusieurs ensembles de données mesurés dans différentes unités B. Palagos

Inférence statistique UTILISATION DES STATISTIQUES Inférence statistique Estimation des paramètres d’une population à partir d’échantillon Test d’hypothèse sur des valeurs des paramètres de la population - Comparaison de populations Généralisation B. Palagos

POPULATION - ECHANTILLON Un fabricant souhaite vérifier la qualité des ampoules électriques produites par une nouvelle chaîne de production. Il faut donc évaluer la durée moyenne de fonctionnement des ampoules. Comment évaluer cette durée moyenne? On ne peut pas tester toutes les ampoules! Echantillon d’ ampoules B. Palagos

POPULATION - ECHANTILLON Paramètres statistiques Utilisation des paramètres pour caractériser la population Inférence à partir de l’échantillon B. Palagos

POPULATION- ECHANTILLON Échantillon de 130 ampoules Durée de fonctionnement mesurée pour chaque ampoule La moyenne de l’échantillon vaut 360000 heures qui est l’estimation pour la population B. Palagos

PROBABILITE    EXPERIENCE ALEATOIRE : ON NE PEUT PREVOIR PAR AVANCE SON RESULTAT ET REPETEE DANS DES CONDITIONS IDENTIQUES ELLE PEUT DONNER LIEU A DES RESULTATS DIFFERENTS    EX : LANCE de 2 DES  = { (1,1),(1,2),......} ensemble des résultats possibles  EVENEMENT : RELATIF AU RESULTAT D'UNE EXPERIENCE EX: SOMME DES POINTS  10  RESULTAT EST UNE PARTIE DE : { (4,6),(5,6),(6,6),(6,5),(6,4)} PROBABILITE ASSOCIEE A UN EVENEMENT P:  [0,1]   EX : LANCEMENT 1 DE P() = 1/ 6 LANCEMENT 2 DES P() = 1/ 36 B. Palagos

VARIABLE ALEATOIRE Formalise la notion de grandeur variant selon le résultat d’une expérience aléatoire EX: 2 DES X= SOMME DES POINTS MARQUES P(X=5) = P[ (1,4), (2,3), (3,2), (4,1) ] = 4/36   On associe LOI DE PROBABILITE PX EX: SOMME DES VALEURS DE 2 DES 6 SOMME DES 2 DES 5 4 LOI DE PROBABILITE REPRESENTEE PAR DENSITE DE PROBABILITE 3 2 1 2 3 4 5 6 7 8 9 10 11 12 PX en 1/36 B. Palagos

VARIABLE ALEATOIRE DISCRETE ET CONTINUE SOMME DES 2 DES 6 Loi discrète: valeurs dans ensemble fini 5 4 3 2 1 2 3 4 5 6 7 8 9 10 11 12 températures Loi continue: valeurs pas discrètes (réelles) S = P( a < X < b ) S = P(X < b) – P(X < a) P( X > b) = 1 – P( X < b) B. Palagos

QUELQUES LOIS DE PROBABILITES DISCRETES LOI DE BERNOUILLI : un événement se produit avec probabilité p LOI BINOMIALE : nombre de succès sur n épreuves de Bernoulli LOI DE POISSON : nombre d’occurrence d’un événement dans le temps CONTINUES: LOI EXPONENTIELLE: durée de vie d’un appareil ne subissant pas d’usure LOI NORMALE (GAUSS): beaucoup de phénomènes naturels et industriels LOI DU KHI2: variance d’un échantillon LOI DE STUDENT: remplace la loi normale quand l’écart-type est inconnu LOI DE FISHER: rapport de 2 variances   B. Palagos

LOI DES GRANDS NOMBRES B. Palagos

Moyenne, médiane, mode sont égaux Etendue infinie f(X) LOI NORMALE ou GAUSS m moyenne  écart-type X loi N(m, ) Symétrique Moyenne, médiane, mode sont égaux Etendue infinie f(X) X m Moyenne Médiane Mode  B. Palagos

LOI NORMALE ou GAUSS B. Palagos

LOI NORMALE ou GAUSS Quelques valeurs B. Palagos

P[ Z<0.12] Table statistique Fonction de répartition de la loi normale centrée réduite Probabilité de trouver une valeur < u B. Palagos

Loi de Gauss centrée réduite N(0,1) : μ = 0 σ = 1 LOI NORMALE ou GAUSS Loi Gauss N(μ, σ)   X variable aléatoire a pour loi une N(μ, ) μ moyenne , σ écart-type de X Loi de Gauss centrée réduite N(0,1) : μ = 0 σ = 1 Z a pour loi une N(0, 1) B. Palagos

X loi N ( 5, 10) P[ X< 6.2] ? LOI NORMALE CENTREE REDUITE P[ X< 6.2] = P[ Z<0.12] Distribution Normale centrée réduite Distribution Normale B. Palagos

LOI NORMALE - FONCTION DE REPARTITION X loi N(0,1) Loi Normale centrée réduite On cherche P [ X < u ] Il existe des tables statistiques pour N(0,1) .02 u .00 .01 .5478 0.0 .5000 .5040 .5080 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 Probabilités u = 0.12 0.3 .6179 .6217 .6255 B. Palagos

Distribution Normale centrée réduite EXEMPLE X loi N(5,10) on cherche Distribution Normale centrée réduite Distribution Normale SYMETRIE DONC DEUX FOIS ET PARTIE DROITE C PROBA MOINS UN DEMI B. Palagos

EXEMPLE Densité loi normale B. Palagos

ESTIMATION DES PARAMETRES Estimateur = Variable aléatoire fonction des variables observées sur un échantillon. On espère que la valeur est proche du paramètre que l’on veut estimer Un estimateur a une loi de probabilité Estimation est la valeur prise par un estimateur pour un échantillon particulier Estimation d’un paramètre à partir d’un échantillon unique ne conduit généralement pas à la vraie valeur du paramètre. Variation d’un échantillon à l’autre Estimation par intervalle ( de confiance) B. Palagos

X loi de Normale de moyenne  et d’écart-type σ alors LOI DE LA MOYENNE X loi de Normale de moyenne  et d’écart-type σ alors Loi Normale de moyenne et d’écart-type B. Palagos

THEOREME CENTRALE LIMITE La loi de la population est de moyenne m et d’écart-type . Lorsque la taille de l’échantillon n est assez grande, la loi de peut être approchée par une loi Normale de moyenne m et d’écart-type Distribution échantillon à la forme d’un forme Normale Taille de l’échantillon grande Conséquence: si n est grand , la moyenne de variables de même loi, aura une distribution Normale B. Palagos

ESTIMATION PAR INTERVALLE DE CONFIANCE Echantillon aléatoire Population μ est comprise entre 40 et 60. avec une confiance de 95% Moyenne X = 50 Moyenne μ est inconnue Echantillon B. Palagos

INTERVALLE DE CONFIANCE Échantillon (x1 , x2 , ……, xn) de taille n Estimateur de m : Estimateur de ²:  Un intervalle de confiance de niveau 1 -  pour un paramètre inconnu  d'une population est une estimation par intervalle ou fourchette de ce paramètre. Les bornes de cet intervalle se calculent à partir de l’ échantillon. On détermine un intervalle probabiliste de niveau 1 -  pour l’estimateur de  B. Palagos

ESTIMATION PAR INTERVALLE DE CONFIANCE Moyenne Proportion   connu inconnu B. Palagos

INTERVALLE DE CONFIANCE POUR LA MOYENNE m connu On suppose Ecart-type population connu Population distribution Normale Si la population pas Normale il faut un échantillon assez grand (n>30) Loi de Intervalle de confiance pour la moyenne m (inconnue) au niveau 1-: B. Palagos

INTERVALLE DE CONFIANCE POUR LA MOYENNE m Termes qui interviennent Variation des données Taille échantillon n Niveau de confiance 0.95 1.96 Loi de Normale B. Palagos

INTERVALLE DE CONFIANCE POUR LA MOYENNE inconnu Hypothèses Ecart-type population inconnu estimé par S La population a une distribution normale de moyenne m Sinon il faut grande taille échantillon On utilise la loi de student Intervalle de confiance au niveau 1- B. Palagos

Z t Normale LOI DE STUDENT La loi de Student t à ν degrés de libertés ( notation tν ) est une loi continue dont la densité est de la forme Normale t 12 t 5 Z t B. Palagos

Table de Student Table de distribution de t (Loi de Student) : Valeurs de t ayant la probabilité P d'être dépassées en valeur absolue B. Palagos

ex: n = 3 ddl= n - 1 = 2 .05 2 t = .05 2.920 t Values P[T > t] ddl LOI DE STUDENT ex: n = 3 ddl= n - 1 = 2 P[T > t] ddl .25 .10 .05 1 1.000 3.078 6.314 = .05 2 0.817 1.886 2.920 3 0.765 1.638 2.353 t 2.920 t Values B. Palagos

INTERVALLE DE CONFIANCE POUR LA MOYENNE EXEMPLE On suppose TH échantillon gaussien Moyenne de TH : 6.31 Ecart-type estimé : 2.47 Intervalle de confiance à 95% pour moyenne population n=10 table : t à 9 ddl t=2.26 [ 4.55 ; 8. 07] B. Palagos

INTERVALLE DE CONFIANCE POUR LA MOYENNE EXEMPLE 2 The absorbance scale of a spectrometer is tested at particular wavelength with a standard solution wich has an absorbance given as 0.470. Ten mesurements of the absorbance with the spectromètre give mean = 0.461 s = 0.003. Is systematic error present? The 95% confidence limits for the absorbance as measured by the spectrometer: Since the confidence interval does not include the known absorbance of 0.470 it is likely that a systematic error has occured. B. Palagos

On veut tester une hypothèse pour prendre une décision TEST D’HYPOTHESE On veut tester une hypothèse pour prendre une décision On affirme que l’âge moyen de la population est 50 ans Population ( ) Cela est peu vraissemblable ! échantillon REJET Hypothèse B. Palagos

A priori c’est meilleur mais c’est peut-être un coup de chance! TEST STATISTIQUE Introduction par un exemple Un industriel, par un procédé de fabrication courant, a produit des millions de tubes cathodiques dont la durée de vie moyenne est m = 1200 heures et l’écart-type σ = 300 heures. Un nouveau procédé, estimé meilleur par un bureau d’étude, fournit un échantillon de 100 tubes, avec une moyenne de A priori c’est meilleur mais c’est peut-être un coup de chance! On pose l’hypothèse nulle : le nouveau procédé produirait une population identique à l’ancienne: H0 : m = 1200 h (pas meilleur) L’ hypothèse alternative: le nouveau procédé est meilleur: H1 : m > 1200 h (meilleur) Dans quelle mesure la moyenne d’échantillon est-elle compatible avec l’hypothèse nulle m=1200. Si H0 est vraie quelle est la probabilité pour que   B. Palagos

p-Value ou probabilité critique Probabilité d’être supérieur à la statistique calculée (ou valeur absolue) que l’on compare au risque  choisi Théorème central limite Risque de 5% a = 0.05 Rejet p Value = 0.015 1200 1249 1265 Si p Value < (a = 0.05). Rejet H0 Si p Value ³ (a = 0.05). Pas de rejet H0 B. Palagos

NIVEAU DE SIGNIFICATION ET REGION CRITIQUE H0: m ³ 3 H1: m < 3 valeur critique unilatéral Région de rejet a H0: m £ 3 H1: m > 3 unilatéral a/2 H0: m = 3 H1: m ¹ 3 bilatéral B. Palagos

B. Palagos

B. Palagos

COMPARAISON D’UNE MOYENNE A UNE VALEUR DONNEE Hypothèses: - population normalement distribuée de moyenne m et  inconnu si ce n’est pas le cas taille échantillon grande (TCL) On teste H0: m = m0 Échantillon de taille n (x1, …, xn) Statistique calculée : Si H0: m = m0 est vraie statistique : Tn-1 Student n-1 ddl Rejet de H0 si pour un test bilatéral H1 : m  m0 Rejet de H0 si pour un test unilatéral H1 : m > m0 B. Palagos

COMPARAISON D’UNE MOYENNE A UNE VALEUR DONNEE Exemple : On prélève entre deux marées 25 crabes sachant que la température de l'air est de 24,3°C. On mesure la température de leur corps. La question est de savoir si la température du corps est identique à celle de l'air. Les données observées sont les suivantes (d’après Michel Le-Her ): 25,8 24,6 26,1 22,9 25,1 27,3 24,0 24,5   23,9 26,2 24,3 23,3 25,5 28,1 24,8 23,5 26,3 25,4 27,0 Nous voulons tester les hypothèses : hypothèse nulle H0 : µ = 24,3 °C hypothèse alternative H1 : µ ¹ 24,3 °C Risque =0.05 table de Student T24 : 2.064 2.704 > 2.064 : rejet de H0 . Au seuil de signification de 5%, l'échantillon ne provient pas d'une population de moyenne µ = 24,3 °C. donc ……. B. Palagos

COMPARAISON D’UNE MOYENNE A UNE VALEUR DONNEE Exemple :in a new method for determining selenourea in water, the following values were obtained for tap water samples spiked with 50 ng ml-1 of selenourea. Is there any evidence of systematic error? H0 : µ = 50 H1 : µ ¹ 50 50.4 50.7 49.1 49.0 51.1 =0.05 critical value T4 : 2.78 |t | = 0.14 < 2.78 : the observed values is less than the critical value the null hypothesis is retained: there is no evidence of systematic error Avec un logiciel libre (http://www.r-project.org/) > t.test(x , mu=50) One Sample t-test t = 0.1404, df = 4, p-value = 0.8951 c’est à dire: P( |t | > 0.14) = 0.8951 > 0.05 95 percent confidence interval: 48.87358 51.24642 mean of x 50.06 B. Palagos

B. Palagos

Comparaison de 2 échantillons Comparaison de l'efficacité de deux fertilisants sur la croissance des plantes. On mesure la hauteur de deux lots de plantes, dans les mêmes conditions, chacun avec un fertilisant différent. Différence significative entre les deux fertilisants? Comparaison of two methods for determination of chronium in rye grass. Five determinations were made for each method. Methode 1: mean 1.48 sd = 0.28 Methode 2: mean 2.33 sd = 0.31 Do theses methods give results having means Le titanium contenu dans l’acier est déterminé par spectrométrie dans 2 laboratoires On veut tester si les résultats des 2 laboratoires sont significativement différents Détermination de la concentration en paracetamol sur les mêmes comprimés en utilisant 2 méthodes: UV spectrométrique et NIR réflectance On veut tester si les 2 méthodes sont significativement différentes échantillons indépendants échantillons appariés B. Palagos

COMPARAISON DE MOYENNES – ECHANTILLONS INDEPENDANTS B. Palagos

COMPARAISON DE MOYENNES – ECHANTILLONS INDEPENDANTS Ex: Le titanium contenu dans l’acier est déterminé dans 2 laboratoires par spectrométrie.On veut tester si les résultats des 2 laboratoires sont significativement différents (à 5%) 2 échantillons indépendants de loi N ( m1 ; 1) et N ( m2 ; 2) On suppose les variances inconnues et égales (vérifier l’égalité) Variances estimées : S²1 et S²2 Estimateur de la variance commune On teste l'hypothèse d'égalité des moyennes : H0 : m1 = m2 contre H1 m1  m2 Sous H0 suit une loi de Student à n1 + n2 - 2 degrés de liberté. Rejet de H0 si B. Palagos

COMPARAISON DE 2 VARIANCES On teste H0 : ²1 = ²2 contre H1 ²1  ²2 (test bilatéral) Si la condition de normalité n'est pas vérifiée, le test n'est pas valable s²1 plus grande des 2 variances H0 est rejetée si s²1/s²2 est supérieur à la valeur critique, lue dans la table : F ( n1 , n2 ) TEST DE FISHER B. Palagos

COMPARAISON DE MOYENNES – ECHANTILLONS INDEPENDANTS Le titanium contenu dans l’acier est déterminé dans 2 laboratoires par spectrométrie.On veut tester si les résultats des 2 laboratoires différent.(à 5%) Il est nécessaire avant de tester l’égalité des variances. Valeurs lab1 0.470 0.448 0.463 0.449 0.482 0.454 0.477 0.409 Valeurs lab2 0.529 0.490 0.489 0.521 0.486 0.502 I On teste H0 : ²1 = ²2 contre H1 ²1  ²2 II On teste H0 : m1 = m2 contre H1 m1  m2 Il y a une différence entre les 2 laboratoires B. Palagos

COMPARAISON DE MOYENNES – ECHANTILLONS APPARIES Ex: Détermination de la concentration en paracetamol sur les mêmes comprimés en utilisant 2 méthodes: UV spectrométrique et NIR réflectance. On veut tester si les 2 méthodes sont significativement différentes Comparaison de deux traitements sur mêmes individus, comparaison températures réfrigérateurs haut bas H0 : µ1 - µ2 = 0 (il n'y a pas de différence entre les traitements) H1 : µ1 - µ2  0 (il y a une différence entre les traitements) 2 échantillons appariés .On calcule les différences, d, entre les deux échantillons . Puis une statistique tobs. Décision : Rejet de H0 au seuil de signification  si : |tobs| > tn-1,1-  /2 Conditions d'application : les échantillons ont été tirés aléatoirement la population des différences doit suivre une loi Normale. Cette condition est moins restrictive que celle de normalité des deux populations. B. Palagos

COMPARAISON DE MOYENNES – ECHANTILLONS APPARIES Ex: Détermination de la concentration en paracetamol sur les mêmes comprimés en utilisant 2 méthodes: UV spectrométrique et NIR réflectance. On veut tester si les 2 méthodes sont significativement différentes Si l'on choisit un seuil de signification  = 0.05, la valeur de t0.975 (9 ddl) est 2.262. Par conséquent, l'hypothèse nulle H0 : µ1 - µ2 = 0 ne doit pas être rejetée puisque |tobs| < t0.975 . B. Palagos

t.test(trait1,trait2,paired=T) COMPARAISON DE MOYENNES – ECHANTILLONS APPARIES Traitement de l’exemple avec le logiciel libre t.test(trait1,trait2,paired=T) Paired t-test data: trait1 and trait2 t = -1.6876, df = 9, p-value = 0.1258 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -7.489491 1.089491 sample estimates: mean of the differences -3.2 Si l'on choisit un seuil de signification  = 0.05, la p-value étant de 0.1258 on ne rejette pas l’hypothèse nulle. B. Palagos

Il y a-t-il indépendance entre lignes et colonnes ? Test du Khi2 Tableau de contingence treatments x troubles Anxiety (A) Epilepsy (E) Sleep (S) Sum Clonazepan (C) 0 5 3 8 Diazepan (D) 5 4 2 11 Lorazepam (L) 4 0 2 6 Teriazolam (T) 1 0 4 5 Sum 10 9 11 30 Il y a-t-il indépendance entre lignes et colonnes ? B. Palagos

Test du Khi2 Tableau de contingence Répartition aléatoire treatments x troubles Anxiety (A) Epilepsy (E) Sleep (S) Sum Clonazepan (C) 0 5 3 8 Diazepan (D) 5 4 2 11 Lorazepam (L) 4 0 2 6 Teriazolam (T) 1 0 4 5 Sum 10 9 11 30 2.67 = 10*8/30 treatments x troubles Anxiety (A) Epilepsy (E) Sleep (S) Sum Clonazepan (C) 2.67 2.40 2.93 8 Diazepan (D) 3.67 3.30 4.03 11 Lorazepam (L) 2.00 1.80 2.20 6 Teriazolam (T) 1.67 1.50 1.83 5 Sum 10 9 11 30 Répartition aléatoire B. Palagos

Pb de validité car cases < 5 Test du Khi2 treatments x troubles Anxiety (A) Epilepsy (E) Sleep (S) Sum Clonazepan (C) 0 5 3 8 Diazepan (D) 5 4 2 11 Lorazepam (L) 4 0 2 6 Teriazolam (T) 1 0 4 5 Sum 10 9 11 30 n lignes et p colonnes H0 : indépendance entre lignes et colonnes Comparaison avec Loi du Khi2 à (n-1) (p-1) dl Ici ² observé : 15.3 ² théorique à 6 ddl : 12.6 (5%) Rejet de H0 Pb de validité car cases < 5 B. Palagos

t9 p-Value p Value = 0.12 Rejet a/2 = 0.025 2.262 1.68 Probabilité d’être supérieur à la statistique calculée (ou valeur absolue) que l’on compare au risque  choisi Si p Value < (a /2= 0.025). Rejet H0 Si p Value ³ (a/2 = 0.025). Pas de rejet H0 p Value = 0.12 Rejet a/2 = 0.025 t9 1.68 2.262 B. Palagos

COMPLEMENTS On dispose de 10 palettes de briques de la même fabrication et on a obtenu les résultats suivants  (en kg) : 759 750 755 756 761 765 770 752 760 767 On admet que ces résultats sont issus d’une population distribuée selon une loi normale de moyenne m et de variance sigma inconnue Calculer un intervalle de confiance à 95% pour m, puis à 80% Que constatez-vous ? B. Palagos

COMPLEMENTS On dispose de 10 palettes de briques de la même fabrication et on a obtenu les résultats suivants  (en kg) : 759 750 755 756 761 765 770 752 760 767 On admet que ces résultats sont issus d’une population distribuée selon une loi normale de moyenne m et de variance sigma inconnue Calculer un intervalle de confiance à 95% pour m, puis à 80% Que constatez-vous ? B. Palagos

COMPLEMENTS La concentration en phénol pour les eaux usées a été déterminée par 3 mesures qui donnent une moyenne = 0.513g/L et un écart-type s= 0.05 g/L . La référence est m = 0.520 g/L. On teste si différence avec référence. (à 5%). On suppose la normalité de la variable concentration phénol. Mesure de la concentration de nitrate dans l’eau consommable afin de comparer avec norme européenne 50 mg/L . On réalise 4 répétitions et on obtient une moyenne de 51.2 et un écart-type s= 0.316. On teste si on est dans la norme (à 5%). On suppose la normalité de la variable concentration nitrate. Le titanium contenu dans l’acier est déterminé dans 2 laboratoires par spectrométrie.On veut tester si les résultats des 2 laboratoire différent.(à 5%). On suppose la normalité de la variable titanium. Il est nécessaire avant de tester l’égalité des variances. Valeurs lab1 0.470 0.448 0.463 0.449 0.482 0.454 0.477 0.409 Valeurs lab2 0.529 0.490 0.489 0.521 0.486 0.502 NB : étant donné le faible nombre de mesures, si la condition de Normalité n’est pas vérifiée il existe des tests non paramétriques B. Palagos

COMPLEMENTS La concentration en phénol pour les eaux usées a été déterminée par 3 mesures qui donnent une moyenne = 0.513g/L et un écart-type s= 0.05 g/L . La référence est 0.520 g/L. On teste si différence avec référence. (à 5%). On suppose la normalité de la variable concentration phénol. On ne rejette pas l’hypothèse nulle. La différence entre la moyenne de l’échantillon et la vraie valeur n’est pas significative. B. Palagos

COMPLEMENTS Mesure de la concentration de nitrate dans l’eau potable afin de comparer avec norme européenne m= 50 mg/L . On réalise 4 répétitions et on obtient une moyenne de 51.2 et un écart-type s= 0.316. On teste si on est dans la norme (à 5%). On suppose la normalité de la variable concentration nitrate. On rejette l’hypothèse nulle. La moyenne de l’échantillon est plus grande que que la valeur limite B. Palagos

TESTS SUR LES OUTLIERS Test de Dixon (Q-test) H0: les mesures proviennent de la même population Q= abs(valeur suspecte-valeur plus proche/IQ) Il existe table Application pour taille échantillon de 3 à 7 Exemple: 0.403 0.410 0.401 0.380 Q= abs ( 0.380 – 0.401) / (0.403 – 0.380) = 0.91 n = 4 critical value : 0.831 -> valeur rejetée au seuil de signification de 5% Test de Grubbs (plus récent) H0: les mesures proviennent de la même population normale G=abs(valeur suspecte – moyenne)/s Application pour taille échantillon de 3 à 10 G = 1.43 n = 4 valeur critique : 1.48 -> valeur acceptée au seuil de signification de 5% B. Palagos

B. Palagos

B. Palagos

Probabilités Analyse des données et Statistique, G. Saporta – TECHNIP REFERENCES Probabilités Analyse des données et Statistique, G. Saporta – TECHNIP Statistique inférentielle, JJ Daudin et al – PUR Statistics and Chemometrics for Analytical Chemistry, Miller & Miller – PRENTICE HALL Logiciel : http://www.r-project.org/ B. Palagos