rappels de statistique élémentaire CHEMOOC Structure des données et rappels de statistique élémentaire Avant d’aborder la chimiométrie à proprement parler, il est nécessaire de donner un rappel de quelques notions élémentaires qui serviront dans tous les modules.
2 types de données Données continues Données discrètes Analyse des acides gras d ’huile d ’olive Spectres proche infrarouge de pommes La chimiométrie va porter sur des données dont des exemples sont présentés ici. Les données peuvent tout d’abord prendre directement la forme de tableaux contenant des valeurs numériques. Chacune de ces valeurs numériques représente, par exemple, une mesure effectuée sur un échantillon. Une autre source de données abondamment présente en chimiométrie provient d’étude spectroscopique. Deux exemples de collections spectrales (proche infrarouge et Résonance magnétique nucléaire) sont illustrés ici. Plus précisément, il existe plusieurs sortes de données dont les types sont rappelés ci-dessus. Sur les données quantitatives continues et discrètes, on peut effectuer des calculs numériques (somme, rapport …) et des comparaisons (égalité, infériorité, supériorité). Sur les données qualitatives nominales, on ne peut que tester la différence ou l’égalité de deux valeurs. Sur les données qualitatives ordinales, on peut, de plus tester l’infériorité et la supériorité. Dans les exemples donnés dans la présente formation, les données principales seront généralement des données quantitatives continues.
Mise en forme de données discrètes Identificateurs des observations et des variables Il est nécessaire de pouvoir regrouper les données dont on dispose sous la forme de tableaux, qui peuvent, par exemple, être examinés dans un tableur (Excel ou autre). Les lignes sont les observations et les colonnes les variables Ce tableau s’appelle une matrice. On peut désigner la matrice par un symbole, par exemple une lettre. (Un usage fréquent est de désigner les matrices par des majuscules en gras (comme X, Y, A …). On peut repérer un élément de cette matrice par deux indices, i et j désignant respectivement la ligne et la colonne du tableau. Par exemple x5,3 désignera l’élément de la matrice occupant la 5éme ligne et la 3éme colonne. A côté de cette matrice de données, il est en général utile de donner des identificateurs de lignes et de colonnes. Ces identificateurs, choisis librement par l’utilisateur, n’interviennent pas dans les calculs mais sont souvent indispensables lors de l’étape d’interprétation des résultats. Ils sont particulièrement utiles lorsque l’on souhaite exprimer les résultats sous forme graphique. Voici un exemple de tableau avec des identificateurs. Il s’agit de données d’analyse de laboratoire d’acides gras d’huiles d’olive. Les identificateurs des lignes (individus ou observations) comportent ici deux premiers caractères repérant la région de culture des olives. Les trois suivants indiquent le numéro de l’individu dans une région de culture donnée. Les colonnes (variables) indiquent la nature de l’acide gras analysé. Il est en général utile de donner des identificateurs aux variables et aux observations
... Mise en forme de données continues (signal, spectres …) spectre proche infrarouge de farine de blé × n ... Nom des variables= indice des colonnes (ici longueur d ’onde en nanomètres) Nom des individus : nom donné au signal Un cas de données particulièrement important concerne l’étude de données provenant de signaux ou de spectres. Ces signaux forment par nature des courbes continues, avec sur l’axe des Y, l’intensité de la mesure, effectuée à un point de mesure (par exemple une longueur d’onde) donné sur l’axe des X). Ces données sont numérisées à intervalle de mesure constant. Un signal comprend souvent entre quelques centaines et quelques milliers de points de mesure. Chaque signal ou spectre de la collection de données est in fine représenté par une ligne de nombre (ou vecteur) donnant toutes les valeurs des mesures effectuées à chaque point expérimental. Note : dans la suite, nous n’utiliserons que le terme « spectre » pour désigner des données de ce style. Evidemment les données peuvent avoir d’autres origines (chromatographie, électrophorèse, rhéologie, acoustique …) On peut alors concaténer tous les signaux ou spectres de manière à former une matrice de données. Il faut pour cela que toutes les spectres aient été numérisés avec le même pas de mesure et commencent au même point. Dans le cas contraire, il faut appliquer des algorithmes de recalage pour obtenir cette concordance. D’un point de vue pratique, il est également nécessaire de conserver les longueurs d’onde pour pouvoir donner une représentation graphique des spectres. Il est approprié de nommer les variables par la valeur numérique de la longueur d’onde correspondante. De même, il est utile de donner des identificateurs aux individus. Numérisation (intervalle de longueur d ’onde constant)
Distributions fréquentielles des données Histogrammes Fréquence Nous allons maintenant présenter quelques entités statistiques d’un usage permanent en statistique et en chimiométrie. Nous commencerons par la notion d’histogramme. Un histogramme est une représentation des fréquences des valeurs observées dans chaque intervalle de classe défini par l’utilisateur. Plus précisément, l’histogramme peut être établi de la manière suivante. On commence par classer les valeurs numériques de la variable étudié en ordre croissant. On définit ensuite la première classe est l’intervalle de classe. On compte les données qui sont dans chaque intervalle de classe (fréquences). L’histogramme est la représentation de ces fréquences en fonction des intervalles de classe. Les histogrammes sont souvent riches d’information. Par exemple, ils peuvent donner un moyen d’examiner la régularité des données et de repérer les observations aberrantes (outliers). Si l’on joint les sommets des points des fréquences, on obtient un polygone de fréquences. Lorsque les données sont très nombreuses, le polygone de fréquence tend vers une distribution continue. De nombreuses distributions continues sont étudiées dans les ouvrages de statistique. La plus connue est la distribution « en cloche » normale ou courbe de Gauss. Classes Exemple d ’histogramme
Centre d ’une distribution Mode Médiane Moyenne Mode: Valeur la plus fréquente d ’une distibution Médiane : valeur centrale partageant la distribution en deux moitiés égales Moyenne: pour un échantillon de n observations notées x1, x2, …, xn Le signe « » signifie « égal par définition » Il est intéressant de tenter de résumer une distribution par un certain nombre de valeurs numériques. Les variables décrivant la valeur centrale d’une distribution sont données ci-dessus. La plus couramment utilisée est la moyenne. La médiane est parfois utilisée car elle est moins sensible que la moyenne aux valeurs aberrantes. Lorsque la distribution est symétrique, la moyenne, le mode et la médiane se confondent. Dans le cas contraire, leurs positions relatives dépendent de la forme de la dissymétrie observée. (Autre écriture de la moyenne: )
Paramètre de dispersion Distributions d ’échantillons de même moyenne Les paramètres de centre de distribution (moyenne, médiane ou mode) sont insuffisants pour caractériser la dispersion Paramètre de dispersion Etendue, Ecart absolu moyen, Variance, Ecart-type Sur ce dessin, on voit que le seul paramètre décrivant le centre de la distribution est insuffisant pour donner un résumé correct. Il faut en général ajouter un paramètre caractérisant la dispersion des données. Le paramètre de dispersion le plus couramment utilisé est l’écart-type définit ci-dessus, sur un exemple. On commence par calculer la moyenne (colonne 1), puis les écarts à la moyenne (colonne 2). A partir de ces écarts, on peut calculer les carrés des écarts et leur somme (colonne 4). La théorie statistique enseigne que la variance et l’écart-type sont mieux estimés en divisant la somme des carrés par n-1 plutôt que n. Cela provient du fait que la moyenne elle-même est calculée avec les données disponibles. Elle est ainsi entachée d’une erreur, dont le facteur n-1 rend compte. Voici un exemple de résultats de calcul de moyennes et d’écart-type sur des données réelles (abricot). Les unités ne sont pas comparables entre-elles: le poids est exprimé en kilogrammes, le diamètre des fruits en mètres, les teneurs en sucres en millimoles par litre. Pour certaines études statistiques (comme l’analyse en composantes principales), on souhaite pouvoir comparer les variables entre-elles. Dans ce cas, on applique souvent une transformation linéaire : le centrage et la réduction. Après cette transformation, les nouvelles variables ont une moyenne égale à 0, et un écart-type égal à 1. Max-min
Lien entre deux variables covariance coefficient de corrélation La valeur de la covariance dépend des unités de mesure ! Calcul de la covariance (exemple) Le coefficient de corrélation ne dépend pas des unités. Il est compris entre -1 et +1 Le coefficient de corrélation Dans de nombreuses situations, on s’intéresse au lien qui existe entre deux variables. Par exemple, on a représenté ici le graphique montrant le diamètre d’un fruit en liaison avec son poids. Chaque identificateur donne la position du fruit correspondant. Pour quantifier un lien linéaire, on utilise couramment la covariance ou le coefficient de corrélation. Nous illustrons ci-dessus le calcul de la covariance. La covariance est voisine de zéro si les deux variables ne présentent pas de lien. Elle a au contraire une grande valeur absolue lorsque les variables sont linéairement liées. Il faut noter que la covariance dépend des unités de mesures ! Cela peut la rendre difficile à utiliser en pratique comme indice de lien. Elle joue cependant un rôle important dans des méthodes de régression telles que la régression Partial Least Square (PLS) présentée dans un des prochains modules. On voit ici comment fonctionne la covariance. Si, par exemple, il existe un lien positif entre deux variables, leurs écarts à leurs moyennes respectives vont dans le même sens . Si ce lien est négatif, leurs écarts ont opposés. Ceci se traduira finalement dans la somme des produits des écarts. Il est plus pratique d’utiliser le coefficient de corrélation pour quantifier un lien. Ceci revient à calculer la covariance sur les données centrées réduites. Par construction, le coefficient de corrélation est compris entre (-1 et +1). Une valeur proche de zéro indique que les variables ne sont pas liées. On utilise souvent également le coefficient de détermination qui est le carré du coefficient de corrélation Matrice de corrélation
Corrélogramme Mesures au point i xi Concentration y 1 Spectre (X) -1 i Coefficient de corrélation à tous les points de mesures Sur des données spectrales, en liaison avec une variable extérieure, il est souvent intéressant de représenter le corrélogramme. Pour cela, on calcule indépendamment les coefficients de corrélation de chacune des variables du spectre avec la variable extérieure, y. On peut représenter le résultat comme un graphique donnant les coefficients de corrélation pour chacun des points de mesure. Comme exemple, on a établi le corrélogramme entre des spectres de fruits (abricot) et une variable extérieure mesurée au laboratoire, le saccharose. On voit par exemple que la teneur en saccharose est corrélée avec les nombres d’onde autour de 1050 cm-1. Le coefficient de corrélation, voisin de 0,6 est insuffisant pour prédire la concentration en saccharose à l’aide d’une seule variable, mais peut être un outil de diagnostic utile. Il est souvent également utile de calculer tous les coefficients de corrélation pour chacune des variables prises deux à deux. On a calculé ici la matrice de corrélation entre différentes variables caractérisant les fruits. Par construction la matrice est symétrique, et porte la valeur 1 sur la diagonale. On voit par exemple que le poids et le diamètre des fruits sont fortement corrélés (r=0,954), tandis que la teneur en glucose et en fructose présentent un coefficient de corrélation plus faible, égal à 0,552. Lorsque les variables sont très nombreuses (par exemple lorsque ce sont des variables spectrales), il est difficile d’interpréter une matrice de corrélation qui peut inclure plusieurs centaines de milliers de nombres. On peut examiner la matrice de corrélation sous la forme d’images en fausses couleurs, en appliquant une échelle de couleur pour coder les valeurs des coefficients de corrélation. On utilise souvent une échelle de couleur allant de bleu foncé (minimum) à rouge vif (maximum). La correspondance entre la couleur et l’intensité peut être donnée par une barre de couleurs.
Merci de votre attention !