Chimiometrie (Chemometrics)

Chimiometrie (Chemometrics)
Apport des outils statistiques à l'analyse François PREVOT, Université Paris7 Denis Diderot / IPGP 1 rue Jussieu, Paris Remerciement Rémi Losno, IPGP

La chimiométrie est un outil utilisé afin d’extraire de l’information pertinente et utile à partir de données physico-chimiques mesurées ou connues brutes. Il est basé sur la construction, puis l’exploitation d’un modèle de comportement à l’aide d’outils statistiques. Il peut traiter des systèmes complexes et donc généralement multivariables. Le terme «chimiométrie» vient de l’anglais «chemometrics», jeune discipline associant initialement analyse de données et chimie analytique. Aujourd’hui, il recouvre l’ensemble des applications de la chimie, de la physique, des sciences de la vie, de l’économie, de la sociologie, des méthodes statistiques et de l’informatique.

La chimiométrie (ou analyse multivariable) en instrumentation consiste à modéliser les variations d’un certain nombre de variables, que nous appellerons Yvariables dont l’obtention est délicate (nécessitant une analyse chimique par exemple) en fonction d’autres variables appelées Xvariables mesurables « facilement » (mesure de capteurs physiques par exemple) afin de pouvoir se passer ultérieurement de l’obtention des premières.

Apport des méthodes statistiques
But d’une analyse: En théorie: trouver la valeur vraie (µ) En pratique: dispersion des résultats due aux sources de variations Xi, valeur mesurée: xi = µ + ε

Densité de probabilité
Variable x Probabilité P d'obtenir x compris entre x1 et x2. Densité de probabilité entre x1 et x2 P / x2 - x1 dP/dx

Moyenne = mediane = mode
Equation de distribution Loi Normale Moyenne = mediane = mode C’est la plus utilisée Elle est définie par la densité de probabilité : Elle suit une distribution Gaussienne L’interprétation possible de la variance est de considérer qu’elle mesure la dispersion des données par rapport à la moyenne. Ce n’est donc pas vraiment une erreur moyenne mais plutôt une erreur expérimentale globale. C’est pourquoi souvent pour l’erreur, on écrit moyenne + ou – 3s! 68.3% 95.4% 99.7%

Densité de probabilité
Loi Normale Aplatissement: Surface toujours identique Moyenne = médiane = mode Ecart-type augmente avec aplatissement et inversement

Percentile loi normale: Loi normale cumulée

La représentation percentile
X X trié Rang Percentile % % % % % %

Méthodes statistiques « Statistique descriptive »
Quelle est la valeur qu’on prend pour estimer la valeur vraie? Quelle est la qualité de cette valeur estimée? Méthodes statistiques « Statistique descriptive »

Quelle est la valeur qu’on prend pour estimer la valeur vraie? Détermination de la valeur la plus probable Calcul de valeur centrale Quelle est la qualité de l’estimation? Ecart type et variance

Détermination de la fidélité de la mesure (precision) =
Répétabilité (repeatability): Étroitesse de l'accord entre les résultats des mesurages successifs réalisés dans les mêmes conditions de mesure Reproductibilité (reproducibility): Étroitesse de l'accord entre les résultats des mesurages successifs réalisés en faisant varier les conditions de mesure Calcul de dispersion statistique Détermination de la justesse de la mesure (accuracy) = étroitesse de l’accord entre valeur estimée et valeur vraie Calcul d’erreur systématique

Qualité de la mesure Valeur vraie

Qualité de la mesure Juste, et répétable

Qualité de la mesure Peu répétable

Qualité de la mesure erreur aléatoire : dispersion Peu répétable

Qualité de la mesure Pas juste, mais répétable

Qualité de la mesure erreur systématique Pas juste, mais répétable

Quelle est la valeur qu’on prend pour estimer la valeur vraie? Détermination de la valeur la plus probable Calcul de valeur centrale Quelle est la qualité de l’estimation? Détermination de la fidélité de la mesure (precision) = Répétabilité (repeatability): Étroitesse de l'accord entre les résultats des mesurages successifs réalisés dans les mêmes conditions de mesure Reproductibilité (reproducibility): Étroitesse de l'accord entre les résultats des mesurages successifs réalisés en faisant varier les conditions de mesure Calcul de dispersion statistique Détermination de la justesse de la mesure (accuracy) = étroitesse de l’accord entre valeur estimée et valeur vraie Calcul d’erreur systématique

Moyenne, médiane, mode Moyenne empirique ou arithmétique:
Médiane = valeur qui définie l’échantillon en 2 partie égale Mode = valeur la plus fréquente Les indices de tendance centrale : Ce sont des indices qui donnent des informations sur la position générale de la distribution on distingue trois indices de tendance centrale principaux : La Moyenne, la Médiane, le mode. Moyenne empirique est la somme des valeurs de la variable divisée par le nombre d'individus La médiane est la valeur centrale qui partage l'échantillon en 2 groupes de même effectif : 50% au dessus et 50% en dessous. La médiane peut avoir une valeur différente de la moyenne. Le mode est la donée ou le groupe de données qui revient le plus souvent

Exemple moyenne - médiane
Quelle valeur centrale utiliser? La moyenne est en général implantée dans les systèmes d’acquisition La médiane rarement implanté, mais l’intérêt est quelle ne tient pas compte des valeurs aberrantes 8.5, 8.3, 8.6,8.8, 8.4 a une médiane de 8.5 et une moyenne de 8.52 8.5, 8.3, 8.6,12.2, 8.4 a une médiane de 8.5 et une moyenne de 9.2 quelle tient compte des valeurs sous le seuil de détection <1, 1.2, 1.1, <1, 1.2 a une médiane de 1.1 et une moyenne de???? La médiane est une donnée ROBUSTE

Le mode: valeur la plus probable
Le mode est la valeur recherchée: c'est la valeur la plus probable. Pour une distribution normale: mode = moyenne arithmétique = médiane Pour une log-normale mode= moyenne géométrique = médiane souvent: Mgéo<= mode <=Marith

Distribution bimodale

La bimodalité d'une distribution dans un échantillon est souvent une indication forte du fait que la distribution de la variable dans la population n'est pas normale. La bimodalité d'une distribution peut fournir une information importante quant à la nature de la variable étudiée (c'est-à-dire la qualité mesurée). Cependant, dans la plupart des cas, la bimodalité indique que l'échantillon n'est pas homogène et que les observations proviennent en fait de deux (ou plusieurs) distributions qui se "chevauchent ». Parfois, la bimodalité d'une distribution peut révéler des problèmes avec l'instrument de mesure (par exemple, des "problèmes de calibration de l'indicateur" en sciences naturelles ou un "biais dans les réponses" en sciences sociales).

Dispersion La dispersion des résultats est lié aux erreurs aléatoires sur les mesures qui sont dues: l'erreur d'échantillonnage : si échantillon hétérogène, le résultat dépend alors de la manière dont on choisit l'échantillon ; l'erreur de préparation : c'est lorsque la préparation de l'échantillon introduit un biais ; l'échantillon s'altère pendant le transport, le stockage ou la manipulation la stabilité de l'appareil : celui-ci peut être sensible aux variations de température, de tension d'alimentation électrique, aux vibrations, aux perturbations électromagnétiques des appareils environnants… ou bien présenter un défaut de conception ou une usure L'estimation des paramètres s'effectue à partir du seul échantillon mais, si on veut apprécier la qualité de cette estimation, il faut considérer les indices de dispersion Les indices de dispersion : donnent des renseignements sur la dispersion et la variabilité dans un groupe, à savoir à quel point les valeurs de la distributions sont homogène ( si les valeurs sont proches de la moyenne ou pas) et hétérogène ( si écart entre la moyenne et les valeur extrême est trop important). Le problème de l’etendue est qu’elle nous donne aucune info sur la dispersion par rapport à la moyenne et notamment sur l’aberrance des valeurs extrèmes. Après avoir calculé la moyenne , on peut chercher à savoir de quelle façon les valeurs s'éloignent de cette moyenne. On crée alors une nouvelle série statistique: la série des écarts.La valeur mesurée expérimentalement est la valeur moyenne + erreur expérimentale. Donc l’erreur expérimentale correspond à la valeur vraie moins la moyenne. Et pour avoir l’erreur expérimentale moyenne, on peut donc faire la somme des erreurs divisées par n, mais le problème, c’est que ça donne 0. En effet, certains de ces écarts sont négatifs et d'autres sont positifs, la somme des écarts positifs compensant exactement la somme des écarts négatifs. Il faut donc s'abstraire du signe et calculer alors la moyenne de la valeur absolue des écarts. C'est ce que l'on appelle l'écart moyen. L'utilisation des valeurs absolues est souvent une impasse en mathématique. S'il s'agit de rendre positif les écarts, un autre outil est à notre disposition: la moyenne quadratique des écarts. d’où artifice mathématique, on met tout au carré, c’est non nulle et c’est ce qu’on appelle la variance… ramené en écart-type pour rester dans la même unité que la valeur mesurée (sinon c’est unité au carré!). On voit que l’écart type ou la variance sont nulles que si toutes les valeurs sont égales Rq n-1 car perte d’un degré de liberté: si 10 mesures, en calculant la moyenne on crée une onzieme mesure, mais on ne fait que prélever un dizieme de données sur chacune d’elle, d’où pour conserver la quantité totale des données, on divise par n-1 et non n.. Pour comparer deux séries statistiques qui n'ont pas le même ordre de grandeur, il est parfois bon de comparer l'écart type et la moyenne en en faisant le quotient, on obtient alors l'écart type relatif ou coeff de variation

Expression de la dispersion
Etendue: écart entre la plus petite et la plus grande valeur Ecart à la moyenne: Variance Ecart-type: racine carré de la variance Coefficient de variation L'estimation des paramètres s'effectue à partir du seul échantillon mais, si on veut apprécier la qualité de cette estimation, il faut considérer les indices de dispersion Les indices de dispersion : donnent des renseignements sur la dispersion et la variabilité dans un groupe, à savoir à quel point les valeurs de la distributions sont homogène ( si les valeurs sont proches de la moyenne ou pas) et hétérogène ( si écart entre la moyenne et les valeur extrême est trop important). Le problème de l’etendue est qu’elle nous donne aucune info sur la dispersion par rapport à la moyenne et notamment sur l’aberrance des valeurs extrèmes. Après avoir calculé la moyenne , on peut chercher à savoir de quelle façon les valeurs s'éloignent de cette moyenne. On crée alors une nouvelle série statistique: la série des écarts.La valeur mesurée expérimentalement est la valeur moyenne + erreur expérimentale. Donc l’erreur expérimentale correspond à la valeur vraie moins la moyenne. Et pour avoir l’erreur expérimentale moyenne, on peut donc faire la somme des erreurs divisées par n, mais le problème, c’est que ça donne 0. En effet, certains de ces écarts sont négatifs et d'autres sont positifs, la somme des écarts positifs compensant exactement la somme des écarts négatifs. Il faut donc s'abstraire du signe et calculer alors la moyenne de la valeur absolue des écarts. C'est ce que l'on appelle l'écart moyen. L'utilisation des valeurs absolues est souvent une impasse en mathématique. S'il s'agit de rendre positif les écarts, un autre outil est à notre disposition: la moyenne quadratique des écarts. d’où artifice mathématique, on met tout au carré, c’est non nulle et c’est ce qu’on appelle la variance… ramené en écart-type pour rester dans la même unité que la valeur mesurée (sinon c’est unité au carré!). On voit que l’écart type ou la variance sont nulles que si toutes les valeurs sont égales Rq n-1 car perte d’un degré de liberté: si 10 mesures, en calculant la moyenne on crée une onzieme mesure, mais on ne fait que prélever un dizieme de données sur chacune d’elle, d’où pour conserver la quantité totale des données, on divise par n-1 et non n.. Pour comparer deux séries statistiques qui n'ont pas le même ordre de grandeur, il est parfois bon de comparer l'écart type et la moyenne en en faisant le quotient, on obtient alors l'écart type relatif ou coeff de variation

Dispersion robuste Variabilité de Huber (MAB): médiane des écarts absolus à la médiane ~s = médiane(|xi - ~x|)

Loi de distribution attachée à l’échantillon
Distribution discrète Pour une représentation en histogramme, les classes doivent avoir la même largeur L'estimation des paramètres s'effectue à partir du seul échantillon mais, si on veut apprécier la qualité de cette estimation, il faut considérer la loi de probabilité attachée à la population. A ce propos, il convient de faire deux remarques. D'une part, sauf exceptions, cette loi de probabilité reste en toute rigueur inconnue. D'autre part, on fait souvent l'hypothèse qu'il s'agit de la loi normale, soit avec quelques justifications, soit pour des raisons de commodité. Pour apprécier la qualité de l’estimation, il faut considérer la Loi de distribution attachée à l’échantillon = Modèle mathématique introduit pour calculer les probabilités d’une variable aléatoire continue

Modélisation de la distribution

Diagramme en boîte et batons
1ère valeur < médiane -EM médiane EM= 1.5 q1-q2 écart de vraissemblance Quartiles

Loi Lognormale Excentricité: Courbe symétrique en échelle log
Moyenne # médiane = mode Ecart-type augmente avec étalement de l’excentricité

Propriétés loi lognormale
Excentricité: Courbe symétrique en échelle log Moyenne # médiane = mode Ecart-type augmente avec étalement de l’excentricité

Estimation de l'écartype
Si on considère une loi normale, l’estimation de l’erreur aléatoire est définie comme: le chiffre 3 correspondant à la prise en compte de 99,73 % des mesures Si l'on a peu d'échantillons, la formule suivante n’est plus applicable, il faut trouver un estimateur de sigma.

Représentativité de l'échantillonage
Effet de la taille de l’échantillon: n=1

Effet de la taille de l’échantillon: n=5

Sensibilité à l'écart type
Plus n est élevé, plus la distribution observée est proche d'une distribution modèle. σ ne caractérise pas directement l'incertitude de la moyenne pour un n quelconque mais plutôt le nombre d'essai à faire pour obtenir une image de la distribution Il faut comparer les valeurs de moyennes trouvées pour chaque distribution quand n petit moyenne très dufférente alors que quand n grand toutes les moyennes convergent…

Influence du σ sur l'échantillonage

Valeur de dispersion L'incertitude est une estimation
Distribution de l'écart-type expérimental de la moyenne Si =0 et =1 L'incertitude est une estimation

Valeur de dispersion Ecart-type à la moyenne Si=0 =1
Si l’écart type de la distribution des résultats d’une détermination isolée est sigma, celui de la moyenne de n repetitions est s/racine de n : soit si on fait plusieurs voit les mesures on va calculer plusieurs moyennes, l’écart type sur la mesure de la moyenne sera donc selon la def de l’écart type l’cart type total diivsé par la racines des n moyennes; c’est la dispersion des valeurs moyennes….

Valeur de dispersion -3 -2 -1 1 2 3 Distribution des moyennes
1 2 3 Distribution des moyennes Distribution des individus

Valeur de dispersion Nbre d'observations n (x)/x [%] 2 76 3 52 4 42
36 10 24 20 16 30 13 50 Plus n est grand, plus l’incertitude sur l’incertitude diminue Pas la peine d'indiquer les incertitudes avec beaucoup de nombres significatifs (Typiquement 2)

Valeur de dispersion Comme toutes les distributions ne suivent pas la loi normale, au lieu d’utiliser l’estimation ponctuelle de l’erreur comme étant la variance, on est obligé d’utiliser la notion d’intervalle de confiance… Risque d’erreur que la valeur estimée est différente de valeur vraie Pour quantifier ce risque: Intervalle de confiance autour de la moyenne % de chance de ne pas trouver la valeur vraie dans intervalle de confiance = α (1- α) = niveau de confiance de l’intervalle Si l’écart type de la distribution des résultats d’une détermination isolée est sigma, celui de la moyenne de n repetitions est s/racine de n : soit si on fait plusieurs voit les mesures on va calculer plusieurs moyennes, l’écart type sur la mesure de la moyenne sera donc selon la def de l’écart type l’cart type total diivsé par la racines des n moyennes; c’est la dispersion des valeurs moyennes….

intervalle de confiance
Valeur de dispersion On définie l’intervalle de confiance à partir de la loi de Student (densité de probabilité) intervalle de confiance 5 mesures 10 mesures 20 mesures > 100 mesures 50 % 0.92 0.88 0.86 0.84 90 % 1.48 1.37 1.06 1.29 95 % 2.57 2.22 1.72 1.2 99 % 4.03 3.17 2.53 2.6 Si l’écart type de la distribution des résultats d’une détermination isolée est sigma, celui de la moyenne de n repetitions est s/racine de n : soit si on fait plusieurs voit les mesures on va calculer plusieurs moyennes, l’écart type sur la mesure de la moyenne sera donc selon la def de l’écart type l’cart type total diivsé par la racines des n moyennes; c’est la dispersion des valeurs moyennes….

Valeur de dispersion En pratique, l'évaluation de la dispersion statistique se fait par des mesures de : répétabilité : caractérise la dispersion intralaboratoire sur une même série d’essais reproductibilité : caractérise la dispersion intralaboratoires dans des conditions de travail différentes (changement d’opérateurs) ou interlaboratoires pour un même protocole d’analyse

Valeur de dispersion Exemple: µg/g 1.095 1.232 1.135 1.21 0.975 1.18
1.095 1.232 1.135 1.21 0.975 1.18 1.165 1.342 0.956 1.242

Valeur de dispersion Exemple: Population totale VAR.P
µg/g 1.095 1.232 1.135 1.21 0.975 1.18 1.165 1.342 0.956 1.242 Population totale VAR.P Population échantillon VAR.S

Valeur de dispersion Exemple: Moyenne = 1.153 Variance = 0.014
µg/g 1.095 1.232 1.135 1.21 0.975 1.18 1.165 1.342 0.956 1.242 Moyenne = 1.153 Variance = 0.014 écart type = 0.119 Intervalle de Confiance

Incertitudes absolues et relatives
x +/- Δx Δx = Δx/x * x Si x >> DL : Δx/x ~ constant = R% Si X proche de DL: Δx = DL

Erreur systématique L'erreur systématique comprend des phénomènes comme les erreurs d'échantillonnage, de préparation, d’étalonnage Ces problèmes peuvent introduire une dispersion statistique (cf. ci-dessus) ou bien un décalage des résultats si l'erreur commise est toujours la même. Si infinité de mesure, n-1 tend vers l’infini et l’erreur tend vers 0 L'estimation d'un paramètre fournit un nombre qui n'a aucune raison d'être sa valeur exacte. Il y a une certaine probabilité pour que cette valeur se trouve à l'intérieur d'un intervalle autour de la valeur estimée : en se donnant la probabilité sous la forme 1-α (α : risque de se tromper) on définit un intervalle de confiance pour l'estimation.

Erreur systématique Matériaux de référence
MRC : Matériaux de référence certifiés MRI : Matériaux de référence internes Solutions étalons de vérification Ajouts dosés BNM : Bureau Nationale de Métrologie NIST : National Institute of Standards and Technology (USA) BCR : Bureau communautaire de référence (Bruxelles) AIEA : Agence Internationale pour l’Energie Atomique (Vienne) NRC CNRC: Bureau de certification canadien

Recouvrement CRM On exprime les valeurs mesurées sur le CRM en terme de "recovery rate" ou RR. C'est le rapport entre la valeur mesurée et la valeur certifiée. Exemple: Ba dans SLRS-5: 14 µg/L +/- 0.5 Mesuré /- 0.6 RR = /- 5 %

Etalonnage

Etalonnage Intervalle de confiance
a0 - t 1-a /2, n .a0 ≤ a0 ≤ a0 + t 1-a /2, n .a0 a1 - t 1-a /2, n .a1 ≤ a1 ≤ a1 + t 1-a /2, n .a1 Intervalle de confiance de la droite prédite : valeurs supérieures et inférieures: ŷ+ = a0 + a1 x + t 1-a /2 ŷ ŷ- = a0 + a1 x - t 1-a /2 ŷ

Régression linéaire Y = a.X + b b = Ymoy - a.Xmoy
sb² = s² {1/n + Xmoy² / S (Xi- Xmoy)²} et sa² = s² / S (Xi - Xmoy)²

Regression linéaire 15 10 5 R2 = 0,82 5 10 15 15 y = 0,5146x + 2,9819
5 10 15 15 15 R2 = 0,82 10 10 5 5 R2 = 0,82 5 10 15 5 10 15

Expression du résultat
Moyenne ou médiane µ = x + ε t (1-α /2,n) .x + %erreur relative

Qualification et validation
Qualifier appareil, opérateur, méthode. SST (System Sustainability Test). Vérifier la conformité en cours d'analyse (QC): CRM (MRC) Etalon "maison" Une méthode doit être validée dans sa totalité y compris le prélèvement.

Propagation des incertitudes (propagation d’erreurs)
?

Addition ou soustraction
A = B + C La variance de A (²) est la somme des variances de B et de C V(A+B) = VA + VB ou ²A+B = ²A + ²B

division ou multiplication

Chimiometrie (Chemometrics)

Présentations similaires

Présentation au sujet: "Chimiometrie (Chemometrics)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Chimiometrie (Chemometrics)

Présentations similaires

Présentation au sujet: "Chimiometrie (Chemometrics)"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back