Rappels Variables nominales : Oui / Non Bleu / Brun / Roux / Noir Pour déterminer s’il y a un lien, on utilise le 2 Variables quantitatives : Notes sur 20 Performances sportives Pour comparer des moyennes, on utilise les intervalles de confiances (loi normale ou T de student, selon les cas) Pour déterminer s’il y a un lien, on utilise la corrélation
Problème Y a-t-il un lien entre : Note de français et note de math ? Temps de préparation et performance ? Poids et taille ? Taille et note de math ?
Exemple 1 Note de français et note de math : y a-t-il un lien ? Math 11 13 7 8 10 15 18 16 17 9 6 4 5 12 14 Note de français et note de math : y a-t-il un lien ?
Exemple 2 Taille et note de math : y a-t-il un lien ? Taille Math 171 11 180 175 7 159 8 190 15 186 16 183 9 10 4 161 5 174 168 185 12 13 162 6 163 165 14 176 Taille et note de math : y a-t-il un lien ?
Exemple 3 Note de techno et note de français : y a-t-il un lien ? 11 9 7 12 8 10 15 2 16 3 14 4 5 13 6 Note de techno et note de français : y a-t-il un lien ?
Lien ou pas ? Non : Taille et note sont indépendants Oui, lien positif bonne note de math = bonne note de français Oui, lien négatif bonne note de math = mauvaise note de techno
Intuitivement Lien négatif Lien positif Lien positif Lien négatif
En pratique Donc est négatif Donc est positif Donc est négatif
En pratique La covariance précise le lien : Cov(X,Y)= Si Cov(X,Y) est grand (en valeur absolu), il y a un lien Si Cov(X,Y) est négative, le lien est négatif Si Cov(X,Y) est positif, le lien est positif
Exemple 5 x 5 = 25 ↓ ← 2 x 3 = 6 - 2 x 2 = - 4 → - 2 x - 3 = 6 → ↑ Math Français 4 5 15 8 12 13 7 5 x 5 = 25 ↓ ← 2 x 3 = 6 - 2 x 2 = - 4 → - 2 x - 3 = 6 → ↑ 3 x - 2 = - 6 ↑ - 6 x - 5 = 30 30+6+6+25-4-6=57 Cov(X,Y) = 9,5
Problème … La covariance dépend de la taille des données : Contrôle noté sur 20 Même contrôle, noté sur 100 Cov = 9,5 Cov=237,5 … Elle dépend aussi de l’unité : poids vs taille ↔ Kg vs cm Math Français 4 5 15 8 12 13 7 Math Français 20 25 75 40 60 65 35
Rappel : EX est l’écart type de la variable X Solution Coefficient de corrélation : C’est une covariance « normé » Varie entre -1 et 1 Pas d’unité (ni Kg, ni note sur 20,…) Rappel : EX est l’écart type de la variable X
Propriétés r varie entre -1 et 1 Si |r|=1, le lien entre les variables est parfait Si r>0, le lien est positif Si r<0, le lien est négatif Si r=0, on ne peut rien dire. Exemple :
Exemple Note sur 20 Note sur 100 Cov = 9,5 Cov=237,5 EX=4,05 EY=3,90 EX=20,25 EY=19,49 rXY=0,601 rXY=0,601 Math Français 4 5 15 8 12 13 7 Math Français 20 25 75 40 60 65 35
Régression linéaire : problème On a les notes math et français suivantes : Un élève a 10 en math, on voudrait estimer sa note probable de français
Solution graphique Si on connaît la « droite moyenne » : on peut « lire » la note probable Ici, 10 en math donne 11,2 en français
Solution arithmétique Equation d’une droite : y=ax+b. On cherche a et b Plusieurs solutions possibles
Solution arithmétique On considère les écarts entre la droite et les vrais points : on veut LA droite qui minimise ces écarts au carré :
Calcul (optionnel) L’écart entre un point (xi,yi) et la droite est : yi-y ou encore yi-axi-b L’écart au carré est donc (yi-axi-b)2 On cherche a et b tel que la somme des écarts au carré soit minimun, c’est-à-dire tel que : soit minimum Pour cela, on dérive G, on trouve son minimum ce qui nous donne la valeur de a et de b
Equation de la droite y=ax+b avec MX moyenne et EX écart type de la variable X
Symétriquement Si on veut les math en fonction du français :
Equation de la 2ieme droite y=ax+b avec MX moyenne et EX écart type de la variable X
Régressions non linéaires
Comment tricher ? (ou quelques erreurs communes) 3 a-t-il deux fois mieux réussi que 2 ?
Pourcentage… Lycée 1 Lycée 2 Lycée 1+2 Garçons : 20% de réussite 2 sur 10 Filles : 30% de réussite 60 sur 200 Lycée 2 Garçons : 60% de réussite 120 sur 200 Filles : 70% de réussite 7 sur 10 Lycée 1+2 Garçons : 58% de réussite 122 sur 210 Filles : 32% de réussite 67 sur 210
JAMAIS de pourcentage SANS l’effectif De quoi parle t on ? Le taux de croissance de la criminalité est en constante diminution sur les trois derniers mois ! Mars 100 Avril 120 (augmentation 20%) Mai 140 (augmentation 17%) Juin 160 (augmentation 14%) JAMAIS de pourcentage SANS l’effectif
Le mieux est l’ennemie du bien…
Risque 5% Risque 5% : 20 patients = 1 erreur 20 expériences = une expérience fausse…