La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

COURS STATISTIQUES PROBABILITES DESS « Génie logiciel, économie, droit et normes »

Présentations similaires


Présentation au sujet: "COURS STATISTIQUES PROBABILITES DESS « Génie logiciel, économie, droit et normes »"— Transcription de la présentation:

1 COURS STATISTIQUES PROBABILITES DESS « Génie logiciel, économie, droit et normes »

2 Une expérience aléatoire se décrit mathématiquement par la donnée dun espace dont les points notés sont les résultats possibles de lexpérience, ainsi que dune probabilité P sur. Un événement A lié à lexpérience est représenté par une partie de noté A. Chaque événement possède une probabilité P(A) qui est un nombre compris entre 0 et 1. (, A, P) espace probabilisé P( )=1= événement certain P(A) + P(A c )=1 La loi de probabilité triviale est : Cas discret : Cas continue :

3 Une variable aléatoire discrète est une variable X dont la valeur dépend du résultat. X est une fonction définie sur lespace associé à lexpérience aléatoire. Une v.a. discrète : dont lensemble des valeurs est dénombrable. Etant donné un espace de probabilité (, A, P), une v.a ; discrète est une application : tq la famille de nombre ( ) est appelée loi de probabilité X. Lintérêt est de permettre de calculer les probabilités directement sans passer par Esperance : Variance :

4 Une variable aléatoire continue est une variable aléatoire dont les valeurs sont dans R. Une fonction f est une densité de probabilité si : f(.) est positive, intégrable et La fonction de répartition Esperance :

5 Probabilité conditionnelle : Deux évènements sont indépendants si : Deux variables aléatoires sont indépendantes si : Théorème de Bayes :

6 Lois discrètes Loi uniforme Loi Bernouilli

7 Loi Binomiale On répète « n » fois dans des conditions identiques une expérience où lon observe lapparition ou pas dun événement avec à chaque expérience la même probabilité « p » dapparition. X= nombre dapparition de lévénement = n fois une bernouilli Loi géométrique Soit une suite d épreuves de Bernouilli indépendantes de même loi b(p). X : nombre de tirage nécessaire pour obtenir le premier évènement positif (X=1) Loi « sans mémoire», La probabilité de lévénement attendu au temps « k » ne dépend pas du fait quil ne soit pas apparu avant.( Seule v.a. discrète à posséder cette propirété « sans mémoire »)

8 Loi de Poisson Loi utilisée très souvent pour modéliser le nombre dévénement arrivant dans un temps donné T ne dépendant que de la durée de cette période Le nombre moyen dévénement par unité de temps. X= nombre dévénement arrivant sur une période T suit une loi de Poisson : On a, si p 50 :

9 Lois continues Loi uniforme Loi exponentielle Loi « sans mémoire » en temps continue. Le passé ne permet pas de prédire lavenir. En fiabilité cette loi est très utilisée pour représenter la durée de vie dun « matériel». Lespérance 1/ est souvent appelé MTBF (« mean time betweeen failure ») et le taux de défaillance P(X>x)=probabilité dattendre plus de x minutes avant lapparition dun phénomène avec 1/ comme temps moyen dattente du phénomène

10 Loi Weibull Utilisée en fiabilité. >1 : matériel qui se dégrade avec le temps <1 : matériel qui se bonifie avec le temps =1 : matériel sans usure (loi exponentielle) Loi Gamma Généralisation de la loi exponentielle. Loi utilisée dans les files dattentes. P(X>x) représente la probabilité dattendre plus de x minutes avant la kème apparition du phénomène étudié, où 1/ comme temps moyen dattente du phénomène entre deux apparitions de celui-ci.

11 Loi Laplace-Gauss (« normale ») Loi fondamentale en statistique. Très souvent utilisée pour modéliser des phénomènes étudiés. Elle est la loi limite de caractéristiques issus dun échantillon de grande taille. B(n;p) N(np;np(1-p)) (np et n(1-p) supérieurs à 5) P( ) N( ; ) (avec >18) On a les convergences suivantes

12 Loi du Chi 2 (Khi-deux de Pearson) On dit « chi2 à k degrés de liberté » Loi de student On dit « student à k degrés de liberté » Loi de Fisher-Snédécor On dit « fisher à k et l degrés de liberté »

13 Exemple 1 Une machine industrielle comprend trois organes de fonctionnement. Si lun de ces organes présente une défaillance, la machine tombe en panne. Sachant que les défaillances possibles de ces organes sont indépendantes et que les probabilités sont respectivement et 0.10 Quelle est la probabilité que la machine tombe en panne ? P(A)=0.02 P(B)=0.05 P(C)=0.10 P(panne)=1-P(pas panne)=

14 Exemple 2 Une machine a quatre dispositifs D 1, D 2, D 3, D 4, dont la défaillance peut intervenir de manière indépendante. On observe le fonctionnement de la machine pendant un intervalle de temps T. Soit A i : » D i fonctionne sans défaillance pendant lintervalle T », avec une proba : P(A i ). On sait que P(A 1 )=0.80 P(A 2 )=0.85 P(A 1 )=0.90 P(A 1 )=0.90 La machine tombe en panne si D 1 est défaillant. La machine continue de fonctionner si un seul des trois dispositifs D 2, D 3, D 4 est défaillant ; mais la défaillance simultanée de deux de ces trois dispositifs met la machine en pane. Quelle est la probabilité de fonctionnement de cette machine sur lintervalle de temps T ? Soit A=« la machine fonctionne sur un intervalle T »

15 Exemple 3 Un système S peut se présenter sous deux états, notés 0 et 1 en passant de lun à lautre de manière aléatoire. On a les résultats suivant : P(S=0)= 0.4 et P(S=1)=0.6. Une stations dobservations T 1 fournit des informations sur létat de S. La probabilité que T 1 donne S dans létat 0 si S est dans létat 0 = La probabilité que T 1 donne S dans létat 1 si S est dans létat 1 = A un instant donné, T 1 donne S dans létat 0. Quelle est la probabilité que S soit dans létat 0 ? Posons E 1 {S est dans létat 0} A:{S est observé dans létat 0 par T 1 } P(E 1 )=0.4 P(A /E 1 )=0.98 P(A/ c E 1 )=0.05

16 Exemple 4 Un système S peut se présenter sous deux états, notés 0 et 1 en passant de lun à lautre de manière aléatoire. On a les résultats suivant : P(S=0)= 0.4 et P(S=1)=0.6. Deux stations dobservations T 1 et T 2 fournissent des informations sur létat de S. La probabilité derreur de T 1 est 0.02 et celle de T 2 est0.06 A un instant donné, T 1 donne S dans létat 0 et T 2 donne S dans létat 1. Quelle est la probabilité que S soit dans létat 0 ? Posons E 1 {S est dans létat 0} et S 2 {S est dans létat 1} A:{S est observé dans létat 0 par T 1 et dans létat 1 par T 2 } P(E 1 )=0.4 P(E 2 )=0.6 P(A/ E 1 )=0.98*0.06 (=proba que T 1 soit vraie et T 2 soit fausse sachant que S est dans létat 0) P(A/ E 2 )=0.02*0.94

17 Une machine tombe en panne selon la loi exponentielle avec un facteur = 0.5/heure. Quelle est la probabilité que la machine tombe en panne entre la première et deuxième heure après le démarrage. Exemple 5 La durée de vie d'un composant d'un système est supposée suivre une loi exponentielle de paramètre. Un grand nombre de ces composants sont testés et on a observé que 5% ne durent pas plus de 100 heures. Estimer la probabilité qu'un composant pris au hasard dure plus de 200 heures, ou T est la durée de la vie en heures La probabilité de survie, ensuite, pour T > 200,

18 Pour le calcul de la fiabilité d'une carte électronique, il est admis que le taux global de défaillance est la somme des taux de chaque composant et que ceux-ci suivent une loi de mortalité exponentielle. La fiabilité globale suit donc une loi exponentielle. Les taux élémentaires sont donnés par des documents spécialisés (exemples : recueil de données de fiabilité des composants électroniques du CNET-RDF93 ; Military handbook - reliability prediction of electronic equipment - MIL-HDBK-217F ; manuels de fiabilité de constructeurs...). Ces recueils de données affectent également des facteurs permettant de prendre en compte les conditions d'environnement vibratoire, climatique et électrique. De même, le taux de défaillance du circuit imprimé prend en compte les dimensions, le nombre de trous métallisés ou pas, le nombre de pistes, leur largeur, et le nombre de couches. pour un taux de défaillance = h -1 et pour un fonctionnement 24 heures sur 24 pendant 208 jours par an, donnezla probabilité théorique que cette carte électronique fonctionne encore au bout de ces 208 jours. Exemple 6 t = 24 x heures la probabilité théorique que cette carte électronique fonctionne encore est alors de R(5000) = e x5000 = 0,9418. Ceci signifie que la probabilité d'avoir une défaillance pendant la durée de fonctionnement de 5000 heures est de f = 1 - 0,9418 = 0,0582 soit 5,8 %.

19 Exemple 7 On suppose que le nombre de clients entrant dans un magasin un jour donné est une variable de Poisson de paramètre = 12. Quelle est la probabilité de ne pas tomber en- dessous de 250 entrées de clients durant un mois de 22 jours ouvrables ? On fera les hypothèses d'indépendance qui s'imposent. Soit X le nombre de clients entrant dans le magasin durant un mois de 22 jours ouvrables. X suit une loi de Poisson de paramètre = 22·12 = 264 (on suppose que les variables comptant le nombre d'entrées de chaque jour sont indépendantes). La probabilité P(X 250) est donc donnée par P(X 250) = 1 - P(X < 250) = 1 - exp(-264)· i= i /i! = Cette dernière somme étant plutôt longue, on peut approcher la distribution de la variable de Poisson X par celle d'une variable normale Y de moyenne = = 264 et de variance 2 = = 264, ce qui donne ici P(X 250) = P(X - -14) P((Y - )/ 250/ ) = P(Z -14/264 ½ ) et Z est une variable normale standard. Donc P(X 250) ½·[1 + erf(7·33 ½ /66)] =

20 Les processus Observation de phénomènes dans le temps Temps discret Temps continue Nous modélisons pas une écriture probabiliste les différents états dun processus pour travailler avec.

21 Processus de Poisson Si les signaux observés sont « rares » et ne dépendent que du temps dattente et dun paramètre : Le nombre de signaux entre le temps « s » et le temps « s+t » suit P( t) Le temps dattente entre deux signaux suit une loi exponentielle de paramètre Le temps dattente entre « k » signaux suit une loi Gamma.

22 Exemple Le nombre de pannes dun composant est de 3 par 24 heures. Probabilité quil y ait aucune panne en 24 heures : Probabilité quil y ait moins de deux pannes en 72 heures : Probabilité pour que le temps dattente de la première panne soit supérieure à 24 heures : Probabilité pour que le temps dattente de la première panne soit supérieure à 72 heures : Temps moyen dattente dune pane : 1/3 de journée Nombre moyen de panes par jours : 3 pannes

23 Processus de Markov On observe un processus qui évolue dans le temps. Son état au temps « k » ne dépend que de son état au temps « k-1 ».

24 Exemple : Un programme informatique est composé de 5 sous programmes indépendants : spgm1,.., spgm5 et dun sous-programme de sortie spgm6. De spgm1 on peut aller à spgm2 avec une proba de ½ on peut boucler avec une proba de ½ De spgm2on peut aller à spgm1 avec une proba de ½ on peut aller à spgm4 avec une proba de ½ De spgm3on peut aller à spgm1 avec une proba de ¼ on peut aller à spgm2 avec une proba de ¼ on peut aller à spgm5 avec une proba de ¼ on peut aller à spgm6 avec une proba de ¼ De spgm4on va à spgm3 Quand on arrive à spgm5, on boucle Quand on arrive à spgm6, on boucle

25 Graphe du problème

26 Quelle probabilité dy être à nouveau au temps « 4 » ? Première résolution : graphique Il y a 3 chemins pour aller de 2 à avec une proba : 0.50x1x0.25x0.50=1/ avec une proba : 0.50x0.50x0.50x0.50=1/ avc une proba : 0.50x0.50x0.50x0.50=1/16 Soit une proba de 3/16 (Nous supposons que le programme commence par spgm2)

27 Si on pose les probabilités pij sous forme de matrice P, on a Deuxième résolution : par matrice Matrice initiale P P4P4

28 Pour la plupart des chaînes de Markov vérifiant certaines propriétés, nous obtenons assez vite un régime stationnaire quelque soit létat initial. Exemple : le processus markovien de graphe Matrice associée 0.4

29 Le stationnarité sécrit : et =( 1, 2, 3 ) avec =1 On a =[1/4 1/2 1/4] Si on part de trois états différents : On obtient par simulation :

30 Exemple tiré de « sur la modélisation structurelle markovienne en fiabilité du logiciel » INRIA 1995 Un logiciel a 5 composantes dont les paramètres dexécution exponentiels sont estimés à Les transition se font avec des probas : Les composantes 4 et 5 peuvent défaillir avec des probas : 4 = 0.03 et 5 = 0.01 Après une défaillance, les temps de recouvrement dun bon fonctionnement sont des loi exponentielles de paramètres 4 = 5 et 5 = 10 On obtient : Il y a 95% de chances quil y ait deux défaillances avant 88 heures. La diminution dun taux de défaillance 5 dans un rapport de 10 napporte quun gain de deux heures sur cette borne de 88 heures. Par contre, la simple division par trois de 4 donne une nouvelle borne de 257 heures.

31 C1C2 C4 C3 C5R5 R4

32 Soit un programme ayant 3 modules différents A, B, C On passe de A à B avec une proba 0.4 On passe de B à A avec une proba 0.4 On passe de B à C avec une proba de 0.3 On passe de C à B avec une proba de 0.3 On boucle en A avec une proba de 0.6 On boucle en B avec une proba de 0.7 On boucle en C avec une proba de 0.7 Graphe ? Matrice de transition ? Si je rentre par le module A, quelle probabilité dêtre en C en deux étapes ? Etat stationnaire ?

33 Questions ouvertes : Variable qualitative avec différentes modalités (sexe, CSP, …) Variable nominale : Variable dont la réponse est un classement Variable ordinale : On demande aux interviewés dattribuer une « valeur ». Exemple : Échelle de Likert en 5 valeurs (« tout à fait daccord » « pas du tout daccord ») Variables déchelle Variables numérique : La réponse est une note sur une échelle de valeurs Les différentes variables Statistiques

34 Les indicateurs de position Le mode La médianeLa moyenne Les indicateurs de dispersion Les quartiles, centiles, … La varianceLécart-type Utilisation de modules

35 Les graphes Variables nominales Variables discrètes Variables continues « Tuyaux dorgue » « Diagramme en batons » « Histogrammes »

36 Corrélation Il existe différents outils pour mesurer la « liaison » entre deux variables, selon les type de variable et le type de liaison recherchée. Cependant, le coefficient de corrélation est le plus connu et utilisé. Le coefficient de corrélation mesure la « liaison linéaire » entre deux variables, valeur comprises entre -1 et 1. x x x x x x x x R proche de 0 : aucune liaison linéaire

37 R proche de -1 : forte liaison linéaire négative x x x xxx x x x x x x x x xxx x x x x x R proche de 1 : forte liaison linéaire positive

38 Corrélation forte relation causale Corrélation nulle aucune relation Il y a une très forte corrélation positive entre le nombre d anniversaires fêtées et l ancienneté de la personne. Plus je fête d anniversaire plus je vivrai vieux X et Y sont deux variables avec un coefficient de corrélation nul XY ,5 1 1,5 2 2,5 3 3,5 4 4,5 -2,5-2-1,5-0,500,511,522,5 ? R=0 et Y=X 2

39 Estimation Nous travaillons sur une fraction de la population mère. Tous nos résultats ne sont plus des résultats certains mais des « estimations » qui sapprochent plus ou moins du véritable résultat. Estimation de la moyenne : Estimation de la variance : Le théorème « central limit » dit :

40 Intervalles de confiance se lit dans la table N(0;1).

41 Tests statistiques Les tests statistiques fournissent un cadre "scientifique" qui permet de valider certaines hypothèses. Quand nous effectuons un test, nous vérifions une "hypothèse". On appelle "Ho" l'hypothèse testée lors d'un test. On appelle "H1" l'hypothèse dite « alternative » Seuil D'un Test On dit souvent que nous effectuons un test au seuil " ". Cela veut dire que nous nous fixons un seuil, " ", qui correspond au risque maximum que nous sommes prêt à prendre si nous nous trompons en disant que Ho, cest à dire lhypothèse que nous voulons vérifier, est fausse. On prend en marketing généralement un seuil " " de 10%, 5% ou 1%. Valeur "P" d'un Test On appelle "p" le résultat numérique d'un test, appelé aussi « significativité ». "p" : "Probabilité de me tromper si je dis que c'est l'hypothèse alternative qui est vraie (H1)".

42 On dit que nous avons deux populations indépendantes si les sujets des deux populations sont issues de deux échantillons construits indépendamment l'un de l'autre. On dit que nous avons deux populations appariées si les deux échantillons sont les mêmes (ou considérés comme identiques). Attention : "paired" en anglais s'est transformé en "pairé" sous EXCEL français. Si les échantillons sont importants (N>30), nous utiliserons le plus souvent les tests du Chi2, de Student ou de Mc Nemar. Test à utiliserVariables Qualitatives Variables Quantitatives Populations Appariées Mc NemarStudent Apparié Populations Indépendantes Chi2Student indépendant

43 TEST DE STUDENT APPARIE TEST DE STUDENT INDEPENDANT TEST DU CHI 2 TEST DE MC NEMAR « A » : nombre de personnes qui passent de « X » à « Y » « D » : nombre de personnes qui passent de « Y » à « X »


Télécharger ppt "COURS STATISTIQUES PROBABILITES DESS « Génie logiciel, économie, droit et normes »"

Présentations similaires


Annonces Google