Dominique HAUGHTON (Bentley College/Boston) ANALYSE DE L’ACCES A L’EDUCATION AU SENEGAL: UNE APPLICATION DE LA METHODE CART (Classification And Regression Trees) Par: Dominique HAUGHTON (Bentley College/Boston) Abou KANE (CREA/UCAD) Aly MBAYE (CREA/UCAD)
SOMMAIRE INTRODUCTION I. A PROPOS DE LA BASE DE DONNÉES II. BREF APERÇU DES DÉTERMINANTS DE LA SCOLARISATION III. MÉTHODE CART ET DÉTECTION DES VARIABLES LES PLUS DETERMINANTES DE LA SCOLARISATION CONCLUSION
INTRODUCTION A - Objet de l’étude B - Intérêt de l’étude C - Pourquoi CART
A - Objet de l’étude Identifier les contraintes d’accès à l’éducation à travers: Le diagnostic de l’incidence des conditions économiques des ménages sur la décision de scolariser leurs enfants; L’examen des effets des disparités de genre entre enfants; La mesure de l’influence du milieux; L’étude de l’influence des conditions sociales des parents sur la scolarisation.
B - Intérêt de l’étude Beaucoup d’efforts ont été consentis pour augmenter les TBS : scolarisation obligatoire de 7 à 13 ans taux d’admission dans le primaire est passé de 55% en 1991 à 91% en 2002 beaucoup d’efforts déployés pour accroître les taux d’enrôlement : 40% du budget de l’Etat à l’éducation, recrutement de volontaires et de vacataires pour augmenter l’offre d’enseignants, constructions d’écoles et de salles de classes, un accent plus marqué sur la qualité de l’enseignement dispensé, ces dernières années etc.
B - Intérêt de l’étude (suite) Mais persistance de quelques problèmes : taux d’achèvement restés faibles : 50% des enfants admis dans l’élémentaire n’atteignent pas la dernière année du primaire, contre 42% en 1991 D’où taux de scolarisation dans le primaire est seulement de 80%, contre une moyenne africaine de 92% TBS dans le secondaire très faible : 26% pour le moyen secondaire
B - Intérêt de l’étude (suite) Les facteurs liés à la demande doivent être davantage pris en compte : on estime que le tiers des enfants de 7 à 14 ans travaillent au Sénégal, ce qui est en conflit avec la scolarisation d’autres facteurs interviennent dans le choix des parents d’envoyer ou non leurs enfants à l’école Ce sont ces facteurs liés à la demande d’éducation qu’il s’agit de comprendre ici.
C - Pourquoi utiliser la méthode CART? Généralement, les modèles logistiques sont utilisés pour la détermination des variables explicatives de l’accès ces modèles ne permettent pas de faire des inférences correctes s’il y a des variables inobservées et qui déterminent simultanément les deux variables dont on cherche à déterminer la corrélation : exemple des préférences intergénérationnelles du ménage pour l’éducation agissent tant sur l’éducation des parents que sur ceux des enfants ces modèles ne permettent pas de faire des inférences correctes en cas de présence d’effets d’interaction entre les variables
C - Pourquoi utiliser la méthode CART ? (suite) Dans ces cas de figure, on est en présence d’endogénéités qui rendent biaisées les estimations, si on n’inclut pas un instrument approprié Avec la méthode CART ce problème d’endogénéité ne se pose pas CART est simple, par exemple, aucune hypothèse n’est requise sur la distribution des séries à utiliser CART permet non seulement d’identifier les variables explicatives de l’accès, mais aussi de les classer par ordre d’importance
I. A PROPOS DE LA BASE DE DONNEES A - PASEC et EBMS, quelle relation ? B - Echantillonnage
A - PASEC et EBMS, quelle relation? Les données utilisées viennent de EBMS (avril-juin 2003) L’enquête sur le bien-être des ménages au Sénégal (EBMS) complète et approfondit PASEC (programme d’analyse des systèmes éducatifs de la CONFEMEN) par trois nouvelles enquêtes menées dans les collectivités couvertes par l’échantillon des écoles primaires du PASEC.
A - PASEC et EBMS, quelle relation? (suite) La première a été une enquête exhaustive auprès de 1800 ménages qui a permis de constituer une base de données contenant aussi bien les informations actuelles que les informations rétrospectives sur les ménages: composition, éducation, santé, emplois, migration, etc.
A - PASEC et EBMS, quelle relation? (suite) La deuxième enquête a consiste en une collecte d’informations sur les caractéristiques des 60 collectivités. Les infrastructures scolaires et sanitaires, l’existence de marchés notamment ont fait l’objet d’une attention particulière.
A - PASEC et EBMS, quelle relation? (suite) Quant à la troisième enquête, elle a porté sur les écoles. Les autorités scolaires du primaire et du secondaire ont été interviewées Aussi, des tests de connaissances scolaires et de compétence de vie courantes ont été administres aux enfants ages de 14 a 17 ans
B - Echantillonnage PASEC suivait les enfants scolarisés d’une année à une autre, collectait des informations sur les scores des élèves, sur l’école et sur le ménage de l’élève EBMS collecte des informations sur le ménage de l’enfant en l’interrogeant ainsi que les autres membres du ménages
B - Echantillonnage (suite) Dans les deux cas, la méthode d’échantillonnage stratifié en grappes est utilisée Pour chaque grappe, EBMS retient 15 des 20 enfants de l’échantillon PASEC, et y ajoute 15 autres choisis de manière aléatoire dans la localité de l’école
B - Echantillonnage (suite) Par conséquent l’échantillon sur lequel on a travaillé n’est pas représentatif de la population sénégalaise dans son ensemble Il n’est dons pas possible de faire des inférences à partir des statistiques qui en résulte, sans précaution
B - Echantillonnage (suite) Malgré les problèmes de représentativité lies à l’échantillonnage, la base de données de l’enquête EBMS est unique en son genre du fait de la nature des données collectées.
II. BREF APERCU DES DETERMINANTS DE LA SCOLARISATION DES ENFANTS A - Les déterminants de la scolarisation des enfants dans la littérature économique B - Quelques statistiques à partir de la base EBMS
A - Les déterminants de la scolarisation des enfants dans la littérature économique 1. NIVEAU D’EDUCATION DES PARENTS ET SCOLARISATION DES ENFANTS a. La littérature économique sur le sujet est très fournie, avec plusieurs questions importantes qui sont abordées Beaucoup d’évidences empiriques sur le lien entre le niveau d’instruction des parents et la scolarisation des enfants : Chernichovsky (1985), Glewwe et Jacoby (1994), Lloyd et Blanc (1996) etc. Dans beaucoup de ces cas, l’éducation de la mère est plus déterminante que celle du père : Behrman et Wolfe (1987), Singh (1992)
A - Les déterminants de la scolarisation des enfants dans la littérature économique (suite) Ces conclusions sont parfois contestées, par exemple, Cogneau et Morin (2001) ont montré que la relation statistique entre l’éducation de la mère et la scolarisation des enfants à Madagascar est biaisée. Une fois qu’on introduit la variable instrumentale appropriée, il n’y a plus de corrélation entre les deux variables. Cependant, les évidences d’une éducation parentale déterminant la scolarisation des enfants, dans la littérature paraissent bien plus nombreuses. b. Les mécanismes par lesquels l’éducation des parents est transmise aux enfants sont aussi bien documentés La discussion entre les causes génétiques et les causes liées à l’environnement
A - Les déterminants de la scolarisation des enfants dans la littérature économique (suite) certains auteurs pensent que le canal par lequel les parents transmettent leur éducation aux enfants est d’abord génétique : deux papiers par Behrman et Rosenzweig (2002), et Plug (2004) montrent que si on isole la composant génétique de la relation mère/enfant, la scolarisation de la première n’a plus d’incidence sur celle du second. Oreopoulos, Page et Huff Stevens (2003), Chevalier (2004) ont utilisé la méthode des variables instrumentales, pour confirmer la relation éducation parent – éducation des enfants, expliquée par l’environnement familial et non la génétique..
A - Les déterminants de la scolarisation des enfants dans la littérature économique (suite) Sacerdote (2002) ont comparé les enfants adoptés et les enfants biologiques en Angleterre et ont conclu que l’éducation des parents adoptifs a bel et bien un impact sur celle des enfants. Enfin, dans un récent papier, de Walque (2005) s’est intéressé à la relation dans le cadre des familles recomposées suivant le génocide rwandais. Il a trouvé une très forte corrélation entre l’éducation de la femme dans ce type de ménage recomposé exerce une influence forte et significative sur celle des enfants, confirmant que c’est l’environnement familial qui joue plus que la génétique.
A - Les déterminants de la scolarisation des enfants dans la littérature économique (suite) Le mécanisme peut aussi jouer par l’effet de goût et l’effet de productivité l’effet de goût veut que la préférence et le goût des parents pour l’éducation fassent qu’ils désirent la même chose pour les enfants. L’effet de productivité signifie que l’éducation des parents augmente leur productivité, notamment cette de la mère qui peut produire plus de santé et de nutrition à partir du même volume d’inputs. Or la santé et l’éducation sont fortement corrélée avec l’éducation
A - Les déterminants de la scolarisation des enfants dans la littérature économique (suite) 2. L’EFFET DU GENRE ET DU REVENU a. L’effet du revenu le revenu et la richesse des parents joue aussi un rôle important tant sur l’enrôlement que la progression des enfants : Jacoby (1994), Jamison et Lockheed (1987) Deolalikar (1993) trouve que le revenu non salarial a le même impact sur la scolarison des garcçons et des filles, alors que Handa (1996) pense que le revenu a un plus grand impact sur la scolarisation des filles seulement.
A - Les déterminants de la scolarisation des enfants dans la littérature économique (suite) b. L’effet du genre Pour cette variable, plus que pour les autres, aucune conclusion claire n’émerge des études faites dur les pays. Certaines études tendent à montrer que les filles sont plus favorisés que les garçons en termes d’accès et de progression : Au Brésil (Birdsall 1985) ; au Botswana (Chernichovsky 1985) ; au Philippines (King et Lillard 1983),etc. Alors que pour d’autres auteurs, les garçons sont plus favorisés : Jamison et Lockheed au Nepal (1987), Glewwy et Jacoby au Ghana (1994), Deolalikar en Indonésie (1993)
A - Les déterminants de la scolarisation des enfants dans la littérature économique (suite) Il est vérifié que lorsque les enfants intègrent le marché du travail, et que les garçons gagnent plus que les filles, le coût d’opportunité de les envoyer à l’école est plus élevé. Au Mexique, selon les données du recensement de 90, 11% des garçons travaillent contre 3% des filles, et 47% des garçons de la tranche d’âge 12-14 ans travaillent contre 18% des filles. Le travail des enfants est une activité qui concurrence leur accès à l’école.
B – Quelques statistiques descriptives à partir de la base EBMS 1. Analyse descriptive de l’effet genre 2. Analyse descriptive de l’effet zone d’habitation 3. Analyse descriptive de l’effet revenu des parents 4. Analyse descriptive du niveau de scolarisation des parents
1 – Analyse descriptive de l’effet genre Le tableau 1 montre que du point de vue de l’accès au primaire, 76,33% des enfants de 7 à 12 ans ont accès à l’école. Il n y a pas de différences dans les taux de scolarisation des garçons et celui des filles
Tableau 1: Scolarisation des enfants de 7 a 19 ans Niveau d’enseignement filles garçons total Primaire Part dans l’effectif scolarisé 50.08 49.92 100.00 Taux de scolarisation 76.65 76.02 76.33 moyen 43.44 56.56 61.37 72.14 67.03 secondaire 38.86 61.14 33.24 45.05 39.59
1 – Analyse descriptive du genre (suite) l’accès au primaire n’est donc pas tributaire du genre situation due au fait qu’à cet âge, les filles sont moins exposées aux contraintes comme les travaux domestiques,les mariages précoces, etc.
1 – Analyse descriptive de l’effet genre (suite) L’écart se creuse avec l’âge. Il est de 10 points pour le collège moyen et de 12 points pour l’enseignement secondaire. La distribution genre de la population scolaire s’inverse avec une dominance des garçons.
2. Analyse descriptive de l’effet zone d’habitation Les disparités entre zones sont importantes. Pour le primaire: En milieu urbain, le taux est de 84,5% Contre 70,3%, en milieu rural.
2. Analyse descriptive de l’effet zone d’habitation (suite) Compte tenu de la rareté de l’offre dans les zones rurales, l’analyse des différences d’accès entre zones pour le collège et le lycée serait biaisée. En effet, les enfants ruraux sont souvent obligés de s’installer dans d’autres localités pour suivre un enseignement secondaire.
3. Analyse descriptive de l’effet revenu Corrélation entre la scolarisation et le niveau de vie mesuré par un indice composite de richesse Il s’agit d’un indice utilisant des informations sur la propriété de biens durables comme les tv, radio, réfrigérateur, bicyclette, motocyclette ou autocar, etc.
Cet indice prend aussi la source d’eau potable et la disponibilité de toilettes (Sahn et Stifel, 2003) Il apparaît que pour le primaire, 67,9% des enfants issus des ménages appartenant aux 20% les plus pauvres sont scolarisés contre 92,4% des enfants ménages.
Tableau 5: Analyse descriptive du revenu Niveau d’enseignement Quintile 1 (20% plus les pauvres) quintile 2 quintile 3 quintile 4 Quintile 5 (20% plus les riches) total Primaire Part dans l’effectif scolarisé 18.46 21.19 16.71 21.96 21.68 100.00 Taux de scolarisation 67.92 65.99 73.74 85.96 92.20 76.33 secondaire 14.91 18.27 17.93 22.89 25.99 48.88 50.68 57.25 60.87 67.82 57.53
3. Analyse descriptive du revenu (suite) Pour le collège et le lycée, la moitié des enfants du quintile 1 (20% les plus pauvres) n’ont pas accès à l’école alors que la proportion est de 32% pour le quintile 5 (20% les plus riches). La discrimination par les ressources économiques s’accentue avec le niveau d’enseignement.
4. Analyse descriptive du niveau de scolarisation des parents Il existe un lien entre l’instruction des parents et la scolarisation des enfants (graphique ci-après).
Graphique 1:années d’éducation selon le niveau d’instruction du père (enfants de 5 à 20 ans)
4. Analyse descriptive de l’effet du niveau de scolarisation des parents (suite) Le graphique 1 montre que plus le niveau d’instruction du père est élevé, plus le nombre moyen d’années de scolarisation de l’enfant est élevé. A niveau égal d’instruction des parents,les enfants en milieu urbain ont plus accès a l’éducation que ceux du milieu rural.
4. Analyse descriptive du niveau de scolarisation des parents (suite) Le niveau d’instruction de la mère est tout aussi important même en milieu urbain. on note, cependant, un résultat contre intuitif pour les enfants dont la mère a fait l’université. En effet, ceux dont la mère a le niveau du lycée ont un nombre moyen d’années de scolarisation plus élevé.
Graphique 2:années d’éducation selon le niveau d’instruction du mère (enfants de 5 a 20 ans)
A – La méthode CART: exposé de la B – Résultats III. METHODE CART ET DETECTION DES VARIABLES LES PLUS PERTINENTES DE LA SCOLARISATION A – La méthode CART: exposé de la méthodologie B – Résultats
A – La méthode CART : CLASSIFICATION AND REGRESSION TREES L’option de la minimisation de l’indice de Gini a été choisie dans notre étude. Il faut signaler qu’il existe une option « entropie » dans CART Les variables catégorielles reçoivent un meilleure traitement avec CART que pour d’autres méthodes et les résultats des estimations sont présentés sous forme d’algorithmes ou « arbre » dont les « branches » représentent les modalités des variables
A – La méthode CART : CLASSIFICATION AND REGRESSION TREES (suite) Aussi l’option cross validation donnée par le logiciel d’utilisation de CART a permis de classer les différentes modalités Ce classement est fait selon le degré d’homogénéité des modalités en deux sous groupes selon qu’elles augmentent ou diminuent la probabilité d’occurrence de l’événement étudié (ici: accès a l’école)
A – La méthode CART : CLASSIFICATION AND REGRESSION TREES (suite) A la suite de l’algorithme qui est présenté sous forme schématique, un tableau récapitulatif de tous les résultats avec un classement des variables selon le pouvoir explicatif est donné
B – Résultats L’arbre 1 montre que parmi les déterminants de l’accès à l’école, le niveau d’éducation du père est la variable la plus décisive suivie, dans l’ordre, des variables « région » , « Niveau de vie » et « niveau d’instruction de la mère ».
Arbre 1:pour tous les enfants de 7 a 19 ans
RESULTATS (suite) Si le père n’est pas instruit, ce qui détermine l’accès, c’est la région. A ce niveau, résider à Fatick (région 3) ou Ziguinchor (région 11) suffit pour favoriser l’accès. Les quintiles 1,2 et 3 (60% les plus pauvres) sont homogènes en matière d’accès et cette variable intervient lorsque le père de l’enfant n’est pas instruit et qu’il ne réside pas à Fatick ou Ziguinchor.
RESULTATS (suite) Le niveau de vie à lui seul ne suffit pas car même si l’individu appartient aux 40% les plus riches, il faut qu’il réside dans l’une des régions de Fatick ou Ziguinchor pour que cette variable « richesse » soit suffisante.
IMPORTANCE DES VARIABLES SUR L’ACCES A L’ECOLE (tous niveau confondus) =================== IMPORTANCE DES VARIABLES SUR L’ACCES A L’ECOLE (tous niveau confondus) Importance Nombre de Catégorie Relative Catégories inférieure ------------------------------------------------- NIVEAUPE 100.000 5 1 NIVEAUME 78.232 5 1 WEALTH 66.266 5 1 REGION 47.847 11 1 ANCOSTPU 33.770 ZONE 30.692 2 0 SEXE 0.000 2 0 TAILLE 0.000
RESULTATS (suite) Le tableau ci-dessus donne les variables par ordre d’importance Le sexe de l’enfant et la taille du ménage sont les variables les moins importantes pour l’accès à l’éducation des enfants de 7 à 19 ans
Résultats pour l’accès au primaire L’arbre 2 donne les déterminants de l’accès au primaire Le tableau analyse l’importance relative des déterminants de l’accès au primaire
Pour le primaire
=================== IMPORTANCE DES VARIABLES SUR L’ACCES AU PRIMAIRE =================== Importance Nombre de Catégorie Relative Catégories inférieure ------------------------------------------------- NIVEAUPE 100.000 5 1 NIVEAUME 84.288 5 1 WEALTH 74.654 5 1 ANCOSTPU 36.815 REGION 36.767 11 1 ZONE 11.452 2 0 TAILLE 2.749 SEXE 0.000 2 0
Pour le collège
=================== IMPORTANCE DES VARIABLES SUR L’ACCES AU COLLEGE Importance Nombre de Catégorie Relative Catégories inférieure ------------------------------------------------- REGION 100.000 11 1 NIVEAUPE 68.048 5 1 ANCOSTPU 26.645 NIVEAUME 26.009 5 1 WEALTH 25.856 5 1 ZONE 13.688 2 0 SEXE 0.000 2 0 TAILLE 0.000
Pour le secondaire
=================== IMPORTANCE DES VARIABLES DANS L’ACCES AU SECONDAIRE Importance Nombre de Catégorie Relative Catégories inférieure ------------------------------------------------- NIVEAUPE 100.000 5 1 REGION 52.601 11 1 NIVEAUME 47.052 5 1 WEALTH 34.830 5 1 ANCOSTPU 29.967 ZONE 15.824 2 0 SEXE 0.000 2 0 TAILLE 0.000
Commentaire Au niveau du primaire, le niveau de vie du ménage est le 3ème déterminant alors qu’il est 5ème au collège et 4ème au lycée. Pour l’accès au collège, la région de résidence est la variable la plus importante suivie du niveau d’éducation du père et du coût annuel par élève du public
Commentaire (suite) Le niveau d’instruction de la mère influe plus sur l’accès au secondaire que sur l’accès aux autres niveaux d’éducation.
CONCLUSION La relation entre pauvreté et accès à l’éducation varie selon le cycle d’enseignement. L’incidence du niveau d’instruction des parents sur la scolarisation dans le primaire est très forte
CONCLUSION (suite) La variable niveau de vie étant plus importante au niveau du primaire que dans les autres cycles d’enseignement, l’intervention de l’Etat doit être accrue Pour améliorer l’accès, l’offre ne doit pas dépendre de la demande car celle-ci se développe dans les zones déjà pourvues en infrastructures scolaires
CONCLUSION (suite) Le coût d’un élève dans l’enseignement public est plus discriminant au collège; les coûts à ce niveau devraient être réduits par des mécanismes tels que des subventions ciblées aux collèges pour permettre aux parents de réduire leurs dépenses.
CONCLUSION (suite) La différence de coût entre le primaire et le collège rend difficile la transition pour certaines familles pauvres.
Merci de votre attention Fin de présentation Merci de votre attention