STATISTIQUE DESCRIPTIVE
- Enseignant: MOSTAFA MIRI
SD (Séance 1)
Cours de Statistique Descriptive (Séance 1)
On peut dire sans risque de se tromper que la statistique est née avec les premières civilisations humaines notamment chinoise et Incas
Mais la statistique telle qu’on la connait maintenant a vu le jour au XVIIesiècle avec les travaux de 2 écoles :
✔ L’école descriptive allemande représentée par CONRING (1606-1681) et ACHENWALL (1719-1772)
✔ et L’école des arithméticiens politiques anglais représentée par PETTY (1623-1687) et GRAUNT (1620-1674).
L’objet de la statistique descriptive est de présenter, résumer et interpréter les données collectées.
Le plan de ce cours tient compte des différentes opérations à effectuer en statistique une fois les données collectées. Ainsi, après avoir passer en revue les présentations des données habituellement utilisées puis les paramètres usuels qu’on emploie pour résumer l’information, nous pourrons aborder des questions particulièrement importantes en économie telles que la corrélation et les chroniques.
PLAN
INTRODUCTION
PREMIERE PARTIE : STATISTIQUE DESCRIPTIVE UNIVARIEE
CHAPITRE I : NOTIONS FONDAMENTALES ET PRESENTATIONS DES SERIES STATISTIQUES
CHAPITRE II : REPRESENTATIONS GRAPHIQUES
CHAPITRE III : CARACTERISTIQUES D’UNE VARIABLE STATISTIQUE
DEUXIEME PARTIE : STATISTIQUE DESCRIPTIVE BIVARIEE CHAPITRE I : TECHNIQUES D’AJUSTEMENTS
CHAPITRE II : LIAISONS STATISTIQUES ENTRE VARIABLES CHAPITRE III : SERIES CHRONOLOGIQUES
LECTURES :
✔ STATISTIQUE DESCRIPTIVE : MANUEL DE COURS
Avec exercices d’applications, travaux pratiques et QCM (enoncés)
✔ STATISTIQUE DESCRIPTIVE : MANUEL D’EXERCICES Avec Travaux pratiques, Exercices et examens
(enoncés et corrigés types),
– LIVRES DISPONIBLES SUR LE CAMPUS –
METHODOLOGIE DE TRAVAIL
L’assimilation du cours doit être le premier objectif de l’étudiant.
Il est fortement conseillé de commencer à travailler dès la première séance du cours.
Pour vous accompagner dans cet effort d’assimilation, toutes les notions ont été présentées par des exemples numériques. Vous retrouverez le cours avec d’autres exemples dans le Manuel de cours, d’autres cas de figures y sont traités démonstrations à l’appui (dans le cadre de ce cours à distance, nous n’aurons pas l’occasion de revenir sur certains points, déjà bien expliqués dans le manuel de cours) et à la fin de chaque chapitre vous trouverez une série d’application qu’il est recommandé d’effectuer.
Ensuite une série de travaux pratiques est mise à votre disposition à la fin de chaque partie. Le corrigé type des TP est également disponible.
Pour vous préparer à l’examen, vous trouverez à votre disposition une série de QCM, Exercices et autres Examens corrigés (Manuel d’exercices).
Enfin, à la fin du Manuel de cours, vous trouverez un lexique français – arabe susceptible de vous aider aussi dans votre effort d’assimilation de cette matière.
Je vous souhaite un semestre fructueux.
PREMIERE PARTIE :
STATISTIQUE DESCRIPTIVE UNIVARIEE
Les données statistiques obtenues à la suite d’une enquête sont en général très copieuses, non interprétables tout de suite. On utilise alors des tableaux et des graphiques pour les présenter.
CHAPITRE I :
NOTIONS FONDAMENTALES
ET PRESENTATION DES SERIES STATISTIQUES
Considérons les résultats obtenus à la suite d’une enquête sur la production de voitures « Renault » en 2020 dans 10 usines :
Ces résultats de l’enquête en question s’appellent « données statistiques » ou « les statistiques ».
Le terme statistiques (au pluriel) peut désigner également les résumés d’information obtenus à partir des données elles-mêmes
Exemple : production moyenne de voiture par usine, production modale …..
Pour analyser ces données, les traiter, pour en tirer des enseignements, il est commode de les présenter en tableau :
Production de voitures « Renault » en 2020 (xi) | Nombre d’usines ou effectifs (ni) |
10 | 2 |
14 | 4 |
20 | 3 |
23 | 1 |
Total | 10 |
Les différentes productions figurent sur la 1ère colonne (colonne des modalités ou valeurs du caractère Production), le nombre d’usines produisant tel ou tel nombre de voitures constitue la 2ème colonne du tableau ci-dessus (Effectifs).
Dans l’exemple ci-dessus, la série statistique est l’ensemble des quatre couples : (10 ; 2) , (14 ; 4) , (20 ; 3) et (23 ; 1). On dit qu’il s’agit d’une statistique ou d’une série statistique.
En général, si les effectifs associés aux différentes valeurs x1 , x2 , … , xi , … du caractère X sont respectivement n1 , n2 , … , ni , …. On appelle série statistique des effectifs attachés à X l’ensemble des couples (xi ; ni).
La Population au sens statistique du terme n’est autre ici que l’ensemble des usines. Un élément de cet ensemble (une usine) est appelé unité statistique (objet de l’observation).
L’enquête statistique s’intéresse à la production de voiture. Cette production constitue le caractère statistique dans ce cas
De manière général, Le caractère statistique est la particularité de l’unité statistique auquel on s’intéresse. Il peut être quantitatif ou qualitatif. Un caractère quantitatif est appelé variable et se note X, Y ou Z…. Il peut être discret si les valeurs observées (modalités) sont isolées, ou continue s’il peut prendre toute valeur d’un intervalle réel.
Si on reprend l’exemple ci-dessus, le Caractère : production de voiture est un caractère à valeurs isolées. Les modalités de ce caractère sont des valeurs entières : 10 , 14 , 20 ,…. Il s’agit donc d’un caractère quantitatif discret. On dit encore Variable quantitative discrète.
Maintenant, si on considère le salaire dans les usines Renault. Le caractère salaire peut prendre toute valeur d’un intervalle réel. Il s’agit donc d’un caractère quantitatif continu :
Salaire (en milliers de DH) | ni |
[ 2 ; 3 [ | 25 |
[ 3 ; 4 [ | 40 |
[ 4 ; 5 [ | 35 |
Total | 100 |
Les modalités se présentent comme une suite de classes, par exemple : [2000 ; 3000[ , [3000 ; 4000[ , …
Dans le cas où on s’intéresse à la qualification de l’ouvrier dans les mêmes usines (variable qualitative), on peut considérer le tableau suivant :
Qualification | ni |
Ouvrier | 20 |
Ouvrier Qualifié | 40 |
Ouvrier Spécialisé | 30 |
Gradé | 10 |
Total | 100 |
Les différentes modalités sont, par exemple : Ouvrier, Ouvrier Qualifié, …. Dans le cas de la variable quantitative salaire, comme dans le cas de la variable qualitative qualification, la population n’est autre que l’ensemble des salariés dans les usines Renault. En effet on peut s’intéresser à différents caractères dans une même population.
En général, La 2ème colonne d’un tableau statistique donne l’effectif c-à-d le nombre d’observation d’une valeur du caractère. Pour le caractère Production de voiture, la production de 10 voitures (valeur 10) a été observé 2 fois d’où l’effectif 2 associé à cette valeur 10. 4 usines sont arrivées à produire 14 voitures chacune d’après les résultats de l’enquête d’où l’effectif 4 associé à 14 ….. (voir 1er tableau)
L’effectif se note n. On vérifiera que la somme des effectifs constatés est égale à l’effectif total qui se note N (N=10 dans l’exemple précédent).
Production de voitures « Renault » en 2020 (xi) | Effectifs (ni) |
10 | 2 |
14 | 4 |
20 | 3 |
23 | 1 |
Total | 10 |
De manière générale, on présente les valeurs prises par la variable X par ordre croissant.
L’effectif total est égal à :
1+ 2+ 3+ 4=∑ = =
n n n n ni
N 10 i = 1
Le caractère X « Production de voitures » prend ainsi la valeur 14 pour 4 usines. On dit que sa fréquence relative est :
n f 2 4 2= = = 0,4 N
En général si le caractère X prend la valeur xi , ni fois, l’effectif total étant égal à N, on dira que la valeur xi se présente avec la fréquence :
n fi i=N
L’ensemble des couples (xi ; fi) définira la série statistique des fréquences relatives attachées à X.
Pour l’exemple ci-dessus on trouve :
Production de voitures « Renault » en 2020 (xi) | Nombre d’usines ou effectifs (ni) | Fréquence relative (fi) |
10 | 2 | 2/10 = 0,2 |
14 | 4 | 4/10 = 0,4 |
20 | 3 | 0,3 |
23 | 1 | 0,1 |
Total | 10 | 1 |
A partir des fréquences on peut calculer les fréquences cumulées (croissantes ou décroissantes).
En guise d’illustration nous allons nous intéresser au nombre d’usines produisant au plus x voitures (Production ≤ x) :
⇒ Effectifs cumulés croissants (noté : ni ↑)
Production de voitures « Renault » en 2020 (xi) | Nombre d’usines ou effectifs (ni) | Effectifs cumulés croissants (ni ↑) | Effectifs cumulés décroissants (ni ↓) |
10 | 2 | 2 | 10 |
14 | 4 | 6 | 8 |
20 | 3 | 9 | 4 |
23 | 1 | 10 | 1 |
Total | 10 |
Dans ce dernier tableau, on peut lire par exemple que : le nombre d’usines produisant au plus 14 voitures est égal à 6.
Si on cherche maintenant à déterminer le nombre d’usines produisant au moins x voitures (Production ≥ x) : il suffira de calculer dans ce cas, ce qu’on appelle les effectifs cumulés décroissants (cf. 4ème colonne du tableau ci-dessus). Ainsi, le nombre d’usines produisant au moins 20 voitures est égal à 4.
Le passage des effectifs cumulés aux fréquences relatives cumulées ne présente aucun problème comme indiqué dans le manuel de cours. Dans le cas où seule la série cumulée serait disponible, on peut déduire facilement la série non cumulée en utilisant le raisonnement trivial donné par le manuel.
Enfin on désigne par la statistique : l’ensemble des méthodes permettant de collecter, présenter, résumer et analyser quantitativement des renseignements afin d’en tirer des enseignements.
II – ELABORATION DES STATISTIQUES
On distingue généralement trois étapes dans le processus d’élaboration des statistiques.
2-1 La phase préliminaire
Avant toute collecte proprement dite d’informations sur un sujet donné, les faits élémentaires à observer (Unités statistiques) doivent être définis. Le champ d’investigation (Population) doit être également défini et délimité.
2-2 La collecte des renseignements
Le responsable de cette collecte d’informations doit choisir auparavant le type d’enquête (statistique) à réaliser (recensement ou sondage). Il doit également disposer de moyens (questionnaire et enquêteurs).
2-2-1 Moyens de l’enquête
221-1 Les enquêteurs
Les enquêteurs doivent posséder certaines qualités (connaissances techniques, conscience professionnelle, …). Par ailleurs, ils doivent être recrutés, formés et encadrés spécialement.
221-2 Le questionnaire
Evidemment, Pour établir le questionnaire on doit d’abord choisir les questions (nombre limité, adaptation à l’enquêté) et les formuler de façon adéquate (clarté, précision ..,)
Ensuite le questionnaire doit être bien présenté (note préliminaire, ordre logique, aspect agréable).
2-2-2 Modalités de l’enquête
La collecte de l’information peut être exhaustive (recensement) ou partielle (sondage).
2-3 Dépouillement des questionnaires
Cette phase est l’occasion d’examiner les résultats de l’enquête (vraisemblance des réponses …) et définir un certain nombre de classes en vue de l’établissement du tableau statistique correspondant.
A la fin de cette séance, je rappelle qu’Il est fortement recommandé de :
✔ suivre à la lettre la méthodologie de travail présentée au début de cette séance, notamment de commencer à travailler dès la première séance,
✔ de revenir au Manuel pour revoir le cours avec un autre exemple, si nécessaire et surtout le compléter (dans le cadre de ce cours à distance, on ne va pas revenir sur des points déjà bien expliqués dans le Manuel), disposer d’autres exemples, d’autres cas de figures et autres démonstrations
(Manuel de cours),
✔ de travailler les différents Exercices d’application qui figurent à la fin de chaque chapitre avant d’aborder les Travaux Pratiques, les exercices et autres QCM (Manuel d’exercices).
Je reste à votre disposition pour d’éventuels éclaircissements ou explications et dans la mesure du possible, je répondrais aux questions sur le cours et les différents exercices.
Travaillez bien et à la prochaine.
SD (Séances 2 et 3)
Cours de Statistique Descriptive (Séances 2-3)
CHAPITRE II :
REPRESENTATIONS GRAPHIQUES
Les représentations graphiques révèlent l’ampleur des phénomènes étudiés et permettent d’obtenir certaines caractéristiques des séries statistiques considérées (mode, médiane…).
I – CARACTERES QUANTITATIFS
1-1 Caractère quantitatif discret
Soit à représenter graphiquement la série des fréquences suivant le caractère Production d’automobiles :
Production d’automobiles (xi) | 10 | 14 | 20 | Total |
Effectif (ni) | 1 | 5 | 4 | 10 |
La démarche pour construire le diagramme est détaillée dans le Manuel de cours.
Dans le cas d’une série de fréquences cumulées, on utilise le diagramme cumulatif.
xi | 10 | 14 | 20 | |
ni | 1 | 5 | 4 | |
fi | 0,1 | 0,5 | 0,4 | |
N(xi) | 0 | 1 | 6 | 10 |
F(xi) | 0 | 0,1 | 0,6 | 1 |
]
N(x) F(x)
Autre présentation possible voir manuel.
Lorsque le caractère considéré est discret, la courbe des fréquences cumulées se présente toujours comme une fonction en escalier, fonction constante par intervalle. Cette dernière est appelée fonction de répartition des fréquences F(x) = Fréq(X<x).
1-2 Caractère quantitatif continu
Exemple : Considérons la variable salaire dans les usines Renault.
Salaire (en milliers de DH) | ni |
[ 2 ; 3 [ | 25 |
[ 3 ; 4 [ | 40 |
[ 4 ; 5 [ | 35 |
Total | 100 |
On utilise l’histogramme pour représenter graphiquement cette distribution d’un caractère continue.
Reproduction, photocopie non autorisées
Salaire en milliers de DH
La démarche de construction d’un histogramme est bien présentée dans le livre de cours.
Ici, La hauteur de chaque rectangle doit vérifier l’égalité suivante :
Aire du rectangle = amplitude × hauteur = fréquence.
On déduit que la hauteur est égale à :
fréquence hauteur =
amplitude
La hauteur d’un rectangle est appelée également : densité.
Une fois l’histogramme dressé, on peut tracer le polygone des fréquences : 3
Reproduction, photocopie non autorisées
Salaire en milliers de DH
Lorsque les classes n’ont pas la même amplitude, les effectifs doivent être corrigés en calculant les densités.
Prenons un exemple :
Chiffre d’affaire des succursales Renault (En millions de DH) | ni | Amplitudes (ai) | n d i i=a i |
[ 10 ; 20 [ | 10 | 10 | 1 |
[ 20 ; 40 [ | 40 | 20 | 2 |
[ 40 ; 100 [ | 30 | 60 | 1/2 |
Total | 100 |
On peut aussi corriger les effectifs en calculant les ni’ mais c’est plus long (à ce propos voir Manuel de cours). Ceci dit, Les deux méthodes doivent aboutir à un histogramme de même forme et à la même valeur modale déterminée graphiquement comme démontré dans le manuel.
Reproduction, photocopie non autorisées
di
Pour tracer le polygone statistique dans le cas d’amplitudes inégales : ✔ On doit d’abord déterminer l’amplitude de base notée : a (a = P.G.C.D. des ai) a=10 dans l’exemple ci-dessus.
✔ Puis considérer les classes d’amplitudes plus grandes comme k classes d’amplitude a :
✔ On peut alors tracer le polygone des fréquences comme suit :
Reproduction, photocopie non autorisées
Vous avez d’autres exemples dans le livre.
On peut également représenter graphiquement des fréquences cumulées en utilisant un diagramme cumulatif :
Reprenons la série des effectifs suivant le salaire et calculons les fréquences cumulées :
Salaire (en milliers de DH) | ni | Effectifs Cumulés Croissants ni ↑ | Effectifs cumulés décroissants ni ↓ |
[ 2 ; 3 [ | 25 | 25 | 100 |
[ 3 ; 4 [ | 40 | 65 | 75 |
[ 4 ; 5 [ | 35 | 100 | 35 |
Total | 100 |
Attention à l’interprétation des effectifs cumulés pour une bonne représentation graphique et une détermination correcte des valeurs centrales (Médiane, quartiles, …) revenir au Manuel à ce sujet.
Reproduction, photocopie non autorisées
1-3 Graphique spécifiques
1-3-1 Repères à échelles semi-logarithmiques
Lorsqu’on s’intéresse aux variations relatives d’une variable, on utilise les repères à échelles semi-logarithmiques car les échelles arithmétiques traduisent mal de telles variations.
Exemple :
L’usine A a produit 100 voitures en 2015 et 180 en 2020
L’usine B : 120 l’année 2015 et 200 l’année 2020.
Reproduction, photocopie non autorisées
D’après ce graphique à échelle arithmétique les productions de A et B ont connu la même évolution. Alors que les taux de croissance diffèrent. Pour résoudre ce problème, il suffit d’utiliser une échelle semi-logarithmique. Autrement dit une échelle logarithmique sur l’axe des ordonnées et une échelle arithmétique sur l’axe des abscisses.
Sur ce type d’échelle, si les taux d’accroissement sont égaux alors les écarts en mesures logarithmiques le sont aussi voir la démonstration dans le Manuel de cours. L’exemple suivant relatif à l’emploi de ce type de repère porte sur les productions des usines 1 et 2 sur la période 2000 – 2020.
Année | P1 | P2 | log P1 | log P2 |
2000 | 20 | 30 | 1,301 | 1,477 |
2010 | 20 | 30 | 1,301 | 1,477 |
2015 | 100 | 150 | 2 | 2,176 |
2020 | 180 | 200 | 2,255 | 2,301 |
Sur ce type de graphique, deux segments parallèles traduisent des taux d’accroissement égaux. Un segment parallèle à l’axe des abscisses indique que le taux d’accroissement est nul sur la période considérée.
1-3-2 Graphiques polaires
Pour représenter graphiquement une série chronologique, on utilise ce qu’on appelle les graphiques polaires.
La construction d’un tel graphique pour des données trimestrielles est simple. En effet, à partir d’une demi-droite Ox dont l’origine est appelée pôle, on trace 3 autres demi-droites d’origine O formant entre elles des angles de 90° 360).
°90 chacun (=° 4
Chaque demi-droite représente un trimestre. Sur chacune d’elles on définit une échelle arithmétique et on porte une longueur proportionnelle à la valeur du caractère
Reproduction, photocopie non autorisées
considéré. On relie ensuite, par des segments, les différents points obtenus, dans l’ordre.
A titre d’exemple, construisons un graphique polaire pour les données trimestrielles relatives à la publication d’articles d’un laboratoire de Recherche scientifique sur la période 2017 – 2019.
Trimestre Année | I | II | III | IV |
2017 | 30 | 35 | 30 | 35 |
2018 | 40 | 45 | 40 | 45 |
2019 | 50 | 55 | 50 | 55 |
II
III I
IV
Pour d’autres cas de figures, d’autres exemples voir manuel.
II – CARACTERES QUALITATIFS
Lorsque le caractère est qualitatif, on utilise généralement trois types de graphiques : les graphiques circulaires, les diagrammes en barres et les graphiques en tuyaux d’orgue. Mais d’autres graphiques peuvent être également utilisés (voir Manuel).
2-1 Diagramme circulaire
Pour construire un diagramme circulaire, on découpe dans un disque (ou un demi-disque) des secteurs d’aires proportionnelles aux fréquences à représenter. Soit à représenter graphiquement la répartition des salariés selon leur qualification en utilisant un demi-disque :
Reproduction, photocopie non autorisées
Qualification | ni | Fréquence (fi) | Angle au centre en degré |
Ouvrier | 50 | 0,5 | 180 × 0,5 = 90° |
Ouvrier Spécialisé | 30 | 0,3 | 180 × 0,3 = 54° |
Cadre | 20 | 0,2 | 36° |
Total | 100 | 1 | 180° |
Ouv. spécialisé
Ouvrier
Cadre
Revenir au Manuel pour les cas de figures les plus courants, exemples à l’appui.
2-2 Diagramme en barres
Un tel diagramme est obtenu en découpant l’aire d’un rectangle en surfaces proportionnelles aux fréquences à représenter.
Exemple : Le diagramme en barres de la répartition des salariés selon leur qualification :
Qualification | Fréquence (fi) |
Ouvrier | 0,5 |
Ouvrier Spécialisé | 0,3 |
Cadre | 0,2 |
Total | 1 |
Reproduction, photocopie non autorisées
2-3 Graphique en tuyaux d’orgue
Si on utilise un tel graphique pour représenter la répartition des salariés selon leur qualification, on obtient :
Qualification | ni |
Ouvrier | 50 |
Ouvrier Spécialisé | 30 |
Cadre | 20 |
Total | 100 |
Effectifs
Qualification
La démarche de construction d’un tel graphique est bien présentée dans le manuel. Attention ne pas confondre histogramme et graphique en tuyaux d’orgue.
Reproduction, photocopie non autorisées
A la fin de cette séance, je rappelle qu’Il est fortement recommandé de commencer à travailler dès la première séance, de revenir régulièrement au Manuels de cours et d’exercices pour d’autres exemples, d’autres cas de figures et autres démonstrations, de travailler les différents Exercices d’application qui figurent à la fin de chaque chapitre avant d’aborder les Travaux Pratiques, les exercices et autres QCM .
Je reste toujours à votre disposition pour d’éventuels éclaircissements. Dans la mesure du possible, je répondrais aux questions sur le cours et sur les différents exercices.
Travaillez bien. A la prochaine.
Reproduction, photocopie non autorisées