UNIVERSITE HASSAN – II MOHAMMEDIA
Mr : OUIA Aziz
Faculté des Sciences Juridiques, Economiques et Sociale
-Mohammedia
Statistique descriptive Séance 1
Introduction générale : L’objectif de la statistique descriptive est de collecter, d‟analyser et d‟interpréter des informations (ensemble d‟observations) collectées relativement à un même phénomène (caractère) et susceptible d‟être caractérisée par un effectif absolu ou relatif. A cette fin, le travail du statisticien concerne trois étapes :
– La collecte des données ;
– La présentation des données ;
– Le résumé des données.
Tout d‟abord, la collecte des informations. En dépit des apparences, cette étape est essentielle et s‟avère souvent complexe. Sa réalisation nécessite la réponse à trois questions. Quelles informations cherche-t-on à recueillir ? La réponse à cette question définit l’objet de la collecte :
– Auprès de qui ces informations seront-elles recueillies ? La réponse à cette question définit le sujet de la collecte (les unités statistiques).
– Comment ces informations seront-elles recueillies ? La réponse à cette question définit les techniques de la collecte.
– Deuxième étape, la présentation des données. Une fois les données collectées, il importe « d‟organiser » la statistique obtenue. Cette présentation prend la forme de tableaux pour améliorer la lisibilité de l‟information, On peut également donner de ces résultats sous forme d‟une présentation graphique
– Troisième étape, le résumé des données. Paradoxalement, l‟information exprimée dans un tableau ou visualisée par un graphique, est parfois trop riche pour être véritablement utile. La troisième étape va donc consister à définir et à calculer quelques indicateurs ou paramètres qui expriment les caractéristiques
Chapitre I : Les notions fondamentales de la statistique descriptive Introduction générale
La statistique descriptive a pour objet de collecter et de classer des informations ou des faits mesurables (ou identifiables) relatifs aux éléments d‟un ensemble donné (population, série, échantillon).
Aujourd‟hui, la statistique est d‟une grande nécessité dans de nombreux domaines : étude des populations, économie, biologie, sociologie, industrie, démographie ….etc.
I : Définitions
1- La statistique descriptive est une méthode de description numérique des séries de données statistiques. Elle étudie certaines propriétés et caractéristiques : caractères ou variables statistiques d’un ensemble fini appelé population. Les éléments de cette population étudiée sont appelés individus ou unités statistiques.
2- La population est un ensemble d‟objets, d‟individus ou d‟unités statistiques sur lesquels portent des observations, ou donnant lieu à un classement statistique. La population constitue l‟ensemble de référence ou l‟ensemble essentiel d‟une étude statistique. Pour une étude exhaustive de la population, on doit observer tous ses éléments ou toutes ses unités. C‟est ce qu‟on appelle : recensement.
3- Un échantillon la statistique consiste à étudier un ensemble d„individus (on parle de population, composée d’individus ou unités statistiques) sur lesquels on observe des caractéristiques, appelées variables statistiques ou caractère.
Dans certains cas on peut obtenir les valeurs de ces variables sur l’ensemble de la population. En appliquant les méthodes de la statistique descriptive il est possible, au moyen de tableaux, graphiques, paramètres, d’analyser ces résultats.
Exemples : Recensement de la population marocaine, notes obtenues par tous les candidats à un examen, salaires de tous les salariés d’une entreprise, etc…
Mais la population peut être trop vaste pour être étudiée dans sa totalité, par manque de moyens, ou de temps. (C’est le cas si on s’intéresse aux intentions de vote des marocains pour une élection)
Elle peut même être considérée comme infinie. C’est le cas si l’on note la qualité (défectueuse ou non) des pièces produites par un certain procédé : le nombre de ces pièces est à priori illimité, et on ne peut toutes les tester. De même, si l’on
s’intéresse aux fréquences d’obtentions de « pile » ou « face » avec une pièce de monnaie, le nombre de lancers de pièce à étudier est à priori infini.
Il arrive aussi que la mesure d’une variable soit destructrice pour l’individu : si on étudie la durée de vie de certains appareils, il serait absurde de les faire tous fonctionner jusqu’à la panne, les rendant inutilisables.
Dans tous ces cas, on est amené à n’étudier qu’une partie de la population, un échantillon, obtenu par sondage, dans le but d’extrapoler « généraliser » à la population entière, les résultats d‟analyse des observations faites sur l’échantillon.
4- Unités statistiques : ce sont les objets, les éléments, ou les individus sur lesquels portent les observations, qui composent et constituent la population ou l‟échantillon.
5- Caractère : L‟étude d‟une population se rapporte à une caractéristique ou un trait lié à toutes les unités statistiques de la population et qui est appelé caractère, ou variable statistique.
6- Modalité : une variable statistique, ou un caractère peut présenter deux ou plusieurs valeurs différentes appelés modalités. Il s‟agit donc de toutes les valeurs prises par un caractère.
Il existe deux types de caractère ou de variables statistiques :
7- Caractère qualitatif : un caractère est dit qualitatif, lorsque l‟ensemble de ses différentes modalités n‟est pas mesurable.
Exemple :
8- Caractère quantitatif : un caractère est dit quantitatif, lorsque l‟ensemble de ses différentes modalités est mesurable.
Un caractère quantitatif peut être discret (discontinu) ou continu.
8.1- Caractère quantitatif discret : lorsque les modalités du caractère ne peuvent prendre que des valeurs entières.
8.2- Caractère quantitatif continu : lorsque les modalités du caractère peuvent prendre toutes les valeurs d‟un intervalle donné.
II : Les sources des données statistiques :
Il est important de montrer comment on obtient les données statistiques résumées dans un tableau pour réaliser une étude relative à un phénomène qu‟on cherche à analyser.
Pour avoir des données statistiques, il y a deux méthodes :
✔ Soit qu‟on fait appel à des données déjà existantes.
✔ Soit on collecte les données.
1- Collecte des données : Le principe de la collecte des données ou des observations consiste à relever toute valeur d‟une variable statistique (caractère) commune aux éléments d‟une population.
Pour tous les éléments observés il faut :
✔ D‟abord vérifier s‟ils appartiennent à la population.
✔ Vérifier, pour chacun de ces éléments, la valeur ou la modalité de la variable ou le caractère considéré.
✔ De prendre en considération cette valeur ou cette modalité.
Il existe essentiellement deux méthodes pour obtenir des données statistiques sur une population :
✔ La méthode d‟observation exhaustive : il s‟agit d‟observer toute la population. Cette méthode est aussi appelée recensement.
✔ La méthode d‟observation partielle : il s‟agit d‟observer une fraction de la population. Cette méthode est aussi appelée échantillonnage.
2- Classement des données : C‟est la méthode selon laquelle les données statistiques d‟une série sont classées suivant un ordre croissant ou décroissant. Cette méthode est également appelée rangement des données.
Chapitre II : Présentation des données statistiques d’une série :
I– Les tableaux statistiques :
Les tableaux statistiques permettent de présenter les données statistiques d‟une série d‟une manière simple et claire.
La présentation des données statistiques d‟une série sous forme d‟un tableau statistique est une étape obligatoire pour une analyse statistique d‟un caractère. En effet, le tableau facilite le traitement des données ainsi que leur présentation sous forme de graphique.
Exemple: Soit une population de n individus répartie selon un caractère Xi présentant k modalités : (X1, X2, X3, ….Xk)
ni: c‟est le nombre d‟individus présentant la modalité Xi de la variable statistique (caractère) X. il est également, appelé effectif absolu de la modalité Xi.
if = in n : C‟est la fréquence de Xi.
La collecte des informations se rapportant à une variable statistique (caractère) dans une population, consiste à observer pour chaque individu “ i ”, la modalité Xi à laquelle, il appartient. L‟ensemble de toutes les observations peuvent être résumé dans un tableau sous la forme suivante :
Tableau
Xi | ni |
X1 | n1 |
X2 | n2 |
. | . |
. | . |
. | . |
Xk | nk |
total | n |
II- Représentation graphique :
Etant donné une population constituée de n unités statistiques, qui sont associées à un même caractère ou à une même variable statistique X comportant k modalités (X1, X2, X3,……Xk). Pour chaque modalité Xi correspond un effectif ni ou une fréquence fi = ni/n. L‟effectif total n est égal à la somme de tous les effectifs ni de toutes les modalités :
n = Σni et Σfi = 1.
a- Présentation graphique d’une variable qualitative :
Diagramme en tuyaux d’orgues :
C‟est un diagramme dans lequel, pour chaque modalité Xi portée en abscisse, correspond un rectangle dont la base est constante et dont la hauteur et la surface sont proportionnelles à l‟effectif ni ou la fréquence fi.
Diagrammes circulaire et semi-circulaire
C‟est un diagramme dans lequel, chaque modalité Xi est présentée par un secteur Si ayant un angle au centre. Ce secteur Si est proportionnel à l‟effectif ni ou à la fréquence fi de chaque modalité. Autrement dit, les secteurs représentatifs ont une surface, et donc un angle au centre proportionnel aux effectifs des modalités correspondantes. Le graphique est tracé à l‟aide d‟un rapporteur après que l‟on ait calculé l‟angle au centre relatif à chaque secteur.
Exercice : En 2000, les agrégats de monnaie au Maroc se présentaient de la façon suivante (en millions de dhs):
Monnaie fiduciaire 58169
Monnaie scripturale 123094
Placement a vue 35240
Placement à terme 76281
Total 292784
Représenter les agrégats de monnaie en 2000 :
1/ Par un graphique en tuyaux d‟orgue.
2/ Par un graphique circulaire (ou par secteur)
Graphique : tuyaux d’orgues
Graphique circulaire
b- Variable statistique quantitative discrète
Le graphique qui représente une variable statistique quantitative discrète, est appelé digramme en bâtons. Ce graphique est obtenu en portant en abscisse la modalité (variable observée) et en ordonnée son effectif ou sa fréquence. Exemple : L‟assistante sociale d‟une banque s‟intéresse au nombre de chambres par foyers de chaque fonctionnaire qui travaille dans la banque. Elle obtient la distribution suivante :
Xi | ni |
1 | 5 |
2 | 10 |
3 | 15 |
4 | 5 |
Donner la représentation adéquate?
Diagramme en bâtons
Exercice : Soit Xi, le nombre de chambre par ménage.
Xi | ni |
1 | 48 |
2 | 72 |
3 | 51 |
4 | 31 |
5 | 19 |
6 | 15 |
7 | 7 |
8 | 4 |
1. Représenter par un diagramme adéquat, la distribution ci-dessus. 2. Tracer sur le même graphique, le polygone des fréquences.
Les fréquences ou effectifs cumulés
On peut exprimer les fréquences absolues (ni) ou relatif (fi) en fréquences cumulées (absolues ou relatives), en totalisant la fréquence d‟une modalité déterminée avec les fréquences des modalités antérieures (cumul croissant) ou des modalités postérieures (cumul décroissant).
La représentation graphique des fréquences obtenue par un cumul croissant (ou décroissant) aboutit à une courbe dite : courbe des fréquences cumulées croissantes (ou décroissante).
La courbe des fréquences cumulées croissantes donne par lecture directe la fréquence (ou l‟effectif) inférieure. On dit également : moins de ou jusqu‟à telle modalité.
La courbe des fréquences cumulées décroissantes donne par lecture directe la fréquence (ou l‟effectif) supérieure. On dit également : plus de.
a) Variable statistique quantitative continue :
Le graphique qui représente une variable statistique quantitative continue, est appelé histogramme. Ce graphique est obtenu en portant en abscisse la classe de la variable Xi et en ordonnée son effectif ou sa fréquence.
Avant la représentation graphique d‟un histogramme, on doit tout d‟abord vérifier l‟hypothèse de l‟égalité des amplitudes si non on doit les corriger en choisissant comme amplitude de référence la plus petite amplitude, appelé unité d‟amplitude.
Enfin, l‟histogramme est obtenu en représentant la distribution des fréquences ou des effectifs par des rectangles juxtaposés dont chacune des bases est proportionnelle à l‟amplitude de chaque classe.
Exemple: la répartition d‟un ensemble de 150 athlètes (n) selon leur poids (Xi) se présente comme suit :
Xi(en kg) | ni |
[45 ; 50[ | 6 |
[50 ; 55[ | 30 |
[55 ; 60[ | 44 |
[60 ; 65[ | 42 |
[65 ; 70[ | 18 |
[70 ; 75[ | 10 |
Histogramme
c-1- 1 : Courbe croissante de fréquences cumulées
Effectif cumulé croissant : On appelle effectif cumulé croissant de la valeur xi, la somme des effectifs de toutes les valeurs, du caractère, inférieures ou égales à xi
c-1- 2 : Courbe décroissante de fréquences cumulées
Effectif cumulé décroissant : On appelle effectif cumulé décroissant de la valeur xi, la somme des effectifs de toutes les valeurs du caractère supérieures ou égales à x.
c– 2 : Polygone de fréquence
Le polygone de fréquences est une représentation sous forme d‟une courbe, qui est obtenue en joignant par des segments de droite, les centres des sommets supérieurs de tous les rectangles juxtaposés d‟un histogramme.
Exercice 1 : Soit le tableau suivant :
Branche d‟activité | Valeur produite | fi : part de la branche dans la valeur totale | angle de la branche = fi.360°) |
Agro-alimentaire | 360 000 | 0,46875 | 168,75 |
textile | 180 000 | 0,234375 | 84,375 |
cuir | 93 000 | 0,12109375 | 43,59375 |
Tourisme | 135 000 | 0,17578125 | 63,28125 |
Total | 768 000 | 1 |
On obtient alors le diagramme ci-dessous (en utilisant un rapporteur, par exemple) :
b- le diagramme adéquat est le diagramme en tuyaux d‟orgues.
c- Le diagramme en secteurs circulaire représente les effectifs correspondant aux modalités par des portions de cercle, des secteurs, dont les aires sont proportionnelles aux effectifs. On trace donc un cercle de rayon quelconque et la proportionnalité des aires est obtenue par celle des angles.
Exercice 2. Une enquête a été réalisée dans une société en vue de connaître le nombre de chambre par salarié. Cette enquête a donné les résultats suivants :
Nombre de chambres (xi) | Nombre de salariés (ni) |
0 | 10 |
1 | 20 |
2 | 20 |
3 | 30 |
4 | 20 |
1. Caractériser la distribution.
2. Tracer le diagramme convenable.
3. Définir et représenter la fonction de répartition.
4. Donner la proportion des salariés ayant moins de 4 chambres
1. population : c‟est l‟ensemble des 100 salariés ; unité statistique : un salarié ; caractère : le nombre de chambre (caractère quantitatif discret) ; modalités : au nombre de 5 (0,1, 2, 3 et 4).
2. La distribution statistique étant discrète, le diagramme convenable est un diagramme en bâtons. Dans ce diagramme, on porte en abscisse les différentes modalités du caractère c‟est à dire les différentes valeurs prises par la variable (0, 1, 2, 3 et 4) ; en ordonnée seront indiqués soit les effectifs soit les fréquences relatives afférentes à chaque modalité.
xi nombre de chambre | ni (effectif) | fi (fréquence relative) |
0 | 8 | 0,08 |
1 | 22 | 0,22 |
2 | 20 | 0,2 |
3 | 40 | 0,4 |
4 | 10 | 0,1 |
total | 100 | 1 |
3. La fonction de répartition d‟une variable X notée F est une application de l‟ensemble IR dans l‟ensemble IR, qui à toute valeur donnée xi de IR, associe le nombre d‟individus appartenant à la population pour lesquels la valeur de la variable est strictement inférieure à x.
En termes de proportion, la fonction de répartition est une application de l‟ensemble IR dans l‟intervalle [0,1], qui à toute valeur donnée xi de IR, associe la proportion des individus appartenant à l‟ensemble statistique pour lesquels la valeur de la variable est strictement inférieure à xi.
xi nombre d‟enfants | Ni (effectif cumulé) | Fi (fréquence cumulée) |
0 | 8 | 0,08 |
1 | 30 | 0,3 |
2
50
0,5
3
90
0,9
4
100
1
4. La proportion des salariés ayant moins de 4 chambres se lit directement dans le tableau : 0,9 ou 90%.