Statistiques descriptives
Introduction
Voici une définition de statistique :
La statistique est d'un point de vue théorique une science, une méthode et une technique.
La statistique comprend : la collecte des données, le traitement des données collectées,
l'interprétation des données et la présentation afin de rendre les données compréhensibles par tous.
Dans ce cours nous nous intéresserons à un type de statistique en particulier :
celle qui n'étudie qu'un caractère ou qu'une variable à la fois ; on parle alors de
statistique unidimensionnelle.
Définition
Une étude statistique unidimensionnelle porte sur une caractéristique bien
définie que l'on désigne par caractère ou variable et qui est présente
chez chacun des éléments ou individus d'un ensemble donné appelé population.
Par exemple la population peut être les étudiants d'une classe et le caractère peut être les notes à l'examen de fin d'année.
On distingue deux types de caractères.
Définition
Une variable, ou caractère, statistique est dite qualitative si ses valeurs s'expriment
de façon littérale ou par un codage sur lequel les opérations arithmétiques n'ont pas de sens.
Par exemple le sexe des personnes interrogées, le numéro de leur département de naissances (bien
que cela soit des nombres et que les opérations arithmétiques usuelles soient valides, il n'y a aucun sens à considérer
la somme de numéro de département ou la moyenne de ces numéros ; il s'agit ici d'un codage), leur situation
familiale, la mention recalé, passable, assez bien, bien et très bien que peut avoir un étudiant à un
examen. Dans ce dernier exemple on dit que le caractère est
ordinal car on peut tout de même ordonner les
valeurs du caractères. Dans les autres exemples, on parle de caractère, ou variable,
nominale (ne sont décrit que par leur nom).
Définition
Une variable, ou caractère, statistique est dite
quantitative si ses valeurs sont des nombres
sur lesquels les opérations arithmétiques ont un sens.
Elle peut être de deux formes :
- \( \bullet\) Discrète :
- si elle ne prend qu'un nombre fini de valeur. Ces valeurs sont appelées des modalités.
- \( \bullet\) Continue :
- si elle prend ses valeurs dans un intervalle. Ces intervalles sont appelées des
classes.
Définition
Une série statistique est l'ensemble des modalités ou classes correspondant à tous les individus
de la population considérée.
Série statistique à caractère discret
Dans la suite de ce chapitre, on fixe une série statistique à caractère discret \( S\) . Cela signifie que \( S\) est
un ensemble fini de nombres réels. Il existe donc des nombres
\( \alpha_i\in\R\) tel que \( S=\left\{\alpha_1, \alpha_2, ..., \alpha_n\right\}\)
On note \( k\) le nombre de modalité différente et \( x_1,x_2,..., x_k\) ces différentes modalités ordonnées
dans l'ordre permettant au mieux d'observer la série (dans la plupart des cas c'est dans l'ordre croissant).
Pour illustrer les définitions et notions nous utiliserons l'exemple suivant jusqu'à la fin du chapitre :
- \( \bullet\)
- La population étudiée est un groupe de TD de 30 étudiants.
- \( \bullet\)
- Le caractère étudié est les résultats obtenus à l'examen de mathématiques. Les notes, sur 20, sont les suivantes :
\[
\begin{array}{|c|c|c|c|c|c|}
\hline
12&11&7&10&9&3\\\hline
12&15&8&8&14&11\\\hline
7&2&0&18&11&14\\\hline
16&11&9&12&11&11\\\hline
15&10&15&7&14&10\\\hline
\end{array}
\]
Le nombre de modalité différente est de 13 (
ie \( k=13\) tandis que \( n=30\) ) et les différentes modalités sont \( x_1=0\) , \( x_2=2\) , \( x_3=3\) , \( x_4=7\) , \( x_5=8\) , \( x_6=9\) , \( x_7=10\) , \( x_8=11\) , \( x_9=12\) , \( x_{10}=14\) , \( x_{11}=15\) , \( x_{12}=16\) , \( x_{13}=18\) . A noter que toute modalité est une valeur mais toute valeur n'est pas une modalité. Par exemple \( 12\) est une valeur et aussi une modalité mais \( 17\) est une valeur sans être une modalité ; \( 17\) est une valeur pour le caractère (une note) mais n'est pas une modalité de la série statistique car aucun des \( x_i\) ne vaut \( 17\) .
Effectif et fréquence
Définition
Le nombre d'élément de la série \( S\) est appelé l'effectif total de la série statistique \( S\) .
Définition
Soit \( x_i\) une modalité de la série statistique \( S\) . Le nombre \( n_i\) de répétition de \( x_i\) dans la série
\( S\) est appelé l'effectif de \( x_i\) .
Dans la pratique, on représente ces résultats dans un tableau :
\[
\begin{array}{c|c|c|c|c}
\text{Caractères}&x_1&x_2&\cdots&x_k\\\hline
\text{Effectifs}&n_1&n_2&\cdots&n_k
\end{array}
\]
Dans notre exemple, l'effectif total vaut \( 30\) et les effectifs sont :
\[
\begin{array}{*{13}{c|}c}
\text{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline
\text{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1
\end{array}
\]
Par construction on a la proposition suivante.
Proposition
Notons \( n_i\) l'effectif de la modalité \( x_i\) .
\[n=\sum_{i=1}^k n_i\]
On vérifie en effet que dans notre exemple \( 1+1+1+3+2+2+3+6+3+3+3+1+1=30\) .
Définition
Soit \( x_i\) une modalité de la série statistique \( S\) . On appelle fréquence relative
à la modalité \( x_i\) le rapport de l'effectif de la modalité \( x_i\) avec l'effectif total.
\[f_i:=\frac{n_i}{n}\]
Naturellement puisque la somme des effectifs vaut l'effectif total, la somme des fréquence, vaut \( 1\) :
\[\sum_{i=1}^kf_i=1\]
Ce dernier résultat montre en fait que la somme des \( p_i=100f_i\) fait \( 100\) et donc que les \( p_i\) décrivent le
pourcentage de l'effectif total ayant \( x_i\) pour caractère. On complète alors le tableau :
\[
\begin{array}{c|c|c|c|c}
\text{Caractères}&x_1&x_2&\cdots&x_k\\\hline
\text{Effectifs}&n_1&n_2&\cdots&n_k\\\hline
\text{Fréquences}&f_1&f_2&\cdots&f_k\\\hline
\text{Pourcentages}&p_1&p_2&\cdots&p_k
\end{array}
\]
Ce qui donne dans notre exemple :
\[
\begin{array}{*{13}{c|}c}
\text{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline
\text{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1\\\hline
\text{Fréquences}&\frac{1}{30}&\frac{1}{30}&\frac{1}{30}&\frac{1}{10}&\frac{1}{15}&\frac{1}{15}&\frac{1}{10}&\frac{1}{5}&\frac{1}{10}&\frac{1}{10}&\frac{1}{10}&\frac{1}{30}&\frac{1}{30}\\\hline
\text{Pourcentages}&\frac{10}{3}\%&\frac{10}{3}\%&\frac{10}{3}\%&10\%&\frac{20}{3}\%&\frac{20}{3}\%&10\%&20\%&10\%&10\%&10\%&\frac{10}{3}\%&\frac{10}{3}\%
\end{array}
\]
On interprète cela en observant, par exemple, que \( 20\%\) des étudiants on obtenu un \( 11/20\) à leur examen.
Définition
L'effectif cumulé croissant (resp. décroissant)
pour la modalité \( x_i\) est la somme des effectifs qui lui sont inférieurs (resp. supérieurs).
\begin{eqnarray*}
&&N_i=\sum_{j=1}^in_j\\
\big(\text{resp. } && N_i=\sum_{j=i}^kn_j\big)
\end{eqnarray*}
On observe en particulier que \( \dpl{N_k(\text{resp. } N_1)=\sum_{j=1}^kn_j=n}\) (l'effectif total).
On complète le tableau :
\[
\begin{array}{c|c|c|c|c}
\text{Caractères}&x_1&x_2&\cdots&x_k\\\hline
\text{Effectifs}&n_1&n_2&\cdots&n_k\\\hline
\text{Effectifs cumulés croissants}&n_1&n_1+n_2&\cdots&n_1+\cdots+n_k\\\hline
\text{Effectifs cumulés décroissants}&n_1+\cdots+n_k&n_2+\cdots+n_k&\cdots&n_k
\end{array}
\]
Avec notre exemple :
\[
\begin{array}{*{13}{c|}c}
\text{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline
\text{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1\\\hline
\text{Effectifs cumulés croissants}&1&2&3&6&8&10&13&19&22&25&28&29&30\\\hline
\text{Effectifs cumulés décroissant}&30&29&28&25&23&21&18&12&9&6&3&2&1
\end{array}
\]
On peut interpréter ces résultats en observant, par exemple, que \( 10\) étudiants ont obtenu une note strictement inférieure
à \( 10\) .
Définition
La fréquence cumulée croissante (resp. décroissante)
pour la modalité \( x_i\) est la somme des fréquences qui lui sont inférieures (resp. supérieures).
\begin{eqnarray*}
&&F_i=\sum_{j=1}^if_j\\
\big(\text{resp. } && N_i=\sum_{j=i}^kf_j\big)
\end{eqnarray*}
En générale on considèrera davantage les pourcentages que les fréquences en posant \( \dpl{P_i=\sum_{j=1}^ip_j}\)
(resp. \( \dpl{P_i=\sum_{j=i}^Kp_j}\) ). On les représente de même dans le tableau ce qui donne dans notre exemple :
\[
\begin{array}{{>}{\text }m{3cm}{<}{ }|*{12}{c|}c}
{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline
{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1\\\hline
{Fréquences}&\frac{1}{30}&\frac{1}{30}&\frac{1}{30}&\frac{1}{10}&\frac{1}{15}&\frac{1}{15}&\frac{1}{10}&\frac{1}{5}&\frac{1}{10}&\frac{1}{10}&\frac{1}{10}&\frac{1}{30}&\frac{1}{30}\\\hline
{Pourcentages}&\frac{10}{3}\%&\frac{10}{3}\%&\frac{10}{3}\%&10\%&\frac{20}{3}\%&\frac{20}{3}\%&10\%&20\%&10\%&10\%&10\%&\frac{10}{3}\%&\frac{10}{3}\%\\\hline
{Effectifs cumulés croissants}&1&2&3&6&8&10&13&19&22&25&28&29&30\\\hline
{Fréquences cumulés croissantes}&\frac{1}{30}&\frac{1}{15}&\frac{1}{10}&\frac{1}{5}&\frac{4}{15}&\frac{1}{3}&\frac{13}{30}&\frac{19}{30}&\frac{11}{15}&\frac{5}{6}&\frac{14}{15}&\frac{29}{30}&1\\\hline
{Pourcentages cumulés croissants}&\frac{10}{3}\%&\frac{20}{3}\%&10\%&20\%&\frac{80}{3}\%&\frac{100}{3}\%&\frac{130}{3}\%&\frac{190}{3}\%&\frac{220}{3}\%&\frac{250}{3}\%&\frac{280}{3}\%&\frac{290}{3}\%&100\%\\\hline
{Effectifs cumulés décroissant}&30&29&28&25&23&21&18&12&9&6&3&2&1\\\hline
{Fréquences cumulés décroissantes}&1&\frac{29}{30}&\frac{14}{15}&\frac{5}{6}&\frac{23}{30}&\frac{7}{10}&\frac{3}{5}&\frac{2}{5}&\frac{3}{10}&\frac{1}{5}&\frac{1}{10}&\frac{1}{15}&\frac{1}{30}\\\hline
Pourcentages cumulés décroissants&100\%&\frac{290}{3}\%&\frac{280}{3}\%&90\%&80\%&\frac{220}{3}\%&\frac{200}{3}\%&\frac{170}{3}\%&\frac{110}{3}\%&\frac{80}{3}\%&\frac{50}{3}\%&\frac{20}{3}\%&\frac{10}{3}\%
\end{array}
\]
On interprète cela en observant, par exemple, que \( 80\%\) des étudiants on obtenu une note supérieur ou égale à \( 8\) .
Représentation des données
Il existe plusieurs manière de représenter une série statistique à caractère discret.
- Diagramme en bâtons.
- On trace les segments \( \dpl{\Big\{\big[(x_i,n_i) ; (x_i,0)\big]\Big\}_{i\in[\![1;k]\!]}}\) où les \( x_i\) désignent les modalités et \( n_i\) les effectifs associés. Avec notre exemple cela donne :
- Diagramme en tuyau d'orgue.
- On procède comme le diagramme en bâtons à ceci près que l'on dessine des rectangles pour chaque modalité ; pour ne pas confondre avec les histogrammes (dont nous parlerons plus loin) on marque un espace entre chaque rectangle. Pour mieux illustrer la statistique, on peut indiquer les effectifs au dessus des rectangles.
Dans notre exemple cela donne :
- Diagramme circulaire.
- Pour chaque modalité \( x_i\) , on détermine l'angle en degré correspondant par la formule \( \vartheta_i=\dpl{n_i\frac{360}{n}}\) où \( n\) désigne l'effectif total et \( n_i\) l'effectif de la modalité \( x_i\) .
Puisque la somme des \( \vartheta_i\) vaut 360 chaque angles correspond à une partie d'un disque. On représente alors ces angles dans un disque en indiquant à quelle modalité correspond l'angle.
Dans notre exemple, on commence tout d'abord à déterminer les angles, en arrondissant à l'unité (et en s'arrangeant pour la somme des angles fasses bien 360 degrés).
\[
\begin{array}{*{13}{c|}c}
\text{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline
\text{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1\\\hline
\text{Angles }&12&12&12&36&24&24&36&72&36&36&36&12&12
\end{array}
\]
Le diagramme circulaire correspondant est alors :
Caractéristiques de position
- Le mode.
-
Définition
Le mode de \( S\) est la modalité avec le plus grand effectif.
Dans notre exemple le mode vaut \( 11\) .
- La moyenne.
-
Définition
La moyenne de \( S\) , notée \( \overline{S}\) , est définie par la formule
\[\overline{S}=\frac{1}{n}\sum_{i=1}^kn_ix_i\]
où les \( n_i\) désignent l'effectif de la modalité \( x_i\) et \( n\) l'effectif total.
Dire qu'une statistique a \( \overline{S}\) pour moyenne s'interprète en observant que c'est comme si tous les individus de la population étudiée avaient pour modalité \( \overline{S}\) .
Dans notre exemple, la moyenne vaut \( \dpl{\frac{313}{30}=10.4\underline{3}}\)
- La médiane.
- La médiane est la modalité qui sépare l'effectif en deux.
Définition
Soit \( i_2\in [\![1;k]\!]\) l'indice tel que \( \dpl{N_{i_2-1}{<}\frac{n}{2}\leqslant N_{{i_2}}}\) où \( n\) désigne l'effectif total et \( N_i\) l'effectif cumulé croissant de la modalité \( x_i\) .
La modalité \( x_{i_2}\) est appelé la médiane de la série \( S\) .
Il se peut que la médiane soit exactement entre deux modalités ; dans ce cas, on définit la médiane comme étant la valeur moyenne de ces deux modalités.
Dans notre exemple la médiane vaut 11. Cela s'interprète en observant que environ (c'est en effet une approximation car plusieurs individu peuvent avoir la modalité de la médiane) la moitié des étudiants ont obtenus une note inférieur à 11 et l'autre moitié supérieur à 11.
- Les quantiles.
- La médiane sépare l'effectif en deux. On peut généraliser cette décomposition en remplaçant 2 par un
autre nombre.
Définition
Soient \( Q\in \N_{{>}1}\) et \( q\in[\![1;Q-1]\!]\) . Le \( q^{\text{ième}}\) quantile d'ordre Q est la modalité \( x_{i_q}\) dont l'indice est
tel que \( \dpl{N_{i_q-1}{<}\frac{n}{Q}\leqslant N_{i_q}}\) où \( n\) désigne l'effectif total et \( N_i\) l'effectif cumulé croissant de la modalité \( x_i\) .
Dans la pratique trois quantiles sont étudiés :
- La médiane.
- C'est le premier quantile d'ordre 2.
- Les quartiles.
- On choisit de séparer l'effectif en quatre (\( Q=4\) ). Dans ce cas, le second quantile d'ordre 4 est la médiane.
On s'attarde alors à calculer le premier quantile et le troisième quantile d'ordre 4 respectivement nommé premier quartile
et troisième quartile. On représente généralement les quartiles dans un diagramme en boîte (également appelé
boîte à moustache) : sur un axe représentant les modalités, on trace un rectangle dont deux des cotés opposés marquent respectivement le premier et le dernier quartile. On marque aussi la médiane.
Dans notre exemple, le premier quartile vaut 8 et le troisième 14.
- Les déciles.
- On prend \( Q=10\) .
Caractéristiques de dispersion
- L'étendue.
-
Définition
L'étendue \( et_S\) d'une série statistique \( S\) est la différence entre le plus grande modalité et la plus petite.
\[et_S=\Max(x_i|x_i\in S)-\Min(x_i|x_i\in S).\]
L'étendue permet de mesurer si la série statistique est concentrée autour de sa moyenne ou plutôt dispersée : plus l'étendue est petite plus la série est concentré autour de sa moyenne et inversement.
Dans notre exemple l'étendue est de 18. Cette série est donc dispersée autour de sa moyenne.
- L'intervalle inter-quartile.
- Dans notre exemple, l'étendue de 18 nous indique que la série statistique est dispersée autour sa moyenne. L'intervalle inter-quartile permet de savoir s'il y a plus de modalité au dessus de la moyenne ou en dessous.
Définition
L'intervalle inter-quartile d'une série statistique est la différence entre le troisième et le premier quartile.
- La variance et l'écart-type.
- Pour mieux observer la dispersion des modalités, on calcul l'écart-type. On va étudier les écarts entre chaque modalité avec la moyenne.
Définition
La variance d'une série statistique \( S\) est le nombre
\[v_S=\frac{1}{n}\sum_{i=1}^kn_i(x_i-\overline{S})^2\]
Dans la pratique on calcul la variance à l'aide de la formule suivante.
Proposition
Soit \( S\) une série statistique. Considérons \( S^2\) la série ou toutes les modalités sont mis au carré. Alors
\[v_S=\overline{S^2}-\overline{S}^2=\left(\frac{1}{n}\sum_{i=1}^kn_ix_i^2\right)-\overline{S}^2\]
Démonstration
\begin{eqnarray*}
v_S&=&\frac{1}{n}\sum_{i=1}^kn_i(x_i-\overline{S})^2\\
&=&\frac{1}{n}\sum_{i=1}^kn_i(x_i^2-2x_i\overline{S}+\overline{S}^2)\\
&=&\frac{1}{n}\sum_{i=1}^kn_ix_i^2-\frac{1}{n}\sum_{i=1}^kn_i2x_i\overline{S}+\frac{1}{n}\sum_{i=1}^kn_i\overline{S}^2\\
&=&\frac{1}{n}\sum_{i=1}^kn_ix_i^2-2\overline{S}\frac{1}{n}\sum_{i=1}^kn_ix_i+\overline{S}^2\frac{1}{n}\sum_{i=1}^kn_i\\
&=&\frac{1}{n}\sum_{i=1}^kn_ix_i^2-2\overline{S}\overline{S}+\overline{S}^2\\
&=&\frac{1}{n}\sum_{i=1}^kn_ix_i^2-\overline{S}^2.
\end{eqnarray*}
Pour "renormaliser" cette donnée (le passage au carré), on considère plus souvent l'écart-type.
Définition
L'écart-type d'une série statistique est définie comme la racine carré de la variance :
\[\sigma_s=\sqrt{v_s}\]
Série statistique à caractère continue
En général, les deux raisons principales qui peuvent amener à considérer comme continue une variable sont le grand nombre d'observation distinctes (trop grand pour une étude discrète) ou le caractère sensible d'une variable (salaire, age d'une femme, etc).
Dans ce chapitre on fixe une série statistique à caractère continue \( S\) . On note \( k\) le nombre de classe et chaque classe sera noté \( [b_i; b_{i+1}[\) (les intervalles pouvant être fermés ou ouverts ; la seule règle à respecter est qu'une valeur ne peut être considérée que dans une seule classe). Pour illustrer les notions de ce chapitre nous considèrerons l'age des 121 employés d'une entreprise
\[
\begin{array}{c*{10}{|c}}
26&22&41&43&18&31&34&28&26&21&44\\\hline
52&60&62&34&38&23&31&40&58&60&33\\\hline
33&26&28&30&29&29&29&29&33&35&33\\\hline
26&42&24&22&44&41&47&30&49&32&37\\\hline
26&51&28&55&52&61&47&22&19&27&25\\\hline
35&33&25&34&43&42&41&30&29&27&51\\\hline
52&31&32&29&25&21&31&41&21&31&51\\\hline
32&22&42&52&23&44&50&51&29&29&29\\\hline
28&27&29&35&43&49&57&57&57&31&33\\\hline
33&48&49&22&18&19&20&21&22&23&23\\\hline
23&19&44&55&33&48&28&42&54&25&29
\end{array}
\]
Le nombre de modalité étant grand, on choisit une étude continue. On représente alors les données dans un tableau.
\[
\begin{array}{{>}{\text }m{3cm}{<}{ }|*{8}{c|}c}
Classe&[18;23[&[23;28[&[28;33[&[33;38[&[38;43[&[43;48[&[48;53[&[53;58[&[58;63]\\\hline
&16&18&28&15&10&9&14&6&5
\end{array}
\]
Liens avec le cas discret
Définition
Soit \( S\) une série statistique à caractère continue.
- \( \bullet\)
- La borne inférieur de la classe \( [b_i ; b_{i+1}[\) est \( b_i\) .
- \( \bullet\)
- La borne supérieur de la classe \( [b_i ; b_{i+1}[\) est \( b_{i+1}\) .
- \( \bullet\)
- Le centre de classe de \( [b_i ; b_{i+1}[\) est \( \dpl{\frac{b_i+b_{i+1}}{2}}\) .
- \( \bullet\)
- L'amplitude de la classe \( [b_i ; b_{i+1}[\) est \( b_{i+1}-b_i\) .
Dans la pratique, on complète le tableau en rajoutant le centre des classes.
\[
\begin{array}{{>}{\text }m{2.5cm}{<}{ }|*{8}{c|}c}
Classe&[18;23[&[23;28[&[28;33[&[33;38[&[38;43[&[43;48[&[48;53[&[53;58[&[58;63]\\\hline
Centre des classes&20.5&25.5&30.5&35.5&40.5&45.5&50.5&55.5&60.5\\\hline
&16&18&28&15&10&9&14&6&5
\end{array}
\]
Définition
La série statistique discrète associé à \( S\) est la série dont les modalités sont les centres de classe et les effectifs correspondant aux classes respectives.
On peut donc appliquer dans ce cadre les définitions d'effectifs, effectif total, effectifs cumulés, fréquences, fréquences cumulées.
Représentations des données
En considérant les statistiques continues de manière discrète, on peut utiliser les représentations introduites dans le précédent chapitre : diagramme en batons, en tuyau d'orgue, circulaire etc.
Il existe également une représentation propre au caractère continue : l'histogramme.
Chaque classe est représenté par un rectangle dont la base est délimitée par les bornes correspondante et dont la hauteur est la densité d'effectif.
Définition
Soit \( S\) une série statistique à caractère continue. La densité d'effectif de la classe \( [b_i ; b_{i+1}[\) est le rapport entre l'effectif du centre de classe correspondant par l'amplitude de la classe.
\[\frac{n_i}{b_{i+1}-b_i}\]
Puisque la hauteur d'un rectangle est la densité d'effectif, l'aire d'un rectangle de l'histogramme, qui est le produit de la hauteur \( \dpl{\frac{n_i}{b_{i+1}-b_i}}\) par la longueur \( b_{i+1}-b_{i}\) , est égale à l'effectif ; ceci permet donc une meilleur illustration de la série étudiée.
Avec notre exemple, cela donne :
\[
\begin{array}{{>}{\text }m{2.5cm}{<}{ }|*{8}{c|}c}
Classe&[18;23[&[23;28[&[28;33[&[33;38[&[38;43[&[43;48[&[48;53[&[53;58[&[58;63]\\\hline
Centre des classes&20.5&25.5&30.5&35.5&40.5&45.5&50.5&55.5&60.5\\\hline
Effectif&16&18&28&15&10&9&14&6&5\\\hline
Densité d'effectif&3.2&3.6&5.6&3&2&1.8&2.8&1.2&1
\end{array}
\]
Caractéristiques de position et de dispersion liés au cas discret
- Classe modale.
- La version continue du mode est la classe modale.
Définition
La classe modale de \( S\) est la classe du plus grand effectif.
Dans notre exemple, la classe modale est \( [28;33[\) .
De manière équivalente, la classe modale d'une série continue est la classe correspondant au mode de la série discrète associée.
- Moyenne, variance et écart-type.
- La moyenne (resp. la variance, resp. l'écart-type) d'une série statistique continue, est la moyenne (resp. la variance, resp. l'écart-type) de la série statistique discrète associée.
- Étendue.
- \( { }\)
Définition
L'étendue de \( S\) est la différence entre la plus grande borne supérieur et la plus petite borne inférieur.
\[et_S=\Max\Big(\Sup([b_i; b_{i+1}[\,\big|i\in [\![1;k]\!])\Big)-\Min\Big(\Inf([b_i; b_{i+1}[\,\big|i\in [\![1;k]\!])\Big).\]
Médiane et quantiles
Définition
Soient \( Q\in \N_{{>}1}\) et \( q\in[\![1;Q-1]\!]\) . La \( q^{\text{ième}}\) classe-quantile d'ordre Q est la classe \( [b_{i_q}; b_{i_q+1}[\) dont l'indice \( i_q\) est
tel que \( \dpl{N_{i_q-1}{<}\frac{n}{Q}\leqslant N_{i_q}}\) où \( n\) désigne l'effectif total et \( N_i\) l'effectif cumulé croissant de la classe \( [b_i;b_{i+1}[\) .
Avec notre exemple :
\[
\begin{array}{{>}{\text }m{2.5cm}{<}{ }|*{8}{c|}c}
Classe&[18;23[&[23;28[&[28;33[&[33;38[&[38;43[&[43;48[&[48;53[&[53;58[&[58;63]\\\hline
Centre des classes&20.5&25.5&30.5&35.5&40.5&45.5&50.5&55.5&60.5\\\hline
Effectif&16&18&28&15&10&9&14&6&5\\\hline
Effectif cumulé croissant&16&34&62&76&87&96&110&116&121
\end{array}
\]
Dans ce cas la classe médiane est \( [28;33[\) . Le centre de classe étant \( 30.5\) , on pourrait dire que la médiane de cette série est \( 30.5\) . Nous pourrons raffiner ce résultat à l'aide de l'interpolation linéaire, mais pour cela nous aurons besoin des fonctions.
TO BE CONTINUED