\( %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Mes commandes %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \newcommand{\multirows}[3]{\multirow{#1}{#2}{$#3$}}%pour rester en mode math \renewcommand{\arraystretch}{1.3}%pour augmenter la taille des case \newcommand{\point}[1]{\marginnote{\small\vspace*{-1em} #1}}%pour indiquer les points ou le temps \newcommand{\dpl}[1]{\displaystyle{#1}}%megamode \newcommand{\A}{\mathscr{A}} \newcommand{\LN}{\mathscr{N}} \newcommand{\LL}{\mathscr{L}} \newcommand{\K}{\mathbb{K}} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\M}{\mathcal{M}} \newcommand{\D}{\mathbb{D}} \newcommand{\E}{\mathcal{E}} \renewcommand{\P}{\mathcal{P}} \newcommand{\G}{\mathcal{G}} \newcommand{\Kk}{\mathcal{K}} \newcommand{\Cc}{\mathcal{C}} \newcommand{\Zz}{\mathcal{Z}} \newcommand{\Ss}{\mathcal{S}} \newcommand{\B}{\mathbb{B}} \newcommand{\inde}{\bot\!\!\!\bot} \newcommand{\Proba}{\mathbb{P}} \newcommand{\Esp}[1]{\dpl{\mathbb{E}\left(#1\right)}} \newcommand{\Var}[1]{\dpl{\mathbb{V}\left(#1\right)}} \newcommand{\Cov}[1]{\dpl{Cov\left(#1\right)}} \newcommand{\base}{\mathcal{B}} \newcommand{\Som}{\textbf{Som}} \newcommand{\Chain}{\textbf{Chain}} \newcommand{\Ar}{\textbf{Ar}} \newcommand{\Arc}{\textbf{Arc}} \newcommand{\Min}{\text{Min}} \newcommand{\Max}{\text{Max}} \newcommand{\Ker}{\text{Ker}} \renewcommand{\Im}{\text{Im}} \newcommand{\Sup}{\text{Sup}} \newcommand{\Inf}{\text{Inf}} \renewcommand{\det}{\texttt{det}} \newcommand{\GL}{\text{GL}} \newcommand{\crossmark}{\text{\ding{55}}} \renewcommand{\checkmark}{\text{\ding{51}}} \newcommand{\Card}{\sharp} \newcommand{\Surligne}[2]{\text{\colorbox{#1}{ #2 }}} \newcommand{\SurligneMM}[2]{\text{\colorbox{#1}{ #2 }}} \newcommand{\norm}[1]{\left\lVert#1\right\rVert} \renewcommand{\lim}[1]{\underset{#1}{lim}\,} \newcommand{\nonor}[1]{\left|#1\right|} \newcommand{\Un}{1\!\!1} \newcommand{\sepon}{\setlength{\columnseprule}{0.5pt}} \newcommand{\sepoff}{\setlength{\columnseprule}{0pt}} \newcommand{\flux}{Flux} \newcommand{\Cpp}{\texttt{C++\ }} \newcommand{\Python}{\texttt{Python\ }} %\newcommand{\comb}[2]{\begin{pmatrix} #1\\ #2\end{pmatrix}} \newcommand{\comb}[2]{C_{#1}^{#2}} \newcommand{\arrang}[2]{A_{#1}^{#2}} \newcommand{\supp}[1]{Supp\left(#1\right)} \newcommand{\BB}{\mathcal{B}} \newcommand{\arc}[1]{\overset{\rotatebox{90}{)}}{#1}} \newcommand{\modpi}{\equiv_{2\pi}} \renewcommand{\Re}{Re} \renewcommand{\Im}{Im} \renewcommand{\bar}[1]{\overline{#1}} \newcommand{\mat}{\mathcal{M}} \newcommand{\und}[1]{{\mathbf{\color{red}\underline{#1}}}} \newcommand{\rdots}{\text{\reflectbox{$\ddots$}}} \newcommand{\Compa}{Compa} \newcommand{\dint}{\dpl{\int}} \newcommand{\intEFF}[2]{\left[\!\left[#1 ; #2\right]\!\right]} \newcommand{\intEFO}[2]{\left[\!\left[#1 ; #2\right[\!\right[} \newcommand{\intEOF}[2]{\left]\!\left]#1 ; #2\right]\!\right]} \newcommand{\intEOO}[2]{\left]\!\left]#1 ; #2\right[\!\right[} \newcommand{\ou}{\vee} \newcommand{\et}{\wedge} \newcommand{\non}{\neg} \newcommand{\implique}{\Rightarrow} \newcommand{\equivalent}{\Leftrightarrow} \newcommand{\Ab}{\overline{A}} \newcommand{\Bb}{\overline{B}} \newcommand{\Cb}{\overline{C}} \newcommand{\Cl}{\texttt{Cl}} \newcommand{\ab}{\overline{a}} \newcommand{\bb}{\overline{b}} \newcommand{\cb}{\overline{c}} \newcommand{\Rel}{\mathcal{R}} \newcommand{\superepsilon}{\varepsilon\!\!\varepsilon} \newcommand{\supere}{e\!\!e} \makeatletter \newenvironment{console}{\noindent\color{white}\begin{lrbox}{\@tempboxa}\begin{minipage}{\columnwidth} \ttfamily \bfseries\vspace*{0.5cm}} {\vspace*{0.5cm}\end{minipage}\end{lrbox}\colorbox{black}{\usebox{\@tempboxa}} } \makeatother \def\ie{\textit{i.e. }} \def\cf{\textit{c.f. }} \def\vide{ { $ {\text{ }} $ } } %Commande pour les vecteurs \newcommand{\grad}{\overrightarrow{Grad}} \newcommand{\Vv}{\overrightarrow{v}} \newcommand{\Vu}{\overrightarrow{u}} \newcommand{\Vw}{\overrightarrow{w}} \newcommand{\Vup}{\overrightarrow{u'}} \newcommand{\Zero}{\overrightarrow{0}} \newcommand{\Vx}{\overrightarrow{x}} \newcommand{\Vy}{\overrightarrow{y}} \newcommand{\Vz}{\overrightarrow{z}} \newcommand{\Vt}{\overrightarrow{t}} \newcommand{\Va}{\overrightarrow{a}} \newcommand{\Vb}{\overrightarrow{b}} \newcommand{\Vc}{\overrightarrow{c}} \newcommand{\Vd}{\overrightarrow{d}} \newcommand{\Ve}[1]{\overrightarrow{e_{#1}}} \newcommand{\Vf}[1]{\overrightarrow{f_{#1}}} \newcommand{\Vn}{\overrightarrow{0}} \newcommand{\Mat}{Mat} \newcommand{\Pass}{Pass} \newcommand{\mkF}{\mathfrak{F}} \renewcommand{\sp}{Sp} \newcommand{\Co}{Co} \newcommand{\vect}[1]{\texttt{Vect}\dpl{\left( #1\right)}} \newcommand{\prodscal}[2]{\dpl{\left\langle #1\left|\vphantom{#1 #2}\right. #2\right\rangle}} \newcommand{\trans}[1]{{\vphantom{#1}}^{t}{#1}} \newcommand{\ortho}[1]{{#1}^{\bot}} \newcommand{\oplusbot}{\overset{\bot}{\oplus}} \SelectTips{cm}{12}%Change le bout des flèches dans un xymatrix \newcommand{\pourDES}[8]{ \begin{itemize} \item Pour la ligne : le premier et dernier caractère forment $#1#2$ soit $#4$ en base 10. \item Pour la colonne : les autres caractères du bloc forment $#3$ soit $#5$ en base 10. \item A l'intersection de la ligne $#4+1$ et de la colonne $#5+1$ de $S_{#8}$ se trouve l'entier $#6$ qui, codé sur $4$ bits, est \textbf{\texttt{$#7$}}. \end{itemize} } \)

Statistiques descriptives

Introduction

Voici une définition de statistique :
La statistique est d'un point de vue théorique une science, une méthode et une technique. La statistique comprend : la collecte des données, le traitement des données collectées, l'interprétation des données et la présentation afin de rendre les données compréhensibles par tous.
Dans ce cours nous nous intéresserons à un type de statistique en particulier : celle qui n'étudie qu'un caractère ou qu'une variable à la fois ; on parle alors de statistique unidimensionnelle.

Définition


Une étude statistique unidimensionnelle porte sur une caractéristique bien définie que l'on désigne par caractère ou variable et qui est présente chez chacun des éléments ou individus d'un ensemble donné appelé population.
Par exemple la population peut être les étudiants d'une classe et le caractère peut être les notes à l'examen de fin d'année. On distingue deux types de caractères.

Définition


Une variable, ou caractère, statistique est dite qualitative si ses valeurs s'expriment de façon littérale ou par un codage sur lequel les opérations arithmétiques n'ont pas de sens.
Par exemple le sexe des personnes interrogées, le numéro de leur département de naissances (bien que cela soit des nombres et que les opérations arithmétiques usuelles soient valides, il n'y a aucun sens à considérer la somme de numéro de département ou la moyenne de ces numéros ; il s'agit ici d'un codage), leur situation familiale, la mention recalé, passable, assez bien, bien et très bien que peut avoir un étudiant à un examen. Dans ce dernier exemple on dit que le caractère est ordinal car on peut tout de même ordonner les valeurs du caractères. Dans les autres exemples, on parle de caractère, ou variable, nominale (ne sont décrit que par leur nom).

Définition


Une variable, ou caractère, statistique est dite quantitative si ses valeurs sont des nombres sur lesquels les opérations arithmétiques ont un sens. Elle peut être de deux formes :
\( \bullet\) Discrète :
si elle ne prend qu'un nombre fini de valeur. Ces valeurs sont appelées des modalités.

\( \bullet\) Continue :
si elle prend ses valeurs dans un intervalle. Ces intervalles sont appelées des classes.

Définition


Une série statistique est l'ensemble des modalités ou classes correspondant à tous les individus de la population considérée.

Série statistique à caractère discret

Dans la suite de ce chapitre, on fixe une série statistique à caractère discret \( S\) . Cela signifie que \( S\) est un ensemble fini de nombres réels. Il existe donc des nombres \( \alpha_i\in\R\) tel que \( S=\left\{\alpha_1, \alpha_2, ..., \alpha_n\right\}\) On note \( k\) le nombre de modalité différente et \( x_1,x_2,..., x_k\) ces différentes modalités ordonnées dans l'ordre permettant au mieux d'observer la série (dans la plupart des cas c'est dans l'ordre croissant). Pour illustrer les définitions et notions nous utiliserons l'exemple suivant jusqu'à la fin du chapitre :
\( \bullet\)
La population étudiée est un groupe de TD de 30 étudiants.

\( \bullet\)
Le caractère étudié est les résultats obtenus à l'examen de mathématiques. Les notes, sur 20, sont les suivantes : \[ \begin{array}{|c|c|c|c|c|c|} \hline 12&11&7&10&9&3\\\hline 12&15&8&8&14&11\\\hline 7&2&0&18&11&14\\\hline 16&11&9&12&11&11\\\hline 15&10&15&7&14&10\\\hline \end{array} \]
Le nombre de modalité différente est de 13 (ie \( k=13\) tandis que \( n=30\) ) et les différentes modalités sont \( x_1=0\) , \( x_2=2\) , \( x_3=3\) , \( x_4=7\) , \( x_5=8\) , \( x_6=9\) , \( x_7=10\) , \( x_8=11\) , \( x_9=12\) , \( x_{10}=14\) , \( x_{11}=15\) , \( x_{12}=16\) , \( x_{13}=18\) . A noter que toute modalité est une valeur mais toute valeur n'est pas une modalité. Par exemple \( 12\) est une valeur et aussi une modalité mais \( 17\) est une valeur sans être une modalité ; \( 17\) est une valeur pour le caractère (une note) mais n'est pas une modalité de la série statistique car aucun des \( x_i\) ne vaut \( 17\) .

Effectif et fréquence

Définition


Le nombre d'élément de la série \( S\) est appelé l'effectif total de la série statistique \( S\) .

Définition


Soit \( x_i\) une modalité de la série statistique \( S\) . Le nombre \( n_i\) de répétition de \( x_i\) dans la série \( S\) est appelé l'effectif de \( x_i\) .
Dans la pratique, on représente ces résultats dans un tableau : \[ \begin{array}{c|c|c|c|c} \text{Caractères}&x_1&x_2&\cdots&x_k\\\hline \text{Effectifs}&n_1&n_2&\cdots&n_k \end{array} \] Dans notre exemple, l'effectif total vaut \( 30\) et les effectifs sont : \[ \begin{array}{*{13}{c|}c} \text{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline \text{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1 \end{array} \] Par construction on a la proposition suivante.

Proposition


Notons \( n_i\) l'effectif de la modalité \( x_i\) . \[n=\sum_{i=1}^k n_i\]
On vérifie en effet que dans notre exemple \( 1+1+1+3+2+2+3+6+3+3+3+1+1=30\) .

Définition


Soit \( x_i\) une modalité de la série statistique \( S\) . On appelle fréquence relative à la modalité \( x_i\) le rapport de l'effectif de la modalité \( x_i\) avec l'effectif total. \[f_i:=\frac{n_i}{n}\]
Naturellement puisque la somme des effectifs vaut l'effectif total, la somme des fréquence, vaut \( 1\) : \[\sum_{i=1}^kf_i=1\] Ce dernier résultat montre en fait que la somme des \( p_i=100f_i\) fait \( 100\) et donc que les \( p_i\) décrivent le pourcentage de l'effectif total ayant \( x_i\) pour caractère. On complète alors le tableau : \[ \begin{array}{c|c|c|c|c} \text{Caractères}&x_1&x_2&\cdots&x_k\\\hline \text{Effectifs}&n_1&n_2&\cdots&n_k\\\hline \text{Fréquences}&f_1&f_2&\cdots&f_k\\\hline \text{Pourcentages}&p_1&p_2&\cdots&p_k \end{array} \] Ce qui donne dans notre exemple : \[ \begin{array}{*{13}{c|}c} \text{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline \text{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1\\\hline \text{Fréquences}&\frac{1}{30}&\frac{1}{30}&\frac{1}{30}&\frac{1}{10}&\frac{1}{15}&\frac{1}{15}&\frac{1}{10}&\frac{1}{5}&\frac{1}{10}&\frac{1}{10}&\frac{1}{10}&\frac{1}{30}&\frac{1}{30}\\\hline \text{Pourcentages}&\frac{10}{3}\%&\frac{10}{3}\%&\frac{10}{3}\%&10\%&\frac{20}{3}\%&\frac{20}{3}\%&10\%&20\%&10\%&10\%&10\%&\frac{10}{3}\%&\frac{10}{3}\% \end{array} \] On interprète cela en observant, par exemple, que \( 20\%\) des étudiants on obtenu un \( 11/20\) à leur examen.

Définition


L'effectif cumulé croissant (resp. décroissant) pour la modalité \( x_i\) est la somme des effectifs qui lui sont inférieurs (resp. supérieurs). \begin{eqnarray*} &&N_i=\sum_{j=1}^in_j\\ \big(\text{resp. } && N_i=\sum_{j=i}^kn_j\big) \end{eqnarray*}
On observe en particulier que \( \dpl{N_k(\text{resp. } N_1)=\sum_{j=1}^kn_j=n}\) (l'effectif total). On complète le tableau : \[ \begin{array}{c|c|c|c|c} \text{Caractères}&x_1&x_2&\cdots&x_k\\\hline \text{Effectifs}&n_1&n_2&\cdots&n_k\\\hline \text{Effectifs cumulés croissants}&n_1&n_1+n_2&\cdots&n_1+\cdots+n_k\\\hline \text{Effectifs cumulés décroissants}&n_1+\cdots+n_k&n_2+\cdots+n_k&\cdots&n_k \end{array} \] Avec notre exemple : \[ \begin{array}{*{13}{c|}c} \text{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline \text{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1\\\hline \text{Effectifs cumulés croissants}&1&2&3&6&8&10&13&19&22&25&28&29&30\\\hline \text{Effectifs cumulés décroissant}&30&29&28&25&23&21&18&12&9&6&3&2&1 \end{array} \] On peut interpréter ces résultats en observant, par exemple, que \( 10\) étudiants ont obtenu une note strictement inférieure à \( 10\) .

Définition


La fréquence cumulée croissante (resp. décroissante) pour la modalité \( x_i\) est la somme des fréquences qui lui sont inférieures (resp. supérieures). \begin{eqnarray*} &&F_i=\sum_{j=1}^if_j\\ \big(\text{resp. } && N_i=\sum_{j=i}^kf_j\big) \end{eqnarray*}
En générale on considèrera davantage les pourcentages que les fréquences en posant \( \dpl{P_i=\sum_{j=1}^ip_j}\) (resp. \( \dpl{P_i=\sum_{j=i}^Kp_j}\) ). On les représente de même dans le tableau ce qui donne dans notre exemple : \[ \begin{array}{{>}{\text }m{3cm}{<}{ }|*{12}{c|}c} {Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline {Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1\\\hline {Fréquences}&\frac{1}{30}&\frac{1}{30}&\frac{1}{30}&\frac{1}{10}&\frac{1}{15}&\frac{1}{15}&\frac{1}{10}&\frac{1}{5}&\frac{1}{10}&\frac{1}{10}&\frac{1}{10}&\frac{1}{30}&\frac{1}{30}\\\hline {Pourcentages}&\frac{10}{3}\%&\frac{10}{3}\%&\frac{10}{3}\%&10\%&\frac{20}{3}\%&\frac{20}{3}\%&10\%&20\%&10\%&10\%&10\%&\frac{10}{3}\%&\frac{10}{3}\%\\\hline {Effectifs cumulés croissants}&1&2&3&6&8&10&13&19&22&25&28&29&30\\\hline {Fréquences cumulés croissantes}&\frac{1}{30}&\frac{1}{15}&\frac{1}{10}&\frac{1}{5}&\frac{4}{15}&\frac{1}{3}&\frac{13}{30}&\frac{19}{30}&\frac{11}{15}&\frac{5}{6}&\frac{14}{15}&\frac{29}{30}&1\\\hline {Pourcentages cumulés croissants}&\frac{10}{3}\%&\frac{20}{3}\%&10\%&20\%&\frac{80}{3}\%&\frac{100}{3}\%&\frac{130}{3}\%&\frac{190}{3}\%&\frac{220}{3}\%&\frac{250}{3}\%&\frac{280}{3}\%&\frac{290}{3}\%&100\%\\\hline {Effectifs cumulés décroissant}&30&29&28&25&23&21&18&12&9&6&3&2&1\\\hline {Fréquences cumulés décroissantes}&1&\frac{29}{30}&\frac{14}{15}&\frac{5}{6}&\frac{23}{30}&\frac{7}{10}&\frac{3}{5}&\frac{2}{5}&\frac{3}{10}&\frac{1}{5}&\frac{1}{10}&\frac{1}{15}&\frac{1}{30}\\\hline Pourcentages cumulés décroissants&100\%&\frac{290}{3}\%&\frac{280}{3}\%&90\%&80\%&\frac{220}{3}\%&\frac{200}{3}\%&\frac{170}{3}\%&\frac{110}{3}\%&\frac{80}{3}\%&\frac{50}{3}\%&\frac{20}{3}\%&\frac{10}{3}\% \end{array} \] On interprète cela en observant, par exemple, que \( 80\%\) des étudiants on obtenu une note supérieur ou égale à \( 8\) .

Représentation des données

Il existe plusieurs manière de représenter une série statistique à caractère discret.
Diagramme en bâtons.
On trace les segments \( \dpl{\Big\{\big[(x_i,n_i) ; (x_i,0)\big]\Big\}_{i\in[\![1;k]\!]}}\) où les \( x_i\) désignent les modalités et \( n_i\) les effectifs associés. Avec notre exemple cela donne :

Diagramme en tuyau d'orgue.
On procède comme le diagramme en bâtons à ceci près que l'on dessine des rectangles pour chaque modalité ; pour ne pas confondre avec les histogrammes (dont nous parlerons plus loin) on marque un espace entre chaque rectangle. Pour mieux illustrer la statistique, on peut indiquer les effectifs au dessus des rectangles. Dans notre exemple cela donne :

Diagramme circulaire.
Pour chaque modalité \( x_i\) , on détermine l'angle en degré correspondant par la formule \( \vartheta_i=\dpl{n_i\frac{360}{n}}\) où \( n\) désigne l'effectif total et \( n_i\) l'effectif de la modalité \( x_i\) . Puisque la somme des \( \vartheta_i\) vaut 360 chaque angles correspond à une partie d'un disque. On représente alors ces angles dans un disque en indiquant à quelle modalité correspond l'angle. Dans notre exemple, on commence tout d'abord à déterminer les angles, en arrondissant à l'unité (et en s'arrangeant pour la somme des angles fasses bien 360 degrés).
\[ \begin{array}{*{13}{c|}c} \text{Notes}&0&2&3&7&8&9&10&11&12&14&15&16&18\\\hline \text{Effectifs}&1&1&1&3&2&2&3&6&3&3&3&1&1\\\hline \text{Angles }&12&12&12&36&24&24&36&72&36&36&36&12&12 \end{array} \] Le diagramme circulaire correspondant est alors :
Caractéristiques de position
Le mode.

Définition


Le mode de \( S\) est la modalité avec le plus grand effectif.
Dans notre exemple le mode vaut \( 11\) .

La moyenne.

Définition


La moyenne de \( S\) , notée \( \overline{S}\) , est définie par la formule \[\overline{S}=\frac{1}{n}\sum_{i=1}^kn_ix_i\] où les \( n_i\) désignent l'effectif de la modalité \( x_i\) et \( n\) l'effectif total.
Dire qu'une statistique a \( \overline{S}\) pour moyenne s'interprète en observant que c'est comme si tous les individus de la population étudiée avaient pour modalité \( \overline{S}\) . Dans notre exemple, la moyenne vaut \( \dpl{\frac{313}{30}=10.4\underline{3}}\)

La médiane.
La médiane est la modalité qui sépare l'effectif en deux.

Définition


Soit \( i_2\in [\![1;k]\!]\) l'indice tel que \( \dpl{N_{i_2-1}{<}\frac{n}{2}\leqslant N_{{i_2}}}\) où \( n\) désigne l'effectif total et \( N_i\) l'effectif cumulé croissant de la modalité \( x_i\) . La modalité \( x_{i_2}\) est appelé la médiane de la série \( S\) .
Il se peut que la médiane soit exactement entre deux modalités ; dans ce cas, on définit la médiane comme étant la valeur moyenne de ces deux modalités. Dans notre exemple la médiane vaut 11. Cela s'interprète en observant que environ (c'est en effet une approximation car plusieurs individu peuvent avoir la modalité de la médiane) la moitié des étudiants ont obtenus une note inférieur à 11 et l'autre moitié supérieur à 11.

Les quantiles.
La médiane sépare l'effectif en deux. On peut généraliser cette décomposition en remplaçant 2 par un autre nombre.

Définition


Soient \( Q\in \N_{{>}1}\) et \( q\in[\![1;Q-1]\!]\) . Le \( q^{\text{ième}}\) quantile d'ordre Q est la modalité \( x_{i_q}\) dont l'indice est tel que \( \dpl{N_{i_q-1}{<}\frac{n}{Q}\leqslant N_{i_q}}\) où \( n\) désigne l'effectif total et \( N_i\) l'effectif cumulé croissant de la modalité \( x_i\) .
Dans la pratique trois quantiles sont étudiés :
La médiane.
C'est le premier quantile d'ordre 2.

Les quartiles.
On choisit de séparer l'effectif en quatre (\( Q=4\) ). Dans ce cas, le second quantile d'ordre 4 est la médiane. On s'attarde alors à calculer le premier quantile et le troisième quantile d'ordre 4 respectivement nommé premier quartile et troisième quartile. On représente généralement les quartiles dans un diagramme en boîte (également appelé boîte à moustache) : sur un axe représentant les modalités, on trace un rectangle dont deux des cotés opposés marquent respectivement le premier et le dernier quartile. On marque aussi la médiane. Dans notre exemple, le premier quartile vaut 8 et le troisième 14.

Les déciles.
On prend \( Q=10\) .

Caractéristiques de dispersion

L'étendue.

Définition


L'étendue \( et_S\) d'une série statistique \( S\) est la différence entre le plus grande modalité et la plus petite. \[et_S=\Max(x_i|x_i\in S)-\Min(x_i|x_i\in S).\]
L'étendue permet de mesurer si la série statistique est concentrée autour de sa moyenne ou plutôt dispersée : plus l'étendue est petite plus la série est concentré autour de sa moyenne et inversement. Dans notre exemple l'étendue est de 18. Cette série est donc dispersée autour de sa moyenne.

L'intervalle inter-quartile.
Dans notre exemple, l'étendue de 18 nous indique que la série statistique est dispersée autour sa moyenne. L'intervalle inter-quartile permet de savoir s'il y a plus de modalité au dessus de la moyenne ou en dessous.

Définition


L'intervalle inter-quartile d'une série statistique est la différence entre le troisième et le premier quartile.

La variance et l'écart-type.
Pour mieux observer la dispersion des modalités, on calcul l'écart-type. On va étudier les écarts entre chaque modalité avec la moyenne.

Définition


La variance d'une série statistique \( S\) est le nombre \[v_S=\frac{1}{n}\sum_{i=1}^kn_i(x_i-\overline{S})^2\]
Dans la pratique on calcul la variance à l'aide de la formule suivante.

Proposition


Soit \( S\) une série statistique. Considérons \( S^2\) la série ou toutes les modalités sont mis au carré. Alors \[v_S=\overline{S^2}-\overline{S}^2=\left(\frac{1}{n}\sum_{i=1}^kn_ix_i^2\right)-\overline{S}^2\]

Démonstration

\begin{eqnarray*} v_S&=&\frac{1}{n}\sum_{i=1}^kn_i(x_i-\overline{S})^2\\ &=&\frac{1}{n}\sum_{i=1}^kn_i(x_i^2-2x_i\overline{S}+\overline{S}^2)\\ &=&\frac{1}{n}\sum_{i=1}^kn_ix_i^2-\frac{1}{n}\sum_{i=1}^kn_i2x_i\overline{S}+\frac{1}{n}\sum_{i=1}^kn_i\overline{S}^2\\ &=&\frac{1}{n}\sum_{i=1}^kn_ix_i^2-2\overline{S}\frac{1}{n}\sum_{i=1}^kn_ix_i+\overline{S}^2\frac{1}{n}\sum_{i=1}^kn_i\\ &=&\frac{1}{n}\sum_{i=1}^kn_ix_i^2-2\overline{S}\overline{S}+\overline{S}^2\\ &=&\frac{1}{n}\sum_{i=1}^kn_ix_i^2-\overline{S}^2. \end{eqnarray*}
Pour "renormaliser" cette donnée (le passage au carré), on considère plus souvent l'écart-type.

Définition


L'écart-type d'une série statistique est définie comme la racine carré de la variance : \[\sigma_s=\sqrt{v_s}\]

Série statistique à caractère continue

En général, les deux raisons principales qui peuvent amener à considérer comme continue une variable sont le grand nombre d'observation distinctes (trop grand pour une étude discrète) ou le caractère sensible d'une variable (salaire, age d'une femme, etc). Dans ce chapitre on fixe une série statistique à caractère continue \( S\) . On note \( k\) le nombre de classe et chaque classe sera noté \( [b_i; b_{i+1}[\) (les intervalles pouvant être fermés ou ouverts ; la seule règle à respecter est qu'une valeur ne peut être considérée que dans une seule classe). Pour illustrer les notions de ce chapitre nous considèrerons l'age des 121 employés d'une entreprise \[ \begin{array}{c*{10}{|c}} 26&22&41&43&18&31&34&28&26&21&44\\\hline 52&60&62&34&38&23&31&40&58&60&33\\\hline 33&26&28&30&29&29&29&29&33&35&33\\\hline 26&42&24&22&44&41&47&30&49&32&37\\\hline 26&51&28&55&52&61&47&22&19&27&25\\\hline 35&33&25&34&43&42&41&30&29&27&51\\\hline 52&31&32&29&25&21&31&41&21&31&51\\\hline 32&22&42&52&23&44&50&51&29&29&29\\\hline 28&27&29&35&43&49&57&57&57&31&33\\\hline 33&48&49&22&18&19&20&21&22&23&23\\\hline 23&19&44&55&33&48&28&42&54&25&29 \end{array} \] Le nombre de modalité étant grand, on choisit une étude continue. On représente alors les données dans un tableau. \[ \begin{array}{{>}{\text }m{3cm}{<}{ }|*{8}{c|}c} Classe&[18;23[&[23;28[&[28;33[&[33;38[&[38;43[&[43;48[&[48;53[&[53;58[&[58;63]\\\hline &16&18&28&15&10&9&14&6&5 \end{array} \]

Liens avec le cas discret

Définition


Soit \( S\) une série statistique à caractère continue.
\( \bullet\)
La borne inférieur de la classe \( [b_i ; b_{i+1}[\) est \( b_i\) .

\( \bullet\)
La borne supérieur de la classe \( [b_i ; b_{i+1}[\) est \( b_{i+1}\) .

\( \bullet\)
Le centre de classe de \( [b_i ; b_{i+1}[\) est \( \dpl{\frac{b_i+b_{i+1}}{2}}\) .

\( \bullet\)
L'amplitude de la classe \( [b_i ; b_{i+1}[\) est \( b_{i+1}-b_i\) .
Dans la pratique, on complète le tableau en rajoutant le centre des classes. \[ \begin{array}{{>}{\text }m{2.5cm}{<}{ }|*{8}{c|}c} Classe&[18;23[&[23;28[&[28;33[&[33;38[&[38;43[&[43;48[&[48;53[&[53;58[&[58;63]\\\hline Centre des classes&20.5&25.5&30.5&35.5&40.5&45.5&50.5&55.5&60.5\\\hline &16&18&28&15&10&9&14&6&5 \end{array} \]

Définition


La série statistique discrète associé à \( S\) est la série dont les modalités sont les centres de classe et les effectifs correspondant aux classes respectives.
On peut donc appliquer dans ce cadre les définitions d'effectifs, effectif total, effectifs cumulés, fréquences, fréquences cumulées.

Représentations des données

En considérant les statistiques continues de manière discrète, on peut utiliser les représentations introduites dans le précédent chapitre : diagramme en batons, en tuyau d'orgue, circulaire etc. Il existe également une représentation propre au caractère continue : l'histogramme. Chaque classe est représenté par un rectangle dont la base est délimitée par les bornes correspondante et dont la hauteur est la densité d'effectif.

Définition


Soit \( S\) une série statistique à caractère continue. La densité d'effectif de la classe \( [b_i ; b_{i+1}[\) est le rapport entre l'effectif du centre de classe correspondant par l'amplitude de la classe. \[\frac{n_i}{b_{i+1}-b_i}\]
Puisque la hauteur d'un rectangle est la densité d'effectif, l'aire d'un rectangle de l'histogramme, qui est le produit de la hauteur \( \dpl{\frac{n_i}{b_{i+1}-b_i}}\) par la longueur \( b_{i+1}-b_{i}\) , est égale à l'effectif ; ceci permet donc une meilleur illustration de la série étudiée. Avec notre exemple, cela donne : \[ \begin{array}{{>}{\text }m{2.5cm}{<}{ }|*{8}{c|}c} Classe&[18;23[&[23;28[&[28;33[&[33;38[&[38;43[&[43;48[&[48;53[&[53;58[&[58;63]\\\hline Centre des classes&20.5&25.5&30.5&35.5&40.5&45.5&50.5&55.5&60.5\\\hline Effectif&16&18&28&15&10&9&14&6&5\\\hline Densité d'effectif&3.2&3.6&5.6&3&2&1.8&2.8&1.2&1 \end{array} \]

Caractéristiques de position et de dispersion liés au cas discret

Classe modale.
La version continue du mode est la classe modale.

Définition


La classe modale de \( S\) est la classe du plus grand effectif.
Dans notre exemple, la classe modale est \( [28;33[\) . De manière équivalente, la classe modale d'une série continue est la classe correspondant au mode de la série discrète associée.

Moyenne, variance et écart-type.
La moyenne (resp. la variance, resp. l'écart-type) d'une série statistique continue, est la moyenne (resp. la variance, resp. l'écart-type) de la série statistique discrète associée.

Étendue.
\( { }\)

Définition


L'étendue de \( S\) est la différence entre la plus grande borne supérieur et la plus petite borne inférieur. \[et_S=\Max\Big(\Sup([b_i; b_{i+1}[\,\big|i\in [\![1;k]\!])\Big)-\Min\Big(\Inf([b_i; b_{i+1}[\,\big|i\in [\![1;k]\!])\Big).\]

Médiane et quantiles

Définition


Soient \( Q\in \N_{{>}1}\) et \( q\in[\![1;Q-1]\!]\) . La \( q^{\text{ième}}\) classe-quantile d'ordre Q est la classe \( [b_{i_q}; b_{i_q+1}[\) dont l'indice \( i_q\) est tel que \( \dpl{N_{i_q-1}{<}\frac{n}{Q}\leqslant N_{i_q}}\) où \( n\) désigne l'effectif total et \( N_i\) l'effectif cumulé croissant de la classe \( [b_i;b_{i+1}[\) .
Avec notre exemple : \[ \begin{array}{{>}{\text }m{2.5cm}{<}{ }|*{8}{c|}c} Classe&[18;23[&[23;28[&[28;33[&[33;38[&[38;43[&[43;48[&[48;53[&[53;58[&[58;63]\\\hline Centre des classes&20.5&25.5&30.5&35.5&40.5&45.5&50.5&55.5&60.5\\\hline Effectif&16&18&28&15&10&9&14&6&5\\\hline Effectif cumulé croissant&16&34&62&76&87&96&110&116&121 \end{array} \] Dans ce cas la classe médiane est \( [28;33[\) . Le centre de classe étant \( 30.5\) , on pourrait dire que la médiane de cette série est \( 30.5\) . Nous pourrons raffiner ce résultat à l'aide de l'interpolation linéaire, mais pour cela nous aurons besoin des fonctions.
TO BE CONTINUED