Intervalles de confiances
L'idée est de raffiner la notion d'estimation en ne proposant pas une estimation ponctuelle mais plutôt un intervalle d'estimation. Le coeur de cette approche est de considérer les intervalles de dispersion comme des
a priori et non comme des
a posteriori.
Il ne faut pas confondre les intervalles de confiances et les intervalles de dispersion.
Intervalles de dispersion
Rappelons le théorème de la limite centrale qui est le coeur des intervalles d'estimation.
Théorème [Limite centrale]
Soit \( (X_n)_{n\in\N_{{>}0}}\) une suite de variable aléatoire réelle, indépendantes et identiquement distribuée. Notons \( \mu\) leur espérance et \( \sigma\) leur écart-type.
Soit \( \overline{X_n}=\dfrac{1}{n}\dpl{\sum_{i=1}^nX_i}\) . Alors \( (\overline{X_n})_{n\in \N_{{>}0}}\) converge la loi normale de moyenne \( \mu\) et d'écart-type \( \dfrac{\sigma}{\sqrt{n}}\) .
\[\lim{n\rightarrow+\infty} \overline{X_n}\sim \mathcal{N}\left(\mu, \dfrac{\sigma}{\sqrt{n}}\right)\]
Le sens à donnée à cette
limite en loi est la suivante. Soit \( \dpl{\Phi(t)=\dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^te^{-\frac{x^2}{2}}\ dx}\) la fonction de répartition de la loi normale centrée réduite. Alors le théorème de le limite centrale s'énonce comme :
\[\lim{n\rightarrow+\infty}\Proba\left(\dfrac{\overline{X_n}-\mu}{\frac{\sigma}{\sqrt{n}}}\leqslant t\right)=\Phi(t)\]
Ce théorème est très impressionnant : les moyennes empirique de n'importe quelle loi converge vers une loi normale.
Considérons une urne avec une certaine proportion \( p\) de boule noire. On effectue \( n\) tirage et on observe une fréquence d'apparition des boules noires \( f\) . Du point de vu des probabilité, ce nombre est proche de \( p\) . Mais statistiquement il peut être un peu plus grand ou un peut plus petit.
Si \( n\) est suffisamment grand
1, on peut passer par la loi normale d'après le théorème de la limite centrale. On considère \( X\) la variable aléatoire de Bernouilli de paramètre \( p\) . Dans ce cas \( \Esp{X}=p\) et \( \mathbb{V}\left(X\right)=\sqrt{p(1-p)}\) . Alors, pour \( n\) suffisamment grand, on peut écrire :
\begin{eqnarray*}
\Proba\left(\dfrac{\overline{X_n}-p}{\frac{\sqrt{p(1-p)}}{\sqrt{n}}}\leqslant t\right)\simeq\Phi(t)
&\Longrightarrow& \Proba\left(\left|\dfrac{\overline{X_n}-p}{\sqrt{\frac{p(1-p)}{n}}}\right|\leqslant t\right)\simeq2\Phi(t)-1\\
&\Longrightarrow& \Proba\left(\left|\overline{X_n}-p\right|\leqslant t\sqrt{\frac{p(1-p)}{n}}\right)\simeq2\Phi(t)-1\\
&\Longrightarrow& \Proba\left(-t\sqrt{\frac{p(1-p)}{n}}\leqslant \overline{X_n}-p\leqslant t\sqrt{\frac{p(1-p)}{n}}\right)\simeq2\Phi(t)-1\\
&\Longrightarrow& \Proba\left(p-t\sqrt{\frac{p(1-p)}{n}}\leqslant \overline{X_n}\leqslant p+t\sqrt{\frac{p(1-p)}{n}}\right)\simeq2\Phi(t)-1
\end{eqnarray*}
On déduit que la fréquence \( f\) observe varie, se disperse, dans l'intervalle
\( \dpl{\left[p-t\sqrt{\frac{p(1-p)}{n}} ; p+t\sqrt{\frac{p(1-p)}{n}}\right]}\) .
- \( \bullet\)
-
Si l'on veut être sure à \( 95\%\) que \( f\) appartienne à cet intervalle, il faut choisir \( t\) tel que \( 2\Phi(t)-1\simeq 0.95\) c'est à dire \( \Phi(t)=0.975\) . La table de la loi normale donne \( t\simeq 1.96\) de sorte que \[\left[p-1.96\sqrt{\frac{p(1-p)}{n}} ; p+1.96\sqrt{\frac{p(1-p)}{n}}\right]\]
est l'intervalle de fluctuation de niveau \( 95\%\) .
- \( \bullet\)
- On peut légèrement simplifier l'intervalle précédent, en observant que puisque \( 0\leqslant p\leqslant 1\) alors \( p(1-p)\leqslant\dfrac{1}{4}\) et que naturellement \( 1.96{<}2\) alors
\[\left[p-1.96\sqrt{\frac{p(1-p)}{n}} ; p+1.96\sqrt{\frac{p(1-p)}{n}}\right]\subseteq\left[p-2\sqrt{\frac{1}{4n}} ; p+2\sqrt{\frac{1}{4n}}\right]=\left[p-\frac{1}{\sqrt{n}} ; p+\frac{1}{\sqrt{n}}\right]\]
qui est souvent l'intervalle de fluctuation choisie.
- \( \bullet\)
-
Si l'on veut être sure à \( 99.9\%\) que \( f\) appartienne à cet intervalle, il faut choisir \( t\) tel que \( 2\Phi(t)-1\simeq 0.999\) c'est à dire \( \Phi(t)=0.9995\) . La table de la loi normale donne \( t\simeq 3.29\) de sorte que \[\left[p-3.29\sqrt{\frac{p(1-p)}{n}} ; p+3.29\sqrt{\frac{p(1-p)}{n}}\right]
\subseteq \left[p-\frac{2}{\sqrt{n}} ; p+\frac{2}{\sqrt{n}}\right]\]
est l'intervalle de fluctuation de niveau \( 99.9\%\) .
Intervalle de confiance de l'estimateur de la moyenne
On prend le problème
à l'envers. On ne connait pas la proportion \( p\) de boule noire dans l'urne mais on dispose d'une statistique d'apparition \( f\) sur un échantillon de taille \( n\) . En raisonnant exactement comme précédemment mais en considérant une loi de Bernouilli de paramètre \( f\) connu et non \( p\) , on détermine de la même manière des intervalles. Mais ces intervalles estime \( p\) . Précisément, ils permettent d'encadrer la valeur de \( p\) avec une bonne probabilité.
Définition
Soient \( (X_1, \ldots, X_n)\) un échantillon d'une loi \( \Proba\) d'espérance inconnue \( \mu\) , d'écart-type connue \( \sigma\) et \( 0\leqslant \alpha\leqslant 1\) . L'intervalle de confiance de niveau \( 1-\alpha\) de \( \mu\) est
\[\left[\overline{X_n}-z_\alpha\dfrac{\sigma}{\sqrt{n}} ; \overline{X_n}+z_\alpha\dfrac{\sigma}{\sqrt{n}}\right]\]
où \( z_\alpha\) est l'unique solution de l'équation \( \Phi(z_\alpha)=1-\dfrac{\alpha}{2}\) où \( \Phi\) désigne la fonction de répartition de la loi normale centrée réduite.
En utilisant la fonction quantile, on peut aussi écrire \( z_\alpha=Q_{\mathcal{N}(0, 1)}\left(1-\dfrac{\alpha}{2}\right)\) .
Un intervalle de confiance de niveau \( 95\%\) est inclus dans \( \left[f-\dfrac{2\sigma}{\sqrt{n}} ; f+\dfrac{2\sigma}{\sqrt{n}}\right]\) .
Imaginons que l'urne contient \( 500\) boules
2 et qu'en en tire \( 10\) . Sur ces \( 10\) , on en observe \( 3\) noires de sorte que \( f=0.3\) . La proportion réelle, à \( 95\%\) de boule noire se trouve alors dans l'intervalle \( \left[0.3-\dfrac{1}{\sqrt{10}} ; 0.3+\dfrac{1}{\sqrt{10}}\right]\simeq[0 ; 0.61]\) ... Autant dire inutilisable tant son amplitude est grande. Ceci est du au faible échantillon choisi.
Imaginons à présent que nous en avons tiré \( 100\) et que \( 27\) d'entre elles soient noires, c'est à dire \( f=0.27\) alors
\( \left[0.27-\dfrac{1}{\sqrt{100}} ; 0.27+\dfrac{1}{\sqrt{100}}\right]=[0.17 ; 0.37]\) est un intervalle contenant \( p\) à \( 95\%\) ce qui est déjà plus raisonnable.
Plaçons nous à présent dans un cadre un peu plus générale.
Définition
Définition
Soient une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) et \( T_n^{(1)}\) , \( T_n^{(2)}\) des estimateurs de \( \vartheta\) . On dira que \( [T_n^{(1)}; T_n^{(2)}]\) est un intervalle de confiance de niveau \( 1-\alpha\) de \( \vartheta\) si
\[\Proba_\vartheta(T_n^{(1)}\leqslant \vartheta \leqslant T_n^{(2)})\geqslant 1-\alpha\]
Si on réalise \( T_n^{(1)}\) et \( T_n^{(2)}\) on obtient des estimations particulière \( t_1\) et \( t_2\) . On pourra alors affirmer que \( \vartheta\in[t_1; t_2]\) avec une probabilité de \( 1-\alpha\) .
Si on cherche par exemple à encadrer la moyenne d'une variable aléatoire d'écart-type \( \sigma\) , on considère les estimateurs \( T_n^{(1)}=\overline{X_n}-z_\alpha\dfrac{\sigma}{\sqrt{n}}\)
et \( T_n^{(2)}=\overline{X_n}+z_\alpha\dfrac{\sigma}{\sqrt{n}}\) (qui sont bien des estimateurs convergent de la moyenne, asymptotiquement sans biais) qui font de \( [T_n^{(1)}; T_n^{(2)}]\) un intervalle de confiance.
Les intervalles de dispersions permettent d'obtenir des intervalles de confiances.
Définition
Soit \( X\) une variable aléatoire réelle de loi \( \Proba_\vartheta\) dépendant d'un paramètre réel \( \vartheta\) . On note
\begin{eqnarray*}
q_{X,(\gamma)} : \R&\longrightarrow&\R\\
\vartheta&\longmapsto&Q_X(\gamma)=min\left\{u\in \R\big|\Proba_\vartheta(X\leqslant \gamma)\geqslant t\right\}
\end{eqnarray*}
Lemme
Supposons que \( \Proba_\vartheta\) est une loi continue. Alors les fonction \( q_{X,(\gamma)}\) sont strictement croissante.
Démonstration
Admise
On rappel que toute fonction strictement croissante réalise une bijection entre son domaine et son codomaine. Il existe donc une fonction réciproque \( q_{X, (\gamma)}^{-1}\) .
Théorème
Soient \( \Proba_\vartheta\) une loi de probabilité continue dépendant d'un paramètre \( \vartheta\) estimé par \( T_n\) et \( 0{<}\alpha{<}1\) .
Pour tout \( \beta\in]0 ; \alpha[\) , \[\left[q_{T_n, (1-\alpha+\beta)}^{-1}(T_n) ; q_{T_n, (\beta)}^{-1}(T_n)\right]\] est un intervalle de confiance de niveau au moins \( 1-\alpha\) .
Démonstration
Si \( \vartheta\leqslant q_{T_n, (\beta)}^{-1}(T_n)\) alors
\( Q_{T_n}(\beta)=q_{T_n, (\beta)}(\vartheta)\leqslant T_n\) . De même si
\( \vartheta\geqslant q_{T_n, (1-\alpha+\beta)}^{-1}(T_n)\) alors
\( Q_{T_n}(1-\alpha+\beta)=q_{T_n, (1-\alpha+\beta)}(\vartheta)\geqslant T_n\) .
En d'autre terme
\[\vartheta \in \left[q_{T_n, (1-\alpha+\beta)}^{-1}(T_n) ; q_{T_n, (\beta)}^{-1}(T_n)\right]
\Longleftrightarrow
T_n\in [Q_{T_n}(\beta) ; Q_{T_n}(1-\alpha+\beta)]
\]
De sorte que \( \Proba_\vartheta\left(\vartheta \in \left[q_{T_n, (1-\alpha+\beta)}^{-1}(T_n) ; q_{T_n, (\beta)}^{-1}(T_n)\right]\right) = \Proba_\vartheta\left(T_n\in [Q_{T_n}(\beta) ; Q_{T_n}(1-\alpha+\beta)]\right) =1-\alpha\)
Dans la pratique, on choisi \( \beta\) pour faire de \( [Q_{T_n}(\beta) ; Q_{T_n}(1-\alpha+\beta)]\) un intervalle dispersion optimale ; propriété dont héritera l'intervalle de confiance \( \dpl{\left[q_{T_n, (1-\alpha+\beta)}^{-1}(T_n) ; q_{T_n, (\beta)}^{-1}(T_n)\right]}\) .
Considérons des estimateurs pour la moyenne et la variance.
Intervalles de confiance d'estimateur de la moyenne et de l'écart-type
Proposition
Soient \( n\in \N_{{>}0}\) et \( (X_1,\ldots, X_n)\) un échantillon d'une loi \( \Proba\) .
- \( \dpl{\overline{X_n}=\dfrac{1}{n}\sum_{k=1}^nX_k}\) est un estimateur convergent et sans biais de \( \Esp{X_1}\) .
- \( \dpl{S_n=\dfrac{1}{n}\sum_{k=1}^nX_k^2}\) est un estimateur convergent et sans biais de \( \Esp{X_1^2}\) .
- \( \overline{V_n}^{(1)}=\dpl{\dfrac{1}{n}\sum_{k=1}^nX_k^2-\overline{X_n}^2}=S_n-\overline{X_n}^2\) est un estimateur convergent et asymptotiquement sans biais de \( \mathbb{V}\left(X_1\right)\) .
- \( \dpl{\overline{V_n}^{(2)}=\dfrac{n}{n-1}\sum_{k=1}^nX_k^2-\overline{X_n}^2}=\dfrac{n}{n-1}\left(S_n-\overline{X_n}^2\right)=\dfrac{n}{n-1}\overline{V_n}^{(1)}\) est un estimateur convergent et sans biais de \( \mathbb{V}\left(X_1\right)\) .
Démonstration
Nous avons déjà démontrer le premier point en utilisant la loi faible des grand nombre. Ce même résultat montre que \( S_n\) est un estimateur convergent de \( \Esp{X_1^2}\) de sorte que \( \overline{V_n}^{(1)}\) et \( \overline{V_n}^{(2)}\) sont bien des estimateurs convergent de \( \mathbb{V}\left(X_1\right)\) . Déterminons les biais.
\begin{eqnarray*}
\Esp{\overline{X_n}}
&=&\dfrac{1}{n}\sum_{k=1}^n\Esp{X_k}\\
&=&\dfrac{1}{n}\sum_{k=1}^n\Esp{X_1}\\
&=&\Esp{X_1}
\end{eqnarray*}
De sorte que \( B(\overline{X_n}, \Esp{X_1})=\Esp{\overline{X_n}}-\Esp{X_1}=0\) et \( \overline{X_n}\) est bien sans bien sans biais.
\begin{eqnarray*}
\Esp{S_n}
&=&\dfrac{1}{n}\sum_{k=1}^n\Esp{X_k^2}\\
&=&\dfrac{1}{n}\sum_{k=1}^n\Esp{X_1^2}\\
&=&\Esp{X_1^2}
\end{eqnarray*}
De sorte que \( B(S_n, \Esp{X_1^2})=\Esp{S_n}-\Esp{X_1^2}=0\) et \( S_n\) est bien sans bien sans biais.
\begin{eqnarray*}
\Esp{\overline{V_n}^{(2)}}
&=&\dfrac{n}{n-1}\sum_{k=1}^n\Esp{\overline{V_n}^{(1)}}\\
&=&\dfrac{n}{n-1}\dfrac{n-1}{n}\mathbb{V}\left(X_1\right)\\
&=&\mathbb{V}\left(X_1\right)
\end{eqnarray*}
De sorte que \( B(\overline{V_n}^{(2)}, \mathbb{V}\left(X_1\right))=\Esp{\overline{V_n}^{(2)}}-\mathbb{V}\left(X_1\right)=0\) et \( \overline{V_n^{(2)}}\) est bien sans bien sans biais.
\begin{eqnarray*}
\Esp{\overline{V_n}^{(1)}}
&=&\Esp{S_n}-\Esp{\overline{X_n}^2}\\
&=&\Esp{X_1^2}-\Esp{\dfrac{1}{n^2}\sum_{k=1}^nX_k}\\
&=&\Esp{X_1^2}-\dfrac{1}{n^2}\Esp{\sum_{k=1}^nX_k^2+2\sum_{i=1}^n\sum_{j=i+1}^nX_iX_j}\\
&=&\Esp{X_1^2}-\dfrac{1}{n^2}\left(\sum_{k=1}^n\Esp{X_k^2}+2\sum_{i=1}^n\sum_{j=i+1}^n\Esp{X_i}\Esp{X_j}\right)\\
&=&\Esp{X_1^2}-\dfrac{1}{n^2}\left(\sum_{k=1}^n\Esp{X_1^2}+2\sum_{i=1}^n\sum_{j=i+1}^n\Esp{X_1}\Esp{X_1}\right)\\
&=&\Esp{X_1^2}-\dfrac{1}{n^2}\left(n\Esp{X_1^2}+2\dfrac{n(n-1)}{2}\Esp{X_1}\Esp{X_1}\right)\\
&=&\Esp{X_1^2}-\dfrac{1}{n}\left(\Esp{X_1^2}+(n-1)\Esp{X_1}^2\right)\\
&=&\dfrac{1}{n}\left(n\Esp{X_1^2}-\Esp{X_1^2}-(n-1)\Esp{X_1}^2\right)\\
&=&\dfrac{1}{n}\left((n-1)\Esp{X_1^2}-(n-1)\Esp{X_1}^2\right)\\
&=&\dfrac{n-1}{n}\left(\Esp{X_1^2}-\Esp{X_1}^2\right)\\
&=&\dfrac{n-1}{n}\mathbb{V}\left(X_1\right)\\
\end{eqnarray*}
De sorte que \( B(\overline{V_n}^{(1)}, V(X_1))=\Esp{\overline{V_n}^{(1)}}-\mathbb{V}\left(X_1\right)=-\dfrac{1}{n}\mathbb{V}\left(X_1\right)\) et \( \overline{V_n}^{(1)}\) est asymptotiquement sans biais.
Lemme
Soient \( n\in \N_{{>}0}\) et \( (X_1,\ldots, X_n)\) un échantillon d'une loi normale \( \mathcal{N}(\mu, \sigma)\) .
- La variable aléatoire \( \dfrac{\sqrt{n}}{\sigma}\left(\overline{X_n}-\mu\right)\) suit la loi normale \( \mathcal{N}(0, 1)\) .
- La variable aléatoire \( \sqrt{\dfrac{n-1}{\overline{V_n}^{(1)}}}\left(\overline{X_n}-\mu\right)\) suit la loi de Student \( \mathcal{T}_{n-1}\) .
- La variable aléatoire \( \dfrac{n\overline{V_n}^{(1)}}{\sigma^2}\) suit la loi du khi deux \( \chi^2_{n-1}\) .
Démonstration
Il s'agit principalement du théorème de la limite centrale.
Théorème
On fixe \( \alpha\in ]0, 1[\) et \( 0{<}\beta{<}\alpha\) .
Soient \( n\in \N_{{>}0}\) et \( (X_1,\ldots, X_n)\) un échantillon d'une loi normale \( \mathcal{N}(\mu, \sigma)\) .
- Soit \( z_1=Q_{\mathcal{N}(0, 1)}(\beta)\) et \( z_2=Q_{\mathcal{N}(0, 1)}(1-\alpha+\beta)\) . Si on connait la valeur de \( \sigma\) , \[\left[\overline{X_n}-z_2\dfrac{\sigma}{\sqrt{n}} ; \overline{X_n}-z_1\dfrac{\sigma}{\sqrt{n}}\right]\] est un intervalle de confiance de niveau \( 1-\alpha\) de \( \mu\) .
- Soit \( t_1=Q_{\mathcal{T}_{n-1}}(\beta)\) et \( t_2=Q_{\mathcal{T}_{n-1}}(1-\alpha+\beta)\) . Si on ne connait pas la valeur de \( \sigma\) , \[\left[\overline{X_n}-t_2\sqrt{\dfrac{\overline{V_n}^{(1)}}{n-1}} ; \overline{X_n}-t_1\sqrt{\dfrac{\overline{V_n}^{(1)}}{n-1}} \right]\] est un intervalle de confiance de niveau \( 1-\alpha\) de \( \mu\) .
- Soit \( u_1=Q_{\chi^2_{n-1}}(\beta)\) et \( u_2=Q_{\chi^2_{n-1}}(1-\alpha+\beta)\) . \[\left[
\dfrac{n\overline{V_n}^{(1)}}{u_2} ; \dfrac{n\overline{V_n}^{(1)}}{u_1}
\right]\] est un intervalle de confiance de niveau \( 1-\alpha\) de \( \sigma^2\) .
Démonstration
On applique le même principe de preuve que le (affreux) théorème du précédent paragraphe et en appliquant le lemme, on a :
-
\begin{eqnarray*}
\dfrac{\sqrt{n}}{\sigma}\left(\overline{X_n}-\mu\right)\in [z_1 ; z_2]
&\Longleftrightarrow&
\overline{X_n}-\mu\in \left[z_1\dfrac{\sigma}{\sqrt{n}} ; z_2\dfrac{\sigma}{\sqrt{n}}\right]\\
&\Longleftrightarrow&
\mu-\overline{X_n}\in \left[-z_2\dfrac{\sigma}{\sqrt{n}} ; -z_1\dfrac{\sigma}{\sqrt{n}}\right]\\
&\Longleftrightarrow&
\mu\in \left[\overline{X_n}-z_2\dfrac{\sigma}{\sqrt{n}} ; \overline{X_n}-z_1\dfrac{\sigma}{\sqrt{n}}\right]
\end{eqnarray*}
-
\begin{eqnarray*}
\sqrt{\dfrac{n-1}{\overline{V_n}^{(1)}}}\left(\overline{X_n}-\mu\right)\in \left[t_1 ; t_2\right]
&\Longleftrightarrow&
\overline{X_n}-\mu\in \left[t_1\sqrt{\dfrac{\overline{V_n}^{(1)}}{n-1}} ; t_2\sqrt{\dfrac{\overline{V_n}^{(1)}}{n-1}}\right]\\
&\Longleftrightarrow&
\mu-\overline{X_n}\in \left[-t_2\sqrt{\dfrac{\overline{V_n}^{(1)}}{n-1}} ; -t_1\sqrt{\dfrac{\overline{V_n}^{(1)}}{n-1}}\right]\\
&\Longleftrightarrow&
\mu\in \left[\overline{X_n}-t_2\sqrt{\dfrac{\overline{V_n}^{(1)}}{n-1}} ; \overline{X_n}-t_1\sqrt{\dfrac{\overline{V_n}^{(1)}}{n-1}}\right]
\end{eqnarray*}
-
\begin{eqnarray*}
\dfrac{n\overline{V_n}^{(1)}}{\sigma^2}\in \left[u_1 ; u_2\right]
&\Longleftrightarrow&
\dfrac{\sigma^2}{n\overline{V_n}^{(1)}}\in \left[\dfrac{1}{u_2} ; \dfrac{1}{u_1}\right]\\
&\Longleftrightarrow&
{\sigma^2}\in \left[\dfrac{n\overline{V_n}^{(1)}}{u_2} ; \dfrac{n\overline{V_n}^{(1)}}{u_1}\right]
\end{eqnarray*}
1Le calcul numérique, permet de dire que si \( n\geqslant 30\) alors
\( n\) est suffisamment grand.
2Il pourrait même en avoir 500 millions, ça ne change rien au calcul.