Estimateurs
Nous disposons d'une pièce mais ne savons pas si elle est truquée. Nous la lançons \( 10\) fois et faisons les observations suivantes :
\[P\quad P\quad F\quad P\quad F\quad P\quad P\quad F\quad P\quad F\]
Notons \( p\) la probabilité inconnue que la pièce tombe sur \( P\) . Naturellement, la fréquence empirique des observations permet d'approcher la valeur de \( p\) par \( \dfrac{6}{10}=0.6\) .
Mais \( 10\) nouveau lancer vont très certainement aboutir à d'autre issue et donc une autre valeur possible de \( p\) . De plus cette estimation de \( p\) , à quelle point est-elle proche de sa vraie valeur ?
Cadrons le concept d'estimation et construisons des solutions.
Notation et définition
Définition
Soient \( \Proba\) une loi de probabilité réelle et \( n\in \N_{{>}0}\) . On appel échantillon de la loi \( \Proba\) un \( n\) -uplet de variable aléatoire indépendante de même loi \( \Proba\) .
Il faut distinguer le mot échantillon correspondant classiquement en statistique aux données observées du mot que nous définissons ici : il s'agit d'un modèle probabiliste.
Il est d'accoutumé de noter les échantillons (du modèle) en majuscule et les donnés en minuscule. Ainsi \( (X_1, \ldots, X_n)\) est un échantillon d'une loi \( \Proba\) tandis que \( (x_1, \ldots, x_n)\) est une observation de donnée.
Dans la pratique, la loi \( \Proba\) dépend d'un paramètre inconnue \( \vartheta\) et c'est ce paramètre (réel) que l'on cherche a estimer.
Définition
Soit \( (X_1, \ldots, X_n)\) un échantillon d'une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) . Un estimateur \( T_n\) est une fonction de l'échantillon :
\[T_n=f(X_1, \ldots, X_n)\]
Une estimation de \( \vartheta\) est la valeur prise par l'estimateur sur une réalisation \( (x_1, \ldots, x_n)\) de l'échantillon.
\[\hat\vartheta=f(x_1,\ldots, x_n)\]
Un estimateur est une variable aléatoire fonction de l'échantillon et une réalisation de cette estimateur est appelée une estimation !
Dans l'absolue n'importe quelle fonction \( f\) serait acceptable. Mais il faut donner un sens au mot
estimer. C'est à dire se rapprocher de la vraie valeur de \( \vartheta\) .
Dans la cas de pièce dont on ne connait pas la valeur du paramètre \( p\) , nous avions
estimer, que cela pouvait être \( 0.6\) . Nous avons en effet considérer la fréquence empirique comme estimateur :
\[f(X_1, \ldots, X_n)=\dfrac{X_1+\cdots+X_n}{n}\]
En effet codifions
1 l'observation \[P\quad P\quad F\quad P\quad F\quad P\quad P\quad F\quad P\quad F\] par
\[1\quad 1\quad 0\quad 1\quad 0\quad 1\quad 1\quad 0\quad 1\quad 0\]
Alors \( \hat p=f(1, 1, 0, 1, 0, 1, 1, 0, 1, 0)=\dfrac{6}{10}\) .
La loi des grand nombre stipule que plus on va réaliser cette expérience (faire grandir \( n\) ), plus la valeur empirique de \( p\) (estimée ici par \( \hat p\) ) va se rapprocher de \( p\) . Cela motive la définition suivante.
Définition
Soient une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) et \( T_n\) un estimateur de \( \vartheta\) . On dira que \( T_n\) est un estimateur convergent si
\[\forall \epsilon {>}0, \ \lim{n\rightarrow +\infty}\Proba\left(\big|T_n-\vartheta\big|{>}\varepsilon\right)=0\]
Autrement dis : il est presque impossible, pour de grande valeur de \( n\) , que \( T_n\) s'éloigne de \( \vartheta\) .
On peut de plus composer les estimateurs par des fonctions continues.
Théorème
Soient une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) , \( T_n\) un estimateur de \( \vartheta\) et \( f\) une fonction continue sur \( \R\) . Alors \( f(T_n)\) est un estimateur convergent de \( f(\vartheta)\) .
Démonstration
Soit \( \Omega\) l'univers des possibilités.
L'hypothèse de continuité se traduit par :
\[\forall \varepsilon{>}0,\ \exists \eta_{\varepsilon}{>}0,\quad
\big(|x-\vartheta|\leqslant\eta_\varepsilon\Rightarrow|f(x)-f(\vartheta)|\leqslant \varepsilon\big)\]
En particulier la contraposé de l'implication est vraie, c'est à dire \( \big(|f(x)-f(\vartheta)|{>}\varepsilon \Rightarrow |x-\vartheta|{>}\eta_\varepsilon\big)\) . Notons
\[A_{n}=\left\{\omega\in\Omega\Big|\ |f\left(T_n(\omega)\right)-f(\vartheta)|{>}\varepsilon\right\}\]
\[B_{n}=\left\{\omega\in\Omega\Big|\ |T_n(\omega)-\vartheta|{>}\eta_\varepsilon\right\}\]
Alors l'hypothèse de continuité implique que \( A_n\subseteq B_n\) et l'hypothèse de convergence de l'estimateur \( T_n\) implique que \( \lim{n\rightarrow+\infty}\Proba_\vartheta(B_n)=0\) . Dans ce cas
\[\Proba_\vartheta\left(|f\left(T_n(\omega)\right)-f(\vartheta)|{>}\varepsilon\right)=\Proba_\vartheta(A_n)\leqslant \Proba_\vartheta(B_n)\]
En passant à la limite dans cette inégalité on obtient bien que \( \lim{n\rightarrow+\infty}\Proba_\vartheta\left(|f\left(T_n(\omega)\right)-f(\vartheta)|{>}\varepsilon\right)=0\) ce qui prouve que \( f(T_n)\) est un estimateur convergent de \( f(\vartheta)\) .
Voici un estimateur classique de l'espérance.
Proposition [Loi faible des grands nombre]
Soit \( (X_1, \ldots, X_n)\) un échantillon d'une loi \( \Proba\) d'espérance \( \mu\) . Alors
\[f(X_1, \ldots, X_n)=\dfrac{1}{n}\sum_{i=1}^nX_i\]
est un estimateur convergent de \( \mu\) .
Démonstration
C'est exactement la loi faible des grand nombre dont on pourra retrouver une preuve en annexe.
Dans la pratique on note \( \overline{X_n}\) cet estimateur.
Qualité d'un estimateur
Imaginons par exemple que le caractère
Age des données se trouvant en annexe suit une loi normale. Il y a deux paramètres à estimer : la moyenne et la variance. Mais la proposition précédente permet d'obtenir la moyenne en réalisant la moyenne empirique des ages : \( 17.57\) . Mais ce critère de convergence à la limite n'apporte pas d'information sur la véracité de cette estimation. On ignore à quel point l'estimation est loin/proche de la vrai valeur.
Définition
Soient une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) et \( T_n\) un estimateur de \( \vartheta\) . On appel erreur quadratique, noté \( EQ(T_n, \vartheta)\) l'espérance :
\[EQ(T_n, \vartheta)=\Esp{(T_n-\vartheta)^2}\]
Dans la pratique on cherche un estimateur avec l'erreur quadratique la plus faible.
Théorème
Soient une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) et \( T_n\) un estimateur de \( \vartheta\) .
Si \( \lim{n\rightarrow +\infty} EQ(T_n, \vartheta)=0\) alors \( T_n\) est un estimateur convergent de \( \vartheta\) .
Démonstration
L'inégalité de Markov stipule que pour tout réel \( a{>}0\) et pour toute variable aléatoire réelle \( Z\) presque surement positive on a \( \Proba(Z\geqslant a)\leqslant \dfrac{\Esp{Z}}{a}\) . Appliquons cette inégalité pour \( a=\varepsilon^2\) où \( \varepsilon{>}0\) est fixé et \( Z=|T_n-\vartheta|^2\) . On a alors
\[\Proba(|T_n-\vartheta|\geqslant \varepsilon)=\Proba(|T_n-\vartheta|^2\geqslant \varepsilon^2)\leqslant \dfrac{\Esp{|T_n-\vartheta|^2}}{\varepsilon^2}=\dfrac{EQ(T_n, \vartheta)}{\varepsilon^2}\]
Puisque l'erreur quadratique tend vers \( 0\) , il en va de même pour \( \Proba(|T_n-\vartheta|\geqslant \varepsilon)\) ce qui prouve que \( T_n\) est un estimateur convergent.
On mesure aussi la qualité d'un estimateur par la
vitesse dont il approche le paramètre.
Définition
Soient une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) et \( T_n\) un estimateur de \( \vartheta\) .
- Le biais de l'estimateur est
\[B(T_n, \vartheta)=\Esp{T_n-\vartheta}\]
- L'estimateur est dis sans biais si \( B(T_n, \vartheta)=0\) .
- L'estimateur est dis asymptotiquement sans biais si \( \lim{n\rightarrow+\infty}B(T_n, \vartheta)=0\) .
La linéarité de l'espérance permet de souligner que \( B(T_n,\vartheta)=\Esp{T_n}-\vartheta\) .
Proposition
Soient une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) et \( T_n\) un estimateur de \( \vartheta\) .
\[EQ(T_n, \vartheta)=\mathbb{V}\left(T_n\right)+B(T_n,\vartheta)^2\]
Démonstration
\begin{eqnarray*}
EQ(T_n, \vartheta)
&=&\Esp{(T_n-\vartheta)^2}\\
&=&\Esp{(T_n-\Esp{T_n}+\Esp{T_n}-\vartheta)^2}\\
&=&\Esp{(T_n-\Esp{T_n})^2+2(T_n-\Esp{T_n})(\Esp{T_n}-\vartheta)+(\Esp{T_n}-\vartheta)^2}\\
&=&\Esp{(T_n-\Esp{T_n})^2}+2\Esp{(T_n-\Esp{T_n})(\Esp{T_n}-\vartheta)}+\Esp{(\Esp{T_n}-\vartheta)^2}\\
&=&\mathbb{V}\left(T_n\right)+2\Esp{(T_n-\Esp{T_n})}(\Esp{T_n}-\vartheta)+(\Esp{T_n}-\vartheta)^2\\
&=&\mathbb{V}\left(T_n\right)+2{\Esp{T_n}-\Esp{T_n})}(\Esp{T_n}-\vartheta)+(B(T_n, \vartheta))^2\\
&=&\mathbb{V}\left(T_n\right)+B(T_n, \vartheta)^2
\end{eqnarray*}
Corollaire
Si un estimateur est asymptotiquement sans biais et que sa variance tend vers \( 0\) alors il est convergent.
Démonstration
Les hypothèses impliquent que l'erreur quadratique tend vers 0 ce qui implique que l'estimateur est convergent.
Intervalles de dispersion
L'erreur quadratique mesure la répartition de l'estimateur autour du paramètre. Les intervalles de dispersions permettent de raffiner l'information sur la qualité d'un estimateur.
Définition
Soit \( X\) une variable aléatoire réelle. La fonction quantile de \( X\) est définie par
\begin{eqnarray*}
Q_X : [0, 1]&\longrightarrow&\R\\
t&\longmapsto& min\left(u\in \R\Big| \Proba(X\leqslant u)\geqslant t\right)
\end{eqnarray*}
Dans le cas où \( X\) est une v.a.r discrète, \( Q_X(0.25)\) représente le premier quartile, \( Q_X(0.5)\) la médiane et \( Q_X(0.75)\) le troisième quartile.
Prenons par exemple une loi exponentielle de paramètre \( \lambda\) : \( X\sim\mathcal{E}(\lambda)\) . Alors pour tout \( u\geqslant 0\)
\begin{eqnarray*}
\Proba(X\leqslant u)
&=& \int_0^u\lambda e^{-\lambda x}\ dx\\
&=& \left[-e^{-\lambda x}\right]_0^u\\
&=& 1-e^{-\lambda u}
\end{eqnarray*}
Pour \( t\in[0, 1]\) fixé, on cherche le plus petit \( u\) tel que \( \Proba(X\leqslant u)\geqslant t\) c'est à dire le plus petit \( u\) tels que \( 1-e^{-\lambda u}\geqslant t\) . Cette inégalité équivaut à \( u\geqslant -\dfrac{1}{\lambda} ln(1-t)\) . Le plus petit \( u\) est donc trivialement \( -\dfrac{1}{\lambda} ln(1-t)\) . En conclusion
\[Q_{\mathcal{E}(\lambda)}(t)=-\dfrac{1}{\lambda} ln(1-t)\]
Lemme
La fonction quantile de n'importe quelle variable aléatoire réelle est croissante.
Démonstration
Soient \( 0\leqslant t_1\leqslant t_2\leqslant 1\) . Notons
\[A_i=\left\{u\in\R\Big| \Proba(X\leqslant u)\geqslant t_i\right\}\]
pour \( i\in\{1, 2\}\) .
Soit \( u\in A_2\) alors \( \Proba(X\leqslant u)\geqslant t_1\geqslant t_2\) et donc \( u\in A_2\) . Ceci implique que \( A_2\subseteq A_1\) et donc \( min(A_1)\leqslant min(A_2)\) soit encore \( Q_X(t_1)\leqslant Q_X(t_2)\) .
Ce lemme permet de justifier la définition suivante
2.
Définition
Soient \( X\) une variable aléatoire réelle et \( \alpha\in[0, 1]\) . Tout intervalle de la forme
\[\Big[Q_X(\beta) ; Q_X(1-\alpha+\beta)\Big]\]
où \( 0\leqslant\beta\leqslant \alpha\) est appelé intervalle de dispersion de niveau \( 1-\alpha\) .
L'amplitude de dispersion est la taille de l'intervalle \( Q_X(1-\alpha+\beta)-Q_X(\beta)\) .
Par exemple, avec \( X\sim\mathcal{E}(\lambda)\) , les intervalles de dispersions de niveau \( 1-\alpha\) ont pour forme \( \Big[-\dfrac{1}{\lambda} ln(1-\beta) ; -\dfrac{1}{\lambda} ln(\alpha-\beta)\Big]\) . Leurs amplitudes sont \( \dfrac{1}{\lambda}ln\left(\dfrac{1-\beta}{\alpha-\beta}\right)\) .
Remarque
Lorsque la variable \( X\) est discrète (càd définie sur \( \N\) ), on corrige les erreurs d'arrondi en remplaçant la borne droite
\( Q_X(1-\alpha+\beta)\) par \( Q_X(1-\alpha+\beta)+1\) .
Proposition
Soient \( X\) une variable aléatoire réelle, \( \alpha\in[0, 1]\) et \( 0\leqslant \beta \leqslant \alpha\) .
\[\Proba\left(X\in \Big[Q_X(\beta) ; Q_X(1-\alpha+\beta)\Big]\right)= 1-\alpha\]
Démonstration
Pour simplifier, supposons que le minimum est atteint, c'est à dire
\( \Proba(X\leqslant Q_X(t))=t\) .
\begin{eqnarray*}
\Proba\left(X\in \Big[Q_X(\beta) ; Q_X(1-\alpha+\beta)\Big]\right)
&=&\Proba\left(Q_X(\beta) \leqslant X\leqslant Q_X(1-\alpha+\beta)\right)\\
&=&\Proba\left(X\leqslant Q_X(1-\alpha+\beta)\right)-\Proba\left(X\leqslant Q_X(\beta)\right)\\
&=&1-\alpha+\beta-\beta\\
&=&1-\alpha
\end{eqnarray*}
Définition
Un intervalle de dispersion de niveau \( 1-\alpha\) sera dit :
- \( \rightarrow\)
- unilatérale inférieur si \( \beta=0\) ,
- \( \rightarrow\)
- unilatérale supérieur si \( \beta=\alpha\) ,
- \( \rightarrow\)
- symétrique si \( \beta=\dfrac{\alpha}{2}\) ,
- \( \rightarrow\)
- optimal si son amplitude est minimale.
Par exemple, toujours avec une loi exponentielle de paramètre \( \lambda\) les intervalles de niveau \( 1-\alpha\)
- \( \rightarrow\)
- unilatérale inférieur ont pour forme \( \Big[0 ; -\dfrac{1}{\lambda} ln(\alpha)\Big]\)
- \( \rightarrow\)
- unilatérale supérieur ont pour forme \( \Big[-\dfrac{1}{\lambda} ln(1-\alpha) ; +\infty\Big[\)
- \( \rightarrow\)
- symétrique ont pour forme \( \Big[-\dfrac{1}{\lambda} ln\left(1-\dfrac{\alpha}{2}\right) ; -\dfrac{1}{\lambda} ln\left(\dfrac{\alpha}{2}\right)\Big]\)
- \( \rightarrow\)
- optimaux sont les intervalles unilatérale supérieur. En effet on peut sans peine démontrer que \( \beta\mapsto\dfrac{1}{\lambda}ln\left(\dfrac{1-\beta}{\alpha-\beta}\right)\) atteint son minimum lorsque \( \beta=\alpha\) .
Classiquement \( \alpha\) prend la valeur \( 0.05\) .
Lemme
Soient \( t\in [0, 1]\) et \( Q_X\) a fonction quantile d'une variable aléatoire discrète.
- \( \Proba(X\leqslant u_0)\geqslant t\Rightarrow Q_X(t)\leqslant u_0\) .
- \( \Proba(X\leqslant u_0) {<} t\Rightarrow Q_X(t)\geqslant u_0\) .
Démonstration
- Par définition \( Q_X(t)\) est le plus petit \( u\) tel que \( \Proba(X\leqslant u)\geqslant t\) de sorte que si \( u_0\) vérifie aussi cette propriété il est nécessairement supérieur à ce minimum.
- Si \( Q_X(t){<} u_0\) alors (car la fonction de répartition \( u\mapsto \Proba(X\leqslant u)\) est croissante) \( \Proba(X\leqslant u_0)\geqslant \Proba(X\leqslant Q_X(t))\geqslant t\) ce qui contredit \( \Proba(X\leqslant u_0) {<} t\) .
Théorème
Soient une loi de probabilité \( \Proba_\vartheta\) dépendant d'un paramètre \( \vartheta\) et \( T_n\) un estimateur de \( \vartheta\) .
L'estimateur \( T_n\) est convergent si et seulement si
\[\forall 0{<} \beta{<} \alpha,
\ \forall \varepsilon{>}0,
\ \exists N{>}0,
\ \left(n{>}N \Rightarrow \Big[Q_{T_n}(\beta) ; Q_{T_n}(1-\alpha+\beta)\Big]\subseteq [\vartheta-\varepsilon ; \vartheta+\varepsilon]\right)\]
Démonstration
On a les équivalences suivantes :
\begin{eqnarray*}
\Proba_\vartheta(|T_n-\vartheta|{>}\varepsilon)\rightarrow0
&\Longleftrightarrow& \Proba_\vartheta(|T_n-\vartheta|\leqslant \varepsilon)\rightarrow1\\
&\Longleftrightarrow& \Proba_\vartheta(\vartheta-\varepsilon \leqslant T_n\leqslant \vartheta + \varepsilon)\rightarrow 1\\
&\Longleftrightarrow& \Proba_\vartheta(T_n\leqslant \vartheta + \varepsilon)-\Proba_\vartheta(T_n\leqslant \vartheta - \varepsilon)\rightarrow 1\\
&\Longleftrightarrow& \big( \Proba_\vartheta(T_n\leqslant \vartheta - \varepsilon)\rightarrow 0\big) \et \big(\Proba_\vartheta(T_n\leqslant \vartheta + \varepsilon)\rightarrow 1\big)
\end{eqnarray*}
Cette dernière implication s'observe par contraposée : si \( \Proba_\vartheta(T_n\leqslant \vartheta - \varepsilon)\) tend vers \( l\neq 0\) alors, puisque \( \Proba_\vartheta(T_n\leqslant \vartheta + \varepsilon)\leqslant1\) , on a \( \Proba_\vartheta(T_n\leqslant \vartheta + \varepsilon)-\Proba_\vartheta(T_n\leqslant \vartheta - \varepsilon)\rightarrow l'\leqslant 1-l\neq 1\) .
- Premier cas.
- Supposons que \( T_n\) soit un estimateur convergent. C'est à dire que \( \Proba_\vartheta(T_n\leqslant \vartheta - \varepsilon)\rightarrow 0\) et \( \Proba_\vartheta(T_n\leqslant \vartheta + \varepsilon)\rightarrow 1\) .
- \( \bullet\)
- Puisque \( \Proba_\vartheta(T_n\leqslant \vartheta - \varepsilon)\rightarrow 0\) , alors pour \( n\) suffisamment grand, puisque \( \beta{>}0\) , on a \( \Proba(T_n\leqslant \vartheta - \varepsilon){<} \beta\) ce qui implique, d'après le précédent lemme \( \boxed{Q_{T_n}(\beta)\geqslant \vartheta-\varepsilon}\)
- \( \bullet\)
- De la même manière puisque \( \alpha-\beta{>}0\) le passage au complémentaire permet d'écrire les implications suivantes pour \( n\) suffisamment grand :
\begin{eqnarray*}
\Proba_\vartheta(T_n\leqslant \vartheta + \varepsilon)\rightarrow 1
&\Longrightarrow& \Proba_\vartheta(T_n{>} \vartheta + \varepsilon)\rightarrow 0\\
&\Longrightarrow& \Proba_\vartheta(T_n{>} \vartheta + \varepsilon)\leqslant \alpha-\beta\\
&\Longrightarrow& \Proba_\vartheta(T_n\leqslant \vartheta + \varepsilon){>} 1-(\alpha-\beta)
\end{eqnarray*}
ce qui prouve d'après le précédent lemme que \( \boxed{Q_{T_n(1-\alpha+\beta)}\leqslant \vartheta+\varepsilon}\) .
Ces deux inégalités permettent d'écrire
\[\vartheta-\varepsilon \leqslant Q_{T_n}(\beta)\leqslant Q_{T_n}(1-\alpha+\beta)\leqslant\vartheta+\varepsilon\]
ce qui prouve que \( \Big[Q_{T_n}(\beta) ; Q_{T_n}(1-\alpha+\beta)\Big]\subseteq [\vartheta-\varepsilon ; \vartheta+\varepsilon]\) .
- Second cas.
- Supposons que pour tout \( 0{<}\alpha{<}\beta\) et pour \( n\) suffisamment grand on a \( \Big[Q_{T_n}(\beta) ; Q_{T_n}(1-\alpha+\beta)\Big]\subseteq [\vartheta-\varepsilon ; \vartheta+\varepsilon]\) . Cette inclusion équivaut aux inégalités \[\vartheta-\varepsilon \leqslant Q_{T_n}(\beta)\leqslant Q_{T_n}(1-\alpha+\beta)\leqslant\vartheta+\varepsilon\]
- \( \bullet\)
- Soit \( l\) la limite de \( \Proba_\vartheta(T_n\leqslant \vartheta-\varepsilon)\) . Si \( l\neq 0\) alors pour \( n\) suffisamment grand \( \Proba_\vartheta(T_n\leqslant \vartheta-\varepsilon)\geqslant \dfrac{l}{3}\) (pourquoi pas) ce qui implique d'après le lemme que \( Q_{T_n}\left(\dfrac{l}{3}\right)\leqslant \vartheta-\varepsilon\) et contredit l'inégalité \( \vartheta-\varepsilon \leqslant Q_{T_n}(\beta)\) pour \( \beta=\dfrac{l}{3}\) (puisque cela doit être vraie pour tout \( \beta{>}0\) et que \( l\neq0\) ). On a donc nécessairement \( \boxed{\Proba_\vartheta(T_n\leqslant \vartheta-\varepsilon)\rightarrow 0}\) .
- \( \bullet\)
- Soit \( \alpha =\dfrac{1}{k}\) et \( \beta=\dfrac{1}{2k}\) . Les inégalités impliquent que pour tout \( k\) et pour \( n\) suffisamment grand (qui peut varier avec \( k\) ), \( Q_{T_n}\left(1-\dfrac{1}{2k}\right)\leqslant\vartheta+\varepsilon\) . Puisque la fonction de répartition est croissante, on a
\[1\geqslant \Proba_\vartheta(T_n\leqslant \vartheta+\varepsilon)\geqslant \Proba_\vartheta\left(T_n\leqslant Q_{T_n}\left(1-\dfrac{1}{2k}\right)\right)\geqslant 1-\dfrac{1}{2k}\]
Ainsi pour tout \( k\in \N_{{>}0}\) , il existe \( N_k\) suffisamment grand tel que pour tout \( n{>}N_k\) , \( 1\geqslant \Proba_\vartheta(T_n\leqslant \vartheta+\varepsilon)\geqslant 1-\dfrac{1}{2k}\) . En passant à la limite lorsque \( k\) tend vers \( +\infty\) alors \( n_k\) tend vers \( +\infty\) (c'est un changement de variable), on trouve que \( \boxed{\Proba_\vartheta(T_n\leqslant \vartheta+\varepsilon)\rightarrow 1}\)
D'après l'équivalence introduite au début de la preuve, cela signifie que \( T_n\) est un estimateur convergent.
1Principalement parce que nous travaillons avec des variables quantitatives
2Puisque \( \alpha\leqslant 1\) , \( 1-\alpha\geqslant 0\) et donc \( 1-\alpha+\beta\geqslant \beta\)