Modélisation linéaire : cas de dimension \( n{>}2\)
Exemple introductif
On dispose de données sur une promotion de \( 120\) étudiants : le temps qu'ils passent à travailler, leur moyenne en mathématiques et leur moyenne en statistique :
\[
\begin{array}{|c|*{3}{|c}|}
\hline
\#&Temps&Math&Stat\\\hline\hline
1 & 88 & 8.33 & 5.84 \\\hline
2 & 123 & 9.15 & 9.13 \\\hline
3 & 28 & 3.08 & 4.93 \\\hline
4 & 209 & 11.65 & 11.34 \\\hline
5 & 296 & 14.92 & 14.64 \\\hline
6 & 168 & 8.88 & 8.96 \\\hline
7 & 135 & 7.82 & 9.16 \\\hline
8 & 231 & 15.5 & 12.58 \\\hline
9 & 251 & 13.69 & 11.08 \\\hline
10 & 107 & 6.15 & 6.84 \\\hline
11 & 40 & 0 & 0 \\\hline
12 & 263 & 15.18 & 14.32 \\\hline
13 & 62 & 8.6 & 5.1 \\\hline
14 & 220 & 14.18 & 10.1 \\\hline
15 & 130 & 7.67 & 9.92 \\\hline
16 & 106 & 7.32 & 6.23 \\\hline
17 & 135 & 11.53 & 6.57 \\\hline
18 & 121 & 7.73 & 10.5 \\\hline
19 & 37 & 3.11 & 5.46 \\\hline
20 & 110 & 7.57 & 6.17 \\\hline
21 & 91 & 8.27 & 7.78 \\\hline
22 & 96 & 9.6 & 7.39 \\\hline
23 & 223 & 12.82 & 10.8 \\\hline
24 & 132 & 7.0 & 5.83 \\\hline
25 & 175 & 8.97 & 11.39 \\\hline
26 & 161 & 9.82 & 8.75 \\\hline
27 & 239 & 15.25 & 13.9 \\\hline
28 & 72 & 4.39 & 1.03 \\\hline
29 & 158 & 10.61 & 10.41 \\\hline
30 & 16 & 2.87 & 1.32 \\\hline
31 & 224 & 11.85 & 9.07 \\\hline
32 & 273 & 15.87 & 12.45 \\\hline
33 & 178 & 9.66 & 10.93 \\\hline
34 & 186 & 13.11 & 14.72 \\\hline
35 & 111 & 8.73 & 7.7 \\\hline
36 & 223 & 10.46 & 14.0 \\\hline
37 & 285 & 16.22 & 16.99 \\\hline
38 & 219 & 8.42 & 7.77 \\\hline
39 & 134 & 4.27 & 11.09 \\\hline
40 & 106 & 5.85 & 4.49 \\\hline
\end{array}
\]
\[
\begin{array}{|c|*{3}{|c|}}
\hline
\#&Temps&Math&Stat\\\hline\hline
41 & 188 & 11.81 & 10.17 \\\hline
42 & 32 & 4.74 & 0.22 \\\hline
43 & 169 & 11.12 & 11.56 \\\hline
44 & 187 & 11.34 & 11.69 \\\hline
45 & 8 & 3.32 & 2.41 \\\hline
46 & 300 & 19.81 & 16.41 \\\hline
47 & 94 & 6.02 & 8.0 \\\hline
48 & 131 & 10.28 & 12.91 \\\hline
49 & 28 & 2.42 & 3.75 \\\hline
50 & 213 & 13.29 & 7.44 \\\hline
51 & 2 & 3.75 & 3.69 \\\hline
52 & 25 & 1.07 & 6.27 \\\hline
53 & 217 & 15.25 & 12.96 \\\hline
54 & 137 & 13.61 & 5.15 \\\hline
55 & 190 & 10.87 & 14.09 \\\hline
56 & 175 & 12.24 & 8.19 \\\hline
57 & 6 & 2.97 & 8.33 \\\hline
58 & 191 & 12.72 & 11.46 \\\hline
59 & 210 & 14.12 & 9.01 \\\hline
60 & 224 & 12.32 & 12.76 \\\hline
61 & 294 & 16.52 & 16.77 \\\hline
62 & 285 & 14.77 & 13.91 \\\hline
63 & 102 & 6.56 & 3.59 \\\hline
64 & 33 & 1.18 & 0 \\\hline
65 & 192 & 11.35 & 11.74 \\\hline
66 & 92 & 8.96 & 6.41 \\\hline
67 & 236 & 14.61 & 10.52 \\\hline
68 & 68 & 4.32 & 4.26 \\\hline
69 & 245 & 13.94 & 11.57 \\\hline
70 & 61 & 1.96 & 5.59 \\\hline
71 & 243 & 13.48 & 10.24 \\\hline
72 & 29 & 5.31 & 4.87 \\\hline
73 & 187 & 12.23 & 6.94 \\\hline
74 & 177 & 10.34 & 9.06 \\\hline
75 & 65 & 6.1 & 0.62 \\\hline
76 & 141 & 9.64 & 8.5 \\\hline
77 & 9 & 1.51 & 5.24 \\\hline
78 & 112 & 9.26 & 7.14 \\\hline
79 & 189 & 7.3 & 6.96 \\\hline
80 & 102 & 6.36 & 6.78 \\\hline
\end{array}
\]
\[
\begin{array}{|c|*{3}{|c|}}
\hline
\#&Temps&Math&Stat\\\hline\hline
81 & 295 & 18.58 & 12.56 \\\hline
82 & 292 & 17.68 & 15.56 \\\hline
83 & 267 & 18.32 & 11.49 \\\hline
84 & 73 & 7.8 & 7.03 \\\hline
85 & 41 & 4.3 & 3.7 \\\hline
86 & 59 & 8.49 & 7.66 \\\hline
87 & 106 & 6.08 & 6.27 \\\hline
88 & 30 & 0.94 & 4.02 \\\hline
89 & 244 & 17.63 & 8.87 \\\hline
90 & 99 & 7.55 & 2.67 \\\hline
91 & 168 & 8.01 & 8.68 \\\hline
92 & 265 & 17.49 & 15.03 \\\hline
93 & 179 & 12.94 & 12.89 \\\hline
94 & 29 & 4.68 & 3.69 \\\hline
95 & 258 & 17.89 & 12.66 \\\hline
96 & 112 & 7.89 & 6.91 \\\hline
97 & 35 & 4.07 & 3.31 \\\hline
98 & 141 & 7.66 & 7.12 \\\hline
99 & 238 & 15.28 & 13.77 \\\hline
100 & 31 & 3.8 & 4.35 \\\hline
101 & 161 & 7.79 & 7.06 \\\hline
102 & 156 & 11.69 & 10.64 \\\hline
103 & 135 & 6.45 & 7.15 \\\hline
104 & 141 & 10.62 & 9.43 \\\hline
105 & 60 & 4.52 & 5.27 \\\hline
106 & 124 & 6.35 & 9.04 \\\hline
107 & 110 & 9.19 & 6.62 \\\hline
108 & 209 & 9.09 & 9.38 \\\hline
109 & 119 & 8.75 & 7.68 \\\hline
110 & 253 & 13.23 & 12.32 \\\hline
111 & 112 & 7.29 & 6.63 \\\hline
112 & 281 & 14.67 & 13.4 \\\hline
113 & 262 & 15.92 & 13.55 \\\hline
114 & 289 & 17.49 & 14.23 \\\hline
115 & 42 & 2.39 & 2.04 \\\hline
116 & 297 & 15.31 & 14.58 \\\hline
117 & 67 & 7.15 & 4.92 \\\hline
118 & 94 & 7.34 & 5.77 \\\hline
119 & 258 & 17.12 & 11.08 \\\hline
120 & 159 & 7.93 & 6.89 \\\hline
\end{array}
\]
On peut commencer à réaliser une études en étudiants les caractères, deux par deux : le temps et la moyenne de math, le temps et la moyenne de stat et la moyenne de math et la moyenne de stat. A cette fin, on utilise les outils que nous avons développé lors dans le cas de la "dimension 2". Voici ce que l'analyse donne.
- Notes de math en fonction du temps.
-
On a que \( R^2=0.85163\) ce qui prouve que le modèle est bon. Les estimations ponctuelles donnent : \[\hat{a}=0.05112\quad\hat{b}=1.91537\]
De même on estime la variance du terme d'erreur : \( \hat{\sigma}=3.2522\) .On en déduit les intervalles de confiance (symétrique) à l'aide de loi de Student à 118 degrés de liberté :
- Niveau 95% :
- \[a\in [0.04723;0.05502]\qquad b\in [1.58911;2.24163]\]
- Niveau 99% :
- \[a\in [0.04598;0.05627]\qquad b\in [1.48403;2.34671]\]
- Notes de stat en fonction du temps.
-
On a que \( R^2=0.73994\) ce qui prouve que le modèle est bon. Les estimations ponctuelles donnent : \[\hat{a}=0.04045\quad\hat{b}=2.49993\]
De même on estime la variance du terme d'erreur : \( \hat{\sigma}=4.10682\) .On en déduit les intervalles de confiance (symétrique) à l'aide de loi de Student à 118 degrés de liberté :
- Niveau 95% :
- \[a\in [0.03608;0.04482]\qquad b\in [2.1333;2.86656]\]
- Niveau 99% :
- \[a\in [0.03467;0.04623]\qquad b\in [2.01522;2.98464]\]
- Notes de stat en fonction des notes de math.
-
On a que \( R^2=0.67835\) ce qui prouve que le modèle est bon. Les estimations ponctuelles donnent : \[\hat{a}=0.69909\quad\hat{b}=1.86883\]
De même on estime la variance du terme d'erreur : \( \hat{\sigma}=5.0794\) .On en déduit les intervalles de confiance (symétrique) à l'aide de loi de Student à 118 degrés de liberté :
- Niveau 95% :
- \[a\in [0.61133;0.78685]\qquad b\in [1.36966;2.368]\]
- Niveau 99% :
- \[a\in [0.58307;0.81511]\qquad b\in [1.20889;2.52877]\]
Évidemment les étudiants qui passent du temps à étudier ont de bonnes notes en mathématiques et en statistiques. Mais les statistiques utilisant des outils mathématiques plus des concept propre à cette matière, il est raisonnable de penser que les notes de stat sont "en lien" avec non seulement le temps de travail des étudiants mais aussi de leur niveau en math. Nous sommes donc naturellement amené à penser qu'il existe une règle de la forme
\[s_i=a+bt_i+cm_i\]
En imitant ce que nous avons fait au précédent chapitre, nous pouvons modéliser le problème en rajoutant un terme d'erreur et donc arriver au modèle linéaire :
\[S_i=a+bt_i+cm_i+\varepsilon_i\]
où \( \varepsilon_i\sim\mathcal{N}(0, \sigma)\) .
L'idée n'est pas du tout de reproduire le schéma précédent mais d'utiliser les technologies mathématiques pour exprimer ce modèle dans l'univers qui lui conviens le mieux : celui des matrices.
Avant de généraliser en dimension \( n\) quelconque, détaillons sur cet exemple.
Formulation matricielle : l'exemple
On choisi de réécrire Le modèle \( S_i=a+bt_i+cm_i+\varepsilon_i\) sous la forme \( S=Xm+e\) où, dans le cas de notre exemple, on a précisément :
\[
\begin{pmatrix}
S_1\\
S_2\\
S_3\\
S_{4}\\
S_{5}\\
S_{6}\\
S_{7}\\
S_{8}\\
S_{9}\\
S_{10}\\
S_{11}\\
S_{12}\\
S_{13}\\
S_{14}\\
S_{15}\\
S_{16}\\
S_{17}\\
S_{18}\\
S_{19}\\
S_{20}\\
\vdots
\end{pmatrix}
=
\begin{pmatrix}
1 & 88 & 8.33\\
1 & 123 & 9.15\\
1 & 28 & 3.08\\
1 & 209 & 11.65\\
1 & 296 & 14.92\\
1 & 168 & 8.88\\
1 & 135 & 7.82\\
1 & 231 & 15.5\\
1 & 251 & 13.69\\
1 & 107 & 6.15\\
1 & 40 & 0\\
1 & 263 & 15.18\\
1 & 62 & 8.6\\
1 & 220 & 14.18\\
1 & 130 & 7.67\\
1 & 106 & 7.32\\
1 & 135 & 11.53\\
1 & 121 & 7.73\\
1 & 37 & 3.11\\
\vdots & \vdots & \vdots
\end{pmatrix}
\begin{pmatrix}
a\\b\\c
\end{pmatrix}
+
\begin{pmatrix}
\varepsilon_1\\
\varepsilon_2\\
\varepsilon_3\\
\varepsilon_{4}\\
\varepsilon_{5}\\
\varepsilon_{6}\\
\varepsilon_{7}\\
\varepsilon_{8}\\
\varepsilon_{9}\\
\varepsilon_{10}\\
\varepsilon_{11}\\
\varepsilon_{12}\\
\varepsilon_{13}\\
\varepsilon_{14}\\
\varepsilon_{15}\\
\varepsilon_{16}\\
\varepsilon_{17}\\
\varepsilon_{18}\\
\varepsilon_{19}\\
\varepsilon_{20}\\
\vdots
\end{pmatrix}
\]
Ainsi au lieu de chercher les trois paramètre \( a\) , \( b\) et \( c\) "en dimension 1", on c'est ramener à déterminer un seul paramètre vectoriel \( m\) ici de dimension 3.
Exactement comme dans le paragraphe précédent, on cherche à minimiser les termes d'erreurs \( \varepsilon_i\) précisément :
\[\sum \varepsilon_i^2\]
Pour cela, encore une fois, plaçons nous dans le cadre vectoriel de l'équation \( S=Xm+e\) et on observe que
\[\sum \varepsilon_i^2={\vphantom{e}}^{t}{e}e\]
où \( {\vphantom{M}}^{t}{M}\) désigne la transposée de la matrice \( M\) , c'est à dire l'opération qui inverse les lignes et les colonnes.
Matriciellement (tout comme si on était en dimension 1 avec des nombres réels), \( S=Xm+e\) implique que \( e=S-Xm\) . Laissons nous guider par les calculs :
\begin{eqnarray*}
{\vphantom{e}}^{t}{e}e
&=&{\vphantom{\left(S-Xm\right)}}^{t}{\left(S-Xm\right)}\left(S-Xm\right)\\
&=&\left({\vphantom{S}}^{t}{S}-{\vphantom{(Xm)}}^{t}{(Xm)}\right)\left(S-Xm\right)\\
&=&\left({\vphantom{S}}^{t}{S}-{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}\right)\left(S-Xm\right)\\
&=&{\vphantom{S}}^{t}{S}S-{\vphantom{S}}^{t}{S}Xm-{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S+{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}Xm
\end{eqnarray*}
Observons les termes de cette dernière expression.
\( {\vphantom{S}}^{t}{S}S=\sum S_i^2\)
\begin{eqnarray*}
{\vphantom{S}}^{t}{S}Xm&=&\begin{pmatrix}
S_1 & S_2 & S_3 & S4 &\cdots
\end{pmatrix}
\begin{pmatrix}
1 & 88 & 8.33\\
1 & 123 & 9.15\\
1 & 28 & 3.08\\
1 & 209 & 11.65\\
\vdots & \vdots & \vdots
\end{pmatrix}
\begin{pmatrix}
a\\b\\c
\end{pmatrix}
\\
&=&\begin{pmatrix}
S_1 & S_2 & S_3 & S4 &\vdots
\end{pmatrix}
\begin{pmatrix}
a + 88b + 8.33c\\
a + 123b + 9.15c\\
a + 28b + 3.08c\\
a + 209b + 11.65c\\
\cdots
\end{pmatrix}\\
&=&S_1(a + 88b + 8.33c)+
S_2(a + 123b + 9.15c)+
S_3(a + 28b + 3.08c)+
S_4(a + 209b + 11.65c)+
\cdots
\end{eqnarray*}
\begin{eqnarray*}
{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S
&=&
\begin{pmatrix}
a&b&c
\end{pmatrix}
\begin{pmatrix}
1 & 1 & 1 & 1 & \cdots\\
88 & 123 & 28 & 209 & \cdots\\
8.33 & 9.15 & 3.08 & 11.65 & \cdots
\end{pmatrix}
\begin{pmatrix}
S_1\\
S_2\\
S_3\\
S_{4}\\
\vdots
\end{pmatrix}\\
&=&
\begin{pmatrix}
a&b&c
\end{pmatrix}
\begin{pmatrix}
S_1 & S_2 & S_3 & S_4 & \cdots\\
88S_1 & 123S_2 & 28S_3 & 209S_4 & \cdots\\
8.33S_1 & 9.15S_2 & 3.08S_3 & 11.65S_4 & \cdots
\end{pmatrix}
\\
&=&
(aS_1+88bS_1+8.33cS_1)
+(aS_2+123bS_2+9.15cS_2)
+(aS_3+28bS_3+3.08cS_3)
+(aS_4+209bS_4+11.65cS_4)
+\cdots
\end{eqnarray*}
En particulier, on observe, quitte à réordonner les termes, que \( {\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S={\vphantom{S}}^{t}{S}Xm\) .
\begin{eqnarray*}
{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}Xm
&=&
\begin{pmatrix}
a&b&c
\end{pmatrix}
\begin{pmatrix}
1 & 1 & 1 & 1 & \cdots\\
88 & 123 & 28 & 209 & \cdots\\
8.33 & 9.15 & 3.08 & 11.65 & \cdots
\end{pmatrix}
\begin{pmatrix}
1 & 88 & 8.33\\
1 & 123 & 9.15\\
1 & 28 & 3.08\\
1 & 209 & 11.65\\
\vdots & \vdots & \vdots
\end{pmatrix}
\begin{pmatrix}
a\\b\\c
\end{pmatrix}
\\
&=&
\begin{pmatrix}
a&b&c
\end{pmatrix}
\begin{pmatrix}
120 & 18042 &1152.24\\
18042& 3555336 &216323.34\\
1152.24 & 216323.34& 13650.2368
\end{pmatrix}
\begin{pmatrix}
a\\b\\c
\end{pmatrix}\\
&=&120 a^2 + 36084 a b + 3555336 b^2 + 2304.48 a c + 432647. b c + 13650.2 c^2
\end{eqnarray*}
On commence à sentir les notations s'appesantir... Finalement grâce à l'observation \( {\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S={\vphantom{S}}^{t}{S}Xm\) , on a, plus simplement \[{\vphantom{e}}^{t}{e}e={\vphantom{S}}^{t}{S}S-2{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S+{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}Xm\]
Demander de minimiser cette égalité reviens à se demander pour quelle valeurs de \( m\) on a \( \dfrac{\partial {\vphantom{e}}^{t}{e}e}{\partial m}=0\) . En dérivant "comme si \( m\) était une variable"
1 on arrive à
\[\dfrac{\partial {\vphantom{e}}^{t}{e}e}{\partial m}=0
\quad\Longleftrightarrow\quad
-2{\vphantom{X}}^{t}{X}S+2{\vphantom{X}}^{t}{X}Xm=0
\quad\Longleftrightarrow\quad
{\vphantom{X}}^{t}{X}Xm={\vphantom{X}}^{t}{X}S
\quad\Longleftrightarrow\quad
m=({\vphantom{X}}^{t}{X}X)^{-1}{\vphantom{X}}^{t}{X}S
\]
A condition que \( {\vphantom{X}}^{t}{X}X\) soit inversible, ce qui est le cas dans notre exemple. On trouve :
\[m=({\vphantom{X}}^{t}{X}X)^{-1}{\vphantom{X}}^{t}{X}S=
\begin{pmatrix}
2.1734001594080326\\
0.03173376655529636\\
0.17047782118341104
\end{pmatrix}
\]
ce qui se lit en ligne par des estimations (en regardant les réalisations de \( S\) ) \( \hat{a}=2.1734001594080326\) ,
\( \hat{b}=0.03173376655529636\) et \( \hat{c}=0.17047782118341104\) .
Bien on trouve des valeurs... mais est-ce que le modèle est bon ? En d'autre terme dans ce cadre, quel est l'équivalent du \( R^2\) .
Dans le cadre classique, \( R^2=\dfrac{\dpl{\sum (\hat{y_i}-\overline{y})^2}}{\dpl{\sum(y_i-\overline{y})^2}}\) ce qui se transpose sans problème ici (mais trouve un lien moins évident avec la corrélation de Pearson). Dans notre exemple, on peut donc donner de la valeur à notre modèle par le calcul
\[R^2=\dfrac{\dpl{\sum (\hat{s_i}-\overline{s})^2}}{\dpl{\sum(s_i-\overline{s})^2}}=\dfrac{\dpl{\sum (\hat{a}+\hat{b}t_i+\hat{c}m_i-\overline{s})^2}}{\dpl{\sum(s_i-\overline{s})^2}}\simeq 0.74592\]
On peut raisonnablement penser que le modèle est correcte.
Ca suffit ! On a compris que tout les outils que nous avions en dimension 2 se transpose assez facilement avec le langage matricielle. Estimateurs, \( R^2\) et tout leur petit copain se transposent assez bien.
Formulation matricielle
On généralise donc les observations et résultats établie précédemment. Dans ce contexte, on cherche à établir une relation linéaire simple entre une variable endogène à l'aide de \( p\) variables exogènes.
Définition
Soient \( p\) données statistiques \( x_k=(x_{1, k}, \ldots, x_{n, k})\) et \( y=(y_1, \ldots, y_n)\) des données statistiques.
Les variables \( x_k\) sont appelées variables exogènes ou expliquées.
La variable \( y\) est appelée variable endogène ou à expliquer.
Une modélisation linéaire multiple consiste à considérer les variables aléatoires
\[
Y_i=a_0+a_1x_{i, 1}+a_2x_{i, 2}+\cdots+a_px_{i, p}+\varepsilon_i
\]
où es \( \varepsilon_i\) sont des variables aléatoires i.i.d. appelés termes d'erreurs et suivent une loi normale \( \mathcal{N}(0, \sigma)\) .
Comme dans le cas de la dimension \( 2\) on suppose qu'il y a indépendance entre les termes d'erreurs et les variables exogène.
Proposition
Avec les notations de la définition précédente, un modèle linéaire multiple
\[
Y_i=a_0+a_1x_{i, 1}+a_2x_{i, 2}+\cdots+a_px_{i, p}+\varepsilon_i
\]
est équivalent à
\[
Y=xm+e
\]
Où \( x\) est une matrice à \( n\) lignes et \( p+1\) colonnes, \( m\) le vecteur a estimer de dimension \( p+1\) et \( e\) est un vecteur gaussien de dimension \( n\) .
Démonstration
\[
x=
\begin{pmatrix}
1&x_{1, 1}& x_{1, 2} & \cdots x_{1, p}\\
1&x_{2, 1}& x_{2, 2} & \cdots x_{2, p}\\
\vdots &\vdots & \vdots & \vdots & \vdots \\
1&x_{n, 1}& x_{n, 2} & \cdots x_{n, p}\\
\end{pmatrix}
\]
\[
m=
\begin{pmatrix}
a_0\\
a_1\\
\vdots\\
a_p
\end{pmatrix}
\]
\[
e=
\begin{pmatrix}
\varepsilon_1\\
\varepsilon_2\\
\vdots\\
\varepsilon_n
\end{pmatrix}
\]
Remarque
On conserve le principe de notation : les minuscules pour les donnée déterminées et les majuscules pour les variables aléatoires.
Remarque
Comme nous l'avons observé avec l'exemple précédent, pour pouvoir estimer les paramètres, il est nécessaire que \( {\vphantom{x}}^{t}{x}x\) soit inversible. C'est une condition assez souvent respectée mais qui peut être source d'erreur. Demander que \( {\vphantom{x}}^{t}{x}x\) soit inversible équivaut à demander que \( x\) soit de rang maximale ; c'est à dire \( p+1\) où encore que \( det({\vphantom{x}}^{t}{x}x)\neq 0\) .
Remarque
Il est bien sure nécessaire que le nombre d'observation \( n\) soit strictement supérieur aux nombres de paramètre à estimer.
Ceci étant, on copie/colle les même énoncés, les preuves étant strictement identiques ou se déduisent des observations précédentes de l'exemple de ce chapitre.
Théorème
Avec les notations précédentes, \( e=Y-xm\) et le minimum de \( \dpl{{\vphantom{e}}^{t}{e}e}\) est atteint lorsque
\[m=\hat{m}\overset{def}{=}({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}y\]
Définition
Avec les notations précédentes, on appel résidu du modèle le vecteur \( \hat{e}=y-\hat{y}\) où \( \hat{y}=x\hat{m}\)
Définition
Avec les notations précédentes on définit le coefficient de détermination du modèle, noté \( R^2\) , par :
\[R_{x, y}^2=\dfrac{\dpl{\sum_{i=1}^n}(\hat{y_i}-\overline{y})^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}\]
Proposition
Avec les notations précédentes
\[R_{x, y}^2=\dfrac{\dpl{\sum_{i=1}^n}(\hat{y_i}-\overline{y})^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}=1-\dfrac{\dpl{\sum_{i=1}^n}(y_i-\hat{y}_i)^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}\]
En particulier \( R_{x, y}^2\in[0, 1]\) .
Proposition
Avec les notations précédentes,
\[M_n=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}Y\]
est un estimateur sans biais de \( m\) .
Démonstration
\begin{eqnarray*}
\Esp{M_n}
&=&\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}Y}\\
&=&\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}(xm+e)}\\
&=&\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}xm+({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e}\\
&=&({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}xm+\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e}\\
&=&m+\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e}\\
&=&m+({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}\underbrace{\Esp{e}}_{=0}\\
&=&m
\end{eqnarray*}
Pour réaliser de l'inférence statistiques il nous faut une forme de
covariance multivarié.
Matrice variance-covariance
Définition
Soit \( X\) un vecteur de probabilité. On définie la matrice de variance-covariance, notée \( \mathbb{V}\left(X\right)\) par la formule
\[\mathbb{V}\left(X\right)=\Esp{(X-\Esp{X}){\vphantom{(X-\Esp{X})}}^{t}{(X-\Esp{X})}}\]
Soit \( A\simeq\mathcal{N}(1; 1)\) et \( B=2A\) alors
\[\mathbb{V}\left(\begin{pmatrix}A\\ B\end{pmatrix}\right)=
\begin{pmatrix}
1 & 2\\
2 & 4
\end{pmatrix}
\]
Proposition
- La matrice de variance-covariance d'un vecteur aléatoire \( X\) vaut à l'intersection de la ligne \( i\) et de la colonne \( j\) \( Cov(X_i, X_j)\) .
- Les éléments diagonaux sont les variances des coordonnées du vecteurs aléatoires.
- La matrice de variance-covariance est symétrique à valeurs propres positives ou nulles.
Inférences des estimateurs
Dans le cas de la modélisation linéaire simple il existait un lien
simple entre variances des estimateurs \( \hat{a}\) et \( \hat{b}\) avec la variance des termes d'erreurs. C'est ce lien qui a permis de déterminer les intervalles de confiance et autres joyeusetés.
Essayons, dans le cadre multivarié, de déterminer ce lien.
Nous partons du modèle \( Y=xm+e\) où nous avons observé que \( M_n=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}Y\) est un estimateur sans biais mais pas (encore) convergent.
Proposition
Avec les notations précédentes,
\( \mathbb{V}\left(M_n\right)=\sigma^2({\vphantom{x}}^{t}{x}x)^{-1}\)
Démonstration
Commençons par rappeler que \( \varepsilon_i\) sont i. i. d. et de moyenne nulle. En particulier \( \mathbb{V}\left(e\right)=\sigma^2Id\) puisque \( Cov(\varepsilon_i, \varepsilon_j)=0\) pour \( i\neq j\) et \( Cov(\varepsilon_i, \varepsilon_j)=\sigma^2\) sinon.
Rappelons également que \( x\) est une donnée déterministe (non aléatoire).
De plus \( M_n-\Esp{M_n}=M_n-m=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}Y-m
=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}(xm+e)-m
=({\vphantom{x}}^{t}{x}x)^{-1}({\vphantom{x}}^{t}{x}x)m+({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e-m=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e\)
\begin{eqnarray*}
\mathbb{V}\left(M_n\right)
&=&\Esp{(M_n-\Esp{M_n}){\vphantom{(M_n-\Esp{M_n})}}^{t}{(M_n-\Esp{M_n})}}\\
&=&\Esp{\left(({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e\right){\vphantom{\left(({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e\right)}}^{t}{\left(({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e\right)}}\\
&=&\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e{\vphantom{e}}^{t}{e}x{\vphantom{(({\vphantom{x}}^{t}{x}x)^{-1}}}^{t}{(({\vphantom{x}}^{t}{x}x)^{-1}})}\\
&=&({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}\Esp{e{\vphantom{e}}^{t}{e}}x{\vphantom{(({\vphantom{x}}^{t}{x}x)^{-1}}}^{t}{(({\vphantom{x}}^{t}{x}x)^{-1}})\\
&=&({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}\sigma^2Id x{\vphantom{(({\vphantom{x}}^{t}{x}x)^{-1}}}^{t}{(({\vphantom{x}}^{t}{x}x)^{-1}})\\
&=&\sigma^2({\vphantom{x}}^{t}{x}x)^{-1}\underbrace{({\vphantom{x}}^{t}{x}x){\vphantom{(({\vphantom{x}}^{t}{x}x)^{-1}}}^{t}{(({\vphantom{x}}^{t}{x}x)^{-1}})}_{=Id}\\
&=&\sigma^2({\vphantom{x}}^{t}{x}x)^{-1}
\end{eqnarray*}
Corollaire
Si la matrice \( ({\vphantom{x}}^{t}{x}x)^{-1}\) tend vers la matrice nulle alors l'estimateur \( M_n\) est convergent.
Démonstration
Nous avons déjà observer que \( M_n\) est sans biais et par hypothèse sa variance tend vers \( 0\) . Donc \( M_n\) est un estimateur convergent.
De la même manière que la modélisation linéaire simple nous pouvons estimer le paramètre \( \sigma\) :
Théorème
Soit \( \supere=Y-\hat{y}\) , alors
\[\Esp{\supere}=(n-(p+1))\sigma^2\]
Démonstration
Admise
Corollaire
La variable aléatoire
\[S_n=\dfrac{{\vphantom{\supere}}^{t}{\supere}\supere}{n-(p+1)}\]
est un estimateur convergent et sans biais de \( \sigma^2\) .
De plus :
- \( S_n^M=S_n({\vphantom{x}}^{t}{x}x)^{-1}\) est un estimateur convergent et sans biais de \( \mathbb{V}\left(M_n\right)\) .
- En particulier, les coefficient diagonaux de \( S_n^M\) sont des estimateurs convergent et sans biais de la variance des coordonnées de \( M_n\) .
- \( (n-(p+1))\dfrac{S_n}{\sigma^2}\sim \chi^2(n-(p+1))\)
Démonstration
Il s'agit des même arguments que pour la modélisation linaire simple.
Corollaire
Soit \( (M_{n})_i\) la \( i\) -ieme coordonnée de \( M_n\) et \( S_i^M\) le coefficient diagonale de la \( i\) -ième ligne de \( S_n^m\)
La variable aléatoire \( \dfrac{M_{n, i}-m_i}{\sqrt{S_i^M}}\) suit une loi de Student à \( n-(p+1)\) degrés de libertés.
Démonstration
Il s'agit des même arguments que pour la modélisation linaire simple.
Corollaire
Soient \( 0{<}\beta{<}\alpha{<}1\) , \( t_1=Q_{\mathcal{T}(n-(p+1))}(\beta)\) et \( t_2=Q_{\mathcal{T}(n-(p+1))}(1-\alpha+\beta)\) alors
\[\left[(M_{n})_i-t_2\sqrt{S_i^M} ; (M_{n})_i-t_1\sqrt{S_i^M}\right]\] est un intervalle de confiance \( 1-\alpha\) de \( m_i\) .
Analyse multivarié de l'exemple introductif
Dans le cadre de notre exemple, on peut tenter un visualisation en trois dimension avec le temps de travail en abscisse, les notes en mathématiques en ordonnée et les notes de statistiques pour la côte.
De plus on a :
\[
{\vphantom{x}}^{t}{x}x=
\begin{pmatrix}
120&18042&1152.24\\
18042&3555336&216323.34\\
1152.24&216323.34&13650.2368
\end{pmatrix}
\]
\[
({\vphantom{x}}^{t}{x}x)^{-1}=
\begin{pmatrix}
0.04472&7.676 e-05&-0.005\\
7.676 e-05&8 e-06&0\\
-0.005&0&0.003
\end{pmatrix}
\]
On arrive alors a
\[
\hat{m}=\begin{pmatrix}
2.17\\
0.032\\
0.17
\end{pmatrix}=\begin{pmatrix}
\hat{a}\\
\hat{b}\\
\hat{c}
\end{pmatrix}
\]
On estime donc le modèle \( \hat{s}_i=\hat{a}+\hat{b}t_i+\hat{c}m_i\) .
On a
\( \dpl{R^2=\dfrac{\sum (\hat{s_i}-\overline{s})^2}{\sum (s_i-\overline{s})^2}\simeq 0.746}\) ce qui permet de dire que le modèle est viable.
Ce qui permet de déduire la matrice de variance covariance de l'estimateur \( M_n\) :
\[
\hat{\mathbb{V}\left(M_n\right)}=
\begin{pmatrix}
0.1809515800112538&0.0003106069843879191&-0.020196806317842753\\ 0.0003106069843879191&3.2362850206272714e-05&-0.0005390920134243928\\ -0.020196806317842753&-0.0005390920134243928&0.010544604304957319
\end{pmatrix}
\]
Ce qui permet d'obtenir les estimations de la variance de chacun des paramètres, par lecture des éléments diagonaux :
\( \hat{\sigma_a^2}=0.18095\) \( \Rightarrow\)
\( \hat{\sigma_b^2}=3.2 e-05\) \( \Rightarrow\)
\( \hat{\sigma_c^2}=0.01054\) \( \Rightarrow\)
\( \hat{\sigma_a}=0.42538\)
\( \hat{\sigma_b}=0.00569\)
\( \hat{\sigma_c}=0.10269\)
En utilisant la loi de Student à \( 117=120-3\) degrés de liberté, on obtient les intervalles de confiances symétrique de niveau \( 95\%\) des caractères à estimer :
\[a \in [1.331, 3.016]\]
\[b \in [0.02, 0.043]\]
\[c \in [-0.033, 0.374]\]
1Et c'est incroyable : c'est mathématiquement valide !