\( %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Mes commandes %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% \newcommand{\multirows}[3]{\multirow{#1}{#2}{$#3$}}%pour rester en mode math \renewcommand{\arraystretch}{1.3}%pour augmenter la taille des case \newcommand{\point}[1]{\marginnote{\small\vspace*{-1em} #1}}%pour indiquer les points ou le temps \newcommand{\dpl}[1]{\displaystyle{#1}}%megamode \newcommand{\A}{\mathscr{A}} \newcommand{\LN}{\mathscr{N}} \newcommand{\LL}{\mathscr{L}} \newcommand{\K}{\mathbb{K}} \newcommand{\N}{\mathbb{N}} \newcommand{\Z}{\mathbb{Z}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\M}{\mathcal{M}} \newcommand{\D}{\mathbb{D}} \newcommand{\E}{\mathcal{E}} \renewcommand{\P}{\mathcal{P}} \newcommand{\G}{\mathcal{G}} \newcommand{\Kk}{\mathcal{K}} \newcommand{\Cc}{\mathcal{C}} \newcommand{\Zz}{\mathcal{Z}} \newcommand{\Ss}{\mathcal{S}} \newcommand{\B}{\mathbb{B}} \newcommand{\inde}{\bot\!\!\!\bot} \newcommand{\Proba}{\mathbb{P}} \newcommand{\Esp}[1]{\dpl{\mathbb{E}\left(#1\right)}} \newcommand{\Var}[1]{\dpl{\mathbb{V}\left(#1\right)}} \newcommand{\Cov}[1]{\dpl{Cov\left(#1\right)}} \newcommand{\base}{\mathcal{B}} \newcommand{\Som}{\textbf{Som}} \newcommand{\Chain}{\textbf{Chain}} \newcommand{\Ar}{\textbf{Ar}} \newcommand{\Arc}{\textbf{Arc}} \newcommand{\Min}{\text{Min}} \newcommand{\Max}{\text{Max}} \newcommand{\Ker}{\text{Ker}} \renewcommand{\Im}{\text{Im}} \newcommand{\Sup}{\text{Sup}} \newcommand{\Inf}{\text{Inf}} \renewcommand{\det}{\texttt{det}} \newcommand{\GL}{\text{GL}} \newcommand{\crossmark}{\text{\ding{55}}} \renewcommand{\checkmark}{\text{\ding{51}}} \newcommand{\Card}{\sharp} \newcommand{\Surligne}[2]{\text{\colorbox{#1}{ #2 }}} \newcommand{\SurligneMM}[2]{\text{\colorbox{#1}{ #2 }}} \newcommand{\norm}[1]{\left\lVert#1\right\rVert} \renewcommand{\lim}[1]{\underset{#1}{lim}\,} \newcommand{\nonor}[1]{\left|#1\right|} \newcommand{\Un}{1\!\!1} \newcommand{\sepon}{\setlength{\columnseprule}{0.5pt}} \newcommand{\sepoff}{\setlength{\columnseprule}{0pt}} \newcommand{\flux}{Flux} \newcommand{\Cpp}{\texttt{C++\ }} \newcommand{\Python}{\texttt{Python\ }} %\newcommand{\comb}[2]{\begin{pmatrix} #1\\ #2\end{pmatrix}} \newcommand{\comb}[2]{C_{#1}^{#2}} \newcommand{\arrang}[2]{A_{#1}^{#2}} \newcommand{\supp}[1]{Supp\left(#1\right)} \newcommand{\BB}{\mathcal{B}} \newcommand{\arc}[1]{\overset{\rotatebox{90}{)}}{#1}} \newcommand{\modpi}{\equiv_{2\pi}} \renewcommand{\Re}{Re} \renewcommand{\Im}{Im} \renewcommand{\bar}[1]{\overline{#1}} \newcommand{\mat}{\mathcal{M}} \newcommand{\und}[1]{{\mathbf{\color{red}\underline{#1}}}} \newcommand{\rdots}{\text{\reflectbox{$\ddots$}}} \newcommand{\Compa}{Compa} \newcommand{\dint}{\dpl{\int}} \newcommand{\intEFF}[2]{\left[\!\left[#1 ; #2\right]\!\right]} \newcommand{\intEFO}[2]{\left[\!\left[#1 ; #2\right[\!\right[} \newcommand{\intEOF}[2]{\left]\!\left]#1 ; #2\right]\!\right]} \newcommand{\intEOO}[2]{\left]\!\left]#1 ; #2\right[\!\right[} \newcommand{\ou}{\vee} \newcommand{\et}{\wedge} \newcommand{\non}{\neg} \newcommand{\implique}{\Rightarrow} \newcommand{\equivalent}{\Leftrightarrow} \newcommand{\Ab}{\overline{A}} \newcommand{\Bb}{\overline{B}} \newcommand{\Cb}{\overline{C}} \newcommand{\Cl}{\texttt{Cl}} \newcommand{\ab}{\overline{a}} \newcommand{\bb}{\overline{b}} \newcommand{\cb}{\overline{c}} \newcommand{\Rel}{\mathcal{R}} \newcommand{\superepsilon}{\varepsilon\!\!\varepsilon} \newcommand{\supere}{e\!\!e} \makeatletter \newenvironment{console}{\noindent\color{white}\begin{lrbox}{\@tempboxa}\begin{minipage}{\columnwidth} \ttfamily \bfseries\vspace*{0.5cm}} {\vspace*{0.5cm}\end{minipage}\end{lrbox}\colorbox{black}{\usebox{\@tempboxa}} } \makeatother \def\ie{\textit{i.e. }} \def\cf{\textit{c.f. }} \def\vide{ { $ {\text{ }} $ } } %Commande pour les vecteurs \newcommand{\grad}{\overrightarrow{Grad}} \newcommand{\Vv}{\overrightarrow{v}} \newcommand{\Vu}{\overrightarrow{u}} \newcommand{\Vw}{\overrightarrow{w}} \newcommand{\Vup}{\overrightarrow{u'}} \newcommand{\Zero}{\overrightarrow{0}} \newcommand{\Vx}{\overrightarrow{x}} \newcommand{\Vy}{\overrightarrow{y}} \newcommand{\Vz}{\overrightarrow{z}} \newcommand{\Vt}{\overrightarrow{t}} \newcommand{\Va}{\overrightarrow{a}} \newcommand{\Vb}{\overrightarrow{b}} \newcommand{\Vc}{\overrightarrow{c}} \newcommand{\Vd}{\overrightarrow{d}} \newcommand{\Ve}[1]{\overrightarrow{e_{#1}}} \newcommand{\Vf}[1]{\overrightarrow{f_{#1}}} \newcommand{\Vn}{\overrightarrow{0}} \newcommand{\Mat}{Mat} \newcommand{\Pass}{Pass} \newcommand{\mkF}{\mathfrak{F}} \renewcommand{\sp}{Sp} \newcommand{\Co}{Co} \newcommand{\vect}[1]{\texttt{Vect}\dpl{\left( #1\right)}} \newcommand{\prodscal}[2]{\dpl{\left\langle #1\left|\vphantom{#1 #2}\right. #2\right\rangle}} \newcommand{\trans}[1]{{\vphantom{#1}}^{t}{#1}} \newcommand{\ortho}[1]{{#1}^{\bot}} \newcommand{\oplusbot}{\overset{\bot}{\oplus}} \SelectTips{cm}{12}%Change le bout des flèches dans un xymatrix \newcommand{\pourDES}[8]{ \begin{itemize} \item Pour la ligne : le premier et dernier caractère forment $#1#2$ soit $#4$ en base 10. \item Pour la colonne : les autres caractères du bloc forment $#3$ soit $#5$ en base 10. \item A l'intersection de la ligne $#4+1$ et de la colonne $#5+1$ de $S_{#8}$ se trouve l'entier $#6$ qui, codé sur $4$ bits, est \textbf{\texttt{$#7$}}. \end{itemize} } \)

Modélisation linéaire : cas de dimension \( n{>}2\)

Exemple introductif

On dispose de données sur une promotion de \( 120\) étudiants : le temps qu'ils passent à travailler, leur moyenne en mathématiques et leur moyenne en statistique : \[ \begin{array}{|c|*{3}{|c}|} \hline \#&Temps&Math&Stat\\\hline\hline 1 & 88 & 8.33 & 5.84 \\\hline 2 & 123 & 9.15 & 9.13 \\\hline 3 & 28 & 3.08 & 4.93 \\\hline 4 & 209 & 11.65 & 11.34 \\\hline 5 & 296 & 14.92 & 14.64 \\\hline 6 & 168 & 8.88 & 8.96 \\\hline 7 & 135 & 7.82 & 9.16 \\\hline 8 & 231 & 15.5 & 12.58 \\\hline 9 & 251 & 13.69 & 11.08 \\\hline 10 & 107 & 6.15 & 6.84 \\\hline 11 & 40 & 0 & 0 \\\hline 12 & 263 & 15.18 & 14.32 \\\hline 13 & 62 & 8.6 & 5.1 \\\hline 14 & 220 & 14.18 & 10.1 \\\hline 15 & 130 & 7.67 & 9.92 \\\hline 16 & 106 & 7.32 & 6.23 \\\hline 17 & 135 & 11.53 & 6.57 \\\hline 18 & 121 & 7.73 & 10.5 \\\hline 19 & 37 & 3.11 & 5.46 \\\hline 20 & 110 & 7.57 & 6.17 \\\hline 21 & 91 & 8.27 & 7.78 \\\hline 22 & 96 & 9.6 & 7.39 \\\hline 23 & 223 & 12.82 & 10.8 \\\hline 24 & 132 & 7.0 & 5.83 \\\hline 25 & 175 & 8.97 & 11.39 \\\hline 26 & 161 & 9.82 & 8.75 \\\hline 27 & 239 & 15.25 & 13.9 \\\hline 28 & 72 & 4.39 & 1.03 \\\hline 29 & 158 & 10.61 & 10.41 \\\hline 30 & 16 & 2.87 & 1.32 \\\hline 31 & 224 & 11.85 & 9.07 \\\hline 32 & 273 & 15.87 & 12.45 \\\hline 33 & 178 & 9.66 & 10.93 \\\hline 34 & 186 & 13.11 & 14.72 \\\hline 35 & 111 & 8.73 & 7.7 \\\hline 36 & 223 & 10.46 & 14.0 \\\hline 37 & 285 & 16.22 & 16.99 \\\hline 38 & 219 & 8.42 & 7.77 \\\hline 39 & 134 & 4.27 & 11.09 \\\hline 40 & 106 & 5.85 & 4.49 \\\hline \end{array} \] \[ \begin{array}{|c|*{3}{|c|}} \hline \#&Temps&Math&Stat\\\hline\hline 41 & 188 & 11.81 & 10.17 \\\hline 42 & 32 & 4.74 & 0.22 \\\hline 43 & 169 & 11.12 & 11.56 \\\hline 44 & 187 & 11.34 & 11.69 \\\hline 45 & 8 & 3.32 & 2.41 \\\hline 46 & 300 & 19.81 & 16.41 \\\hline 47 & 94 & 6.02 & 8.0 \\\hline 48 & 131 & 10.28 & 12.91 \\\hline 49 & 28 & 2.42 & 3.75 \\\hline 50 & 213 & 13.29 & 7.44 \\\hline 51 & 2 & 3.75 & 3.69 \\\hline 52 & 25 & 1.07 & 6.27 \\\hline 53 & 217 & 15.25 & 12.96 \\\hline 54 & 137 & 13.61 & 5.15 \\\hline 55 & 190 & 10.87 & 14.09 \\\hline 56 & 175 & 12.24 & 8.19 \\\hline 57 & 6 & 2.97 & 8.33 \\\hline 58 & 191 & 12.72 & 11.46 \\\hline 59 & 210 & 14.12 & 9.01 \\\hline 60 & 224 & 12.32 & 12.76 \\\hline 61 & 294 & 16.52 & 16.77 \\\hline 62 & 285 & 14.77 & 13.91 \\\hline 63 & 102 & 6.56 & 3.59 \\\hline 64 & 33 & 1.18 & 0 \\\hline 65 & 192 & 11.35 & 11.74 \\\hline 66 & 92 & 8.96 & 6.41 \\\hline 67 & 236 & 14.61 & 10.52 \\\hline 68 & 68 & 4.32 & 4.26 \\\hline 69 & 245 & 13.94 & 11.57 \\\hline 70 & 61 & 1.96 & 5.59 \\\hline 71 & 243 & 13.48 & 10.24 \\\hline 72 & 29 & 5.31 & 4.87 \\\hline 73 & 187 & 12.23 & 6.94 \\\hline 74 & 177 & 10.34 & 9.06 \\\hline 75 & 65 & 6.1 & 0.62 \\\hline 76 & 141 & 9.64 & 8.5 \\\hline 77 & 9 & 1.51 & 5.24 \\\hline 78 & 112 & 9.26 & 7.14 \\\hline 79 & 189 & 7.3 & 6.96 \\\hline 80 & 102 & 6.36 & 6.78 \\\hline \end{array} \] \[ \begin{array}{|c|*{3}{|c|}} \hline \#&Temps&Math&Stat\\\hline\hline 81 & 295 & 18.58 & 12.56 \\\hline 82 & 292 & 17.68 & 15.56 \\\hline 83 & 267 & 18.32 & 11.49 \\\hline 84 & 73 & 7.8 & 7.03 \\\hline 85 & 41 & 4.3 & 3.7 \\\hline 86 & 59 & 8.49 & 7.66 \\\hline 87 & 106 & 6.08 & 6.27 \\\hline 88 & 30 & 0.94 & 4.02 \\\hline 89 & 244 & 17.63 & 8.87 \\\hline 90 & 99 & 7.55 & 2.67 \\\hline 91 & 168 & 8.01 & 8.68 \\\hline 92 & 265 & 17.49 & 15.03 \\\hline 93 & 179 & 12.94 & 12.89 \\\hline 94 & 29 & 4.68 & 3.69 \\\hline 95 & 258 & 17.89 & 12.66 \\\hline 96 & 112 & 7.89 & 6.91 \\\hline 97 & 35 & 4.07 & 3.31 \\\hline 98 & 141 & 7.66 & 7.12 \\\hline 99 & 238 & 15.28 & 13.77 \\\hline 100 & 31 & 3.8 & 4.35 \\\hline 101 & 161 & 7.79 & 7.06 \\\hline 102 & 156 & 11.69 & 10.64 \\\hline 103 & 135 & 6.45 & 7.15 \\\hline 104 & 141 & 10.62 & 9.43 \\\hline 105 & 60 & 4.52 & 5.27 \\\hline 106 & 124 & 6.35 & 9.04 \\\hline 107 & 110 & 9.19 & 6.62 \\\hline 108 & 209 & 9.09 & 9.38 \\\hline 109 & 119 & 8.75 & 7.68 \\\hline 110 & 253 & 13.23 & 12.32 \\\hline 111 & 112 & 7.29 & 6.63 \\\hline 112 & 281 & 14.67 & 13.4 \\\hline 113 & 262 & 15.92 & 13.55 \\\hline 114 & 289 & 17.49 & 14.23 \\\hline 115 & 42 & 2.39 & 2.04 \\\hline 116 & 297 & 15.31 & 14.58 \\\hline 117 & 67 & 7.15 & 4.92 \\\hline 118 & 94 & 7.34 & 5.77 \\\hline 119 & 258 & 17.12 & 11.08 \\\hline 120 & 159 & 7.93 & 6.89 \\\hline \end{array} \] On peut commencer à réaliser une études en étudiants les caractères, deux par deux : le temps et la moyenne de math, le temps et la moyenne de stat et la moyenne de math et la moyenne de stat. A cette fin, on utilise les outils que nous avons développé lors dans le cas de la "dimension 2". Voici ce que l'analyse donne.
Notes de math en fonction du temps.
On a que \( R^2=0.85163\) ce qui prouve que le modèle est bon. Les estimations ponctuelles donnent : \[\hat{a}=0.05112\quad\hat{b}=1.91537\] De même on estime la variance du terme d'erreur : \( \hat{\sigma}=3.2522\) .On en déduit les intervalles de confiance (symétrique) à l'aide de loi de Student à 118 degrés de liberté :
Niveau 95% :
\[a\in [0.04723;0.05502]\qquad b\in [1.58911;2.24163]\]

Niveau 99% :
\[a\in [0.04598;0.05627]\qquad b\in [1.48403;2.34671]\]

Notes de stat en fonction du temps.
On a que \( R^2=0.73994\) ce qui prouve que le modèle est bon. Les estimations ponctuelles donnent : \[\hat{a}=0.04045\quad\hat{b}=2.49993\] De même on estime la variance du terme d'erreur : \( \hat{\sigma}=4.10682\) .On en déduit les intervalles de confiance (symétrique) à l'aide de loi de Student à 118 degrés de liberté :
Niveau 95% :
\[a\in [0.03608;0.04482]\qquad b\in [2.1333;2.86656]\]

Niveau 99% :
\[a\in [0.03467;0.04623]\qquad b\in [2.01522;2.98464]\]

Notes de stat en fonction des notes de math.
On a que \( R^2=0.67835\) ce qui prouve que le modèle est bon. Les estimations ponctuelles donnent : \[\hat{a}=0.69909\quad\hat{b}=1.86883\] De même on estime la variance du terme d'erreur : \( \hat{\sigma}=5.0794\) .On en déduit les intervalles de confiance (symétrique) à l'aide de loi de Student à 118 degrés de liberté :
Niveau 95% :
\[a\in [0.61133;0.78685]\qquad b\in [1.36966;2.368]\]

Niveau 99% :
\[a\in [0.58307;0.81511]\qquad b\in [1.20889;2.52877]\]
Évidemment les étudiants qui passent du temps à étudier ont de bonnes notes en mathématiques et en statistiques. Mais les statistiques utilisant des outils mathématiques plus des concept propre à cette matière, il est raisonnable de penser que les notes de stat sont "en lien" avec non seulement le temps de travail des étudiants mais aussi de leur niveau en math. Nous sommes donc naturellement amené à penser qu'il existe une règle de la forme \[s_i=a+bt_i+cm_i\] En imitant ce que nous avons fait au précédent chapitre, nous pouvons modéliser le problème en rajoutant un terme d'erreur et donc arriver au modèle linéaire : \[S_i=a+bt_i+cm_i+\varepsilon_i\] où \( \varepsilon_i\sim\mathcal{N}(0, \sigma)\) . L'idée n'est pas du tout de reproduire le schéma précédent mais d'utiliser les technologies mathématiques pour exprimer ce modèle dans l'univers qui lui conviens le mieux : celui des matrices. Avant de généraliser en dimension \( n\) quelconque, détaillons sur cet exemple.

Formulation matricielle : l'exemple

On choisi de réécrire Le modèle \( S_i=a+bt_i+cm_i+\varepsilon_i\) sous la forme \( S=Xm+e\) où, dans le cas de notre exemple, on a précisément : \[ \begin{pmatrix} S_1\\ S_2\\ S_3\\ S_{4}\\ S_{5}\\ S_{6}\\ S_{7}\\ S_{8}\\ S_{9}\\ S_{10}\\ S_{11}\\ S_{12}\\ S_{13}\\ S_{14}\\ S_{15}\\ S_{16}\\ S_{17}\\ S_{18}\\ S_{19}\\ S_{20}\\ \vdots \end{pmatrix} = \begin{pmatrix} 1 & 88 & 8.33\\ 1 & 123 & 9.15\\ 1 & 28 & 3.08\\ 1 & 209 & 11.65\\ 1 & 296 & 14.92\\ 1 & 168 & 8.88\\ 1 & 135 & 7.82\\ 1 & 231 & 15.5\\ 1 & 251 & 13.69\\ 1 & 107 & 6.15\\ 1 & 40 & 0\\ 1 & 263 & 15.18\\ 1 & 62 & 8.6\\ 1 & 220 & 14.18\\ 1 & 130 & 7.67\\ 1 & 106 & 7.32\\ 1 & 135 & 11.53\\ 1 & 121 & 7.73\\ 1 & 37 & 3.11\\ \vdots & \vdots & \vdots \end{pmatrix} \begin{pmatrix} a\\b\\c \end{pmatrix} + \begin{pmatrix} \varepsilon_1\\ \varepsilon_2\\ \varepsilon_3\\ \varepsilon_{4}\\ \varepsilon_{5}\\ \varepsilon_{6}\\ \varepsilon_{7}\\ \varepsilon_{8}\\ \varepsilon_{9}\\ \varepsilon_{10}\\ \varepsilon_{11}\\ \varepsilon_{12}\\ \varepsilon_{13}\\ \varepsilon_{14}\\ \varepsilon_{15}\\ \varepsilon_{16}\\ \varepsilon_{17}\\ \varepsilon_{18}\\ \varepsilon_{19}\\ \varepsilon_{20}\\ \vdots \end{pmatrix} \] Ainsi au lieu de chercher les trois paramètre \( a\) , \( b\) et \( c\) "en dimension 1", on c'est ramener à déterminer un seul paramètre vectoriel \( m\) ici de dimension 3. Exactement comme dans le paragraphe précédent, on cherche à minimiser les termes d'erreurs \( \varepsilon_i\) précisément : \[\sum \varepsilon_i^2\] Pour cela, encore une fois, plaçons nous dans le cadre vectoriel de l'équation \( S=Xm+e\) et on observe que \[\sum \varepsilon_i^2={\vphantom{e}}^{t}{e}e\] où \( {\vphantom{M}}^{t}{M}\) désigne la transposée de la matrice \( M\) , c'est à dire l'opération qui inverse les lignes et les colonnes. Matriciellement (tout comme si on était en dimension 1 avec des nombres réels), \( S=Xm+e\) implique que \( e=S-Xm\) . Laissons nous guider par les calculs : \begin{eqnarray*} {\vphantom{e}}^{t}{e}e &=&{\vphantom{\left(S-Xm\right)}}^{t}{\left(S-Xm\right)}\left(S-Xm\right)\\ &=&\left({\vphantom{S}}^{t}{S}-{\vphantom{(Xm)}}^{t}{(Xm)}\right)\left(S-Xm\right)\\ &=&\left({\vphantom{S}}^{t}{S}-{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}\right)\left(S-Xm\right)\\ &=&{\vphantom{S}}^{t}{S}S-{\vphantom{S}}^{t}{S}Xm-{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S+{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}Xm \end{eqnarray*} Observons les termes de cette dernière expression. \( {\vphantom{S}}^{t}{S}S=\sum S_i^2\) \begin{eqnarray*} {\vphantom{S}}^{t}{S}Xm&=&\begin{pmatrix} S_1 & S_2 & S_3 & S4 &\cdots \end{pmatrix} \begin{pmatrix} 1 & 88 & 8.33\\ 1 & 123 & 9.15\\ 1 & 28 & 3.08\\ 1 & 209 & 11.65\\ \vdots & \vdots & \vdots \end{pmatrix} \begin{pmatrix} a\\b\\c \end{pmatrix} \\ &=&\begin{pmatrix} S_1 & S_2 & S_3 & S4 &\vdots \end{pmatrix} \begin{pmatrix} a + 88b + 8.33c\\ a + 123b + 9.15c\\ a + 28b + 3.08c\\ a + 209b + 11.65c\\ \cdots \end{pmatrix}\\ &=&S_1(a + 88b + 8.33c)+ S_2(a + 123b + 9.15c)+ S_3(a + 28b + 3.08c)+ S_4(a + 209b + 11.65c)+ \cdots \end{eqnarray*} \begin{eqnarray*} {\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S &=& \begin{pmatrix} a&b&c \end{pmatrix} \begin{pmatrix} 1 & 1 & 1 & 1 & \cdots\\ 88 & 123 & 28 & 209 & \cdots\\ 8.33 & 9.15 & 3.08 & 11.65 & \cdots \end{pmatrix} \begin{pmatrix} S_1\\ S_2\\ S_3\\ S_{4}\\ \vdots \end{pmatrix}\\ &=& \begin{pmatrix} a&b&c \end{pmatrix} \begin{pmatrix} S_1 & S_2 & S_3 & S_4 & \cdots\\ 88S_1 & 123S_2 & 28S_3 & 209S_4 & \cdots\\ 8.33S_1 & 9.15S_2 & 3.08S_3 & 11.65S_4 & \cdots \end{pmatrix} \\ &=& (aS_1+88bS_1+8.33cS_1) +(aS_2+123bS_2+9.15cS_2) +(aS_3+28bS_3+3.08cS_3) +(aS_4+209bS_4+11.65cS_4) +\cdots \end{eqnarray*} En particulier, on observe, quitte à réordonner les termes, que \( {\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S={\vphantom{S}}^{t}{S}Xm\) . \begin{eqnarray*} {\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}Xm &=& \begin{pmatrix} a&b&c \end{pmatrix} \begin{pmatrix} 1 & 1 & 1 & 1 & \cdots\\ 88 & 123 & 28 & 209 & \cdots\\ 8.33 & 9.15 & 3.08 & 11.65 & \cdots \end{pmatrix} \begin{pmatrix} 1 & 88 & 8.33\\ 1 & 123 & 9.15\\ 1 & 28 & 3.08\\ 1 & 209 & 11.65\\ \vdots & \vdots & \vdots \end{pmatrix} \begin{pmatrix} a\\b\\c \end{pmatrix} \\ &=& \begin{pmatrix} a&b&c \end{pmatrix} \begin{pmatrix} 120 & 18042 &1152.24\\ 18042& 3555336 &216323.34\\ 1152.24 & 216323.34& 13650.2368 \end{pmatrix} \begin{pmatrix} a\\b\\c \end{pmatrix}\\ &=&120 a^2 + 36084 a b + 3555336 b^2 + 2304.48 a c + 432647. b c + 13650.2 c^2 \end{eqnarray*} On commence à sentir les notations s'appesantir... Finalement grâce à l'observation \( {\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S={\vphantom{S}}^{t}{S}Xm\) , on a, plus simplement \[{\vphantom{e}}^{t}{e}e={\vphantom{S}}^{t}{S}S-2{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}S+{\vphantom{m}}^{t}{m}{\vphantom{X}}^{t}{X}Xm\] Demander de minimiser cette égalité reviens à se demander pour quelle valeurs de \( m\) on a \( \dfrac{\partial {\vphantom{e}}^{t}{e}e}{\partial m}=0\) . En dérivant "comme si \( m\) était une variable"1 on arrive à \[\dfrac{\partial {\vphantom{e}}^{t}{e}e}{\partial m}=0 \quad\Longleftrightarrow\quad -2{\vphantom{X}}^{t}{X}S+2{\vphantom{X}}^{t}{X}Xm=0 \quad\Longleftrightarrow\quad {\vphantom{X}}^{t}{X}Xm={\vphantom{X}}^{t}{X}S \quad\Longleftrightarrow\quad m=({\vphantom{X}}^{t}{X}X)^{-1}{\vphantom{X}}^{t}{X}S \] A condition que \( {\vphantom{X}}^{t}{X}X\) soit inversible, ce qui est le cas dans notre exemple. On trouve : \[m=({\vphantom{X}}^{t}{X}X)^{-1}{\vphantom{X}}^{t}{X}S= \begin{pmatrix} 2.1734001594080326\\ 0.03173376655529636\\ 0.17047782118341104 \end{pmatrix} \] ce qui se lit en ligne par des estimations (en regardant les réalisations de \( S\) ) \( \hat{a}=2.1734001594080326\) , \( \hat{b}=0.03173376655529636\) et \( \hat{c}=0.17047782118341104\) . Bien on trouve des valeurs... mais est-ce que le modèle est bon ? En d'autre terme dans ce cadre, quel est l'équivalent du \( R^2\) . Dans le cadre classique, \( R^2=\dfrac{\dpl{\sum (\hat{y_i}-\overline{y})^2}}{\dpl{\sum(y_i-\overline{y})^2}}\) ce qui se transpose sans problème ici (mais trouve un lien moins évident avec la corrélation de Pearson). Dans notre exemple, on peut donc donner de la valeur à notre modèle par le calcul \[R^2=\dfrac{\dpl{\sum (\hat{s_i}-\overline{s})^2}}{\dpl{\sum(s_i-\overline{s})^2}}=\dfrac{\dpl{\sum (\hat{a}+\hat{b}t_i+\hat{c}m_i-\overline{s})^2}}{\dpl{\sum(s_i-\overline{s})^2}}\simeq 0.74592\] On peut raisonnablement penser que le modèle est correcte. Ca suffit ! On a compris que tout les outils que nous avions en dimension 2 se transpose assez facilement avec le langage matricielle. Estimateurs, \( R^2\) et tout leur petit copain se transposent assez bien.

Formulation matricielle

On généralise donc les observations et résultats établie précédemment. Dans ce contexte, on cherche à établir une relation linéaire simple entre une variable endogène à l'aide de \( p\) variables exogènes.

Définition


Soient \( p\) données statistiques \( x_k=(x_{1, k}, \ldots, x_{n, k})\) et \( y=(y_1, \ldots, y_n)\) des données statistiques. Les variables \( x_k\) sont appelées variables exogènes ou expliquées. La variable \( y\) est appelée variable endogène ou à expliquer. Une modélisation linéaire multiple consiste à considérer les variables aléatoires \[ Y_i=a_0+a_1x_{i, 1}+a_2x_{i, 2}+\cdots+a_px_{i, p}+\varepsilon_i \] où es \( \varepsilon_i\) sont des variables aléatoires i.i.d. appelés termes d'erreurs et suivent une loi normale \( \mathcal{N}(0, \sigma)\) .
Comme dans le cas de la dimension \( 2\) on suppose qu'il y a indépendance entre les termes d'erreurs et les variables exogène.

Proposition


Avec les notations de la définition précédente, un modèle linéaire multiple \[ Y_i=a_0+a_1x_{i, 1}+a_2x_{i, 2}+\cdots+a_px_{i, p}+\varepsilon_i \] est équivalent à \[ Y=xm+e \] Où \( x\) est une matrice à \( n\) lignes et \( p+1\) colonnes, \( m\) le vecteur a estimer de dimension \( p+1\) et \( e\) est un vecteur gaussien de dimension \( n\) .

Démonstration

\[ x= \begin{pmatrix} 1&x_{1, 1}& x_{1, 2} & \cdots x_{1, p}\\ 1&x_{2, 1}& x_{2, 2} & \cdots x_{2, p}\\ \vdots &\vdots & \vdots & \vdots & \vdots \\ 1&x_{n, 1}& x_{n, 2} & \cdots x_{n, p}\\ \end{pmatrix} \] \[ m= \begin{pmatrix} a_0\\ a_1\\ \vdots\\ a_p \end{pmatrix} \] \[ e= \begin{pmatrix} \varepsilon_1\\ \varepsilon_2\\ \vdots\\ \varepsilon_n \end{pmatrix} \]

Remarque

On conserve le principe de notation : les minuscules pour les donnée déterminées et les majuscules pour les variables aléatoires.

Remarque

Comme nous l'avons observé avec l'exemple précédent, pour pouvoir estimer les paramètres, il est nécessaire que \( {\vphantom{x}}^{t}{x}x\) soit inversible. C'est une condition assez souvent respectée mais qui peut être source d'erreur. Demander que \( {\vphantom{x}}^{t}{x}x\) soit inversible équivaut à demander que \( x\) soit de rang maximale ; c'est à dire \( p+1\) où encore que \( det({\vphantom{x}}^{t}{x}x)\neq 0\) .

Remarque

Il est bien sure nécessaire que le nombre d'observation \( n\) soit strictement supérieur aux nombres de paramètre à estimer.
Ceci étant, on copie/colle les même énoncés, les preuves étant strictement identiques ou se déduisent des observations précédentes de l'exemple de ce chapitre.

Théorème


Avec les notations précédentes, \( e=Y-xm\) et le minimum de \( \dpl{{\vphantom{e}}^{t}{e}e}\) est atteint lorsque \[m=\hat{m}\overset{def}{=}({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}y\]

Définition


Avec les notations précédentes, on appel résidu du modèle le vecteur \( \hat{e}=y-\hat{y}\) où \( \hat{y}=x\hat{m}\)

Définition


Avec les notations précédentes on définit le coefficient de détermination du modèle, noté \( R^2\) , par : \[R_{x, y}^2=\dfrac{\dpl{\sum_{i=1}^n}(\hat{y_i}-\overline{y})^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}\]

Proposition


Avec les notations précédentes \[R_{x, y}^2=\dfrac{\dpl{\sum_{i=1}^n}(\hat{y_i}-\overline{y})^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}=1-\dfrac{\dpl{\sum_{i=1}^n}(y_i-\hat{y}_i)^2}{\dpl{\sum_{i=1}^n}({y_i}-\overline{y})^2}\] En particulier \( R_{x, y}^2\in[0, 1]\) .

Proposition


Avec les notations précédentes, \[M_n=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}Y\] est un estimateur sans biais de \( m\) .

Démonstration

\begin{eqnarray*} \Esp{M_n} &=&\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}Y}\\ &=&\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}(xm+e)}\\ &=&\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}xm+({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e}\\ &=&({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}xm+\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e}\\ &=&m+\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e}\\ &=&m+({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}\underbrace{\Esp{e}}_{=0}\\ &=&m \end{eqnarray*}
Pour réaliser de l'inférence statistiques il nous faut une forme de covariance multivarié.

Matrice variance-covariance

Définition


Soit \( X\) un vecteur de probabilité. On définie la matrice de variance-covariance, notée \( \mathbb{V}\left(X\right)\) par la formule \[\mathbb{V}\left(X\right)=\Esp{(X-\Esp{X}){\vphantom{(X-\Esp{X})}}^{t}{(X-\Esp{X})}}\]
Soit \( A\simeq\mathcal{N}(1; 1)\) et \( B=2A\) alors \[\mathbb{V}\left(\begin{pmatrix}A\\ B\end{pmatrix}\right)= \begin{pmatrix} 1 & 2\\ 2 & 4 \end{pmatrix} \]

Proposition


  1. La matrice de variance-covariance d'un vecteur aléatoire \( X\) vaut à l'intersection de la ligne \( i\) et de la colonne \( j\) \( Cov(X_i, X_j)\) .
  2. Les éléments diagonaux sont les variances des coordonnées du vecteurs aléatoires.
  3. La matrice de variance-covariance est symétrique à valeurs propres positives ou nulles.

Inférences des estimateurs

Dans le cas de la modélisation linéaire simple il existait un lien simple entre variances des estimateurs \( \hat{a}\) et \( \hat{b}\) avec la variance des termes d'erreurs. C'est ce lien qui a permis de déterminer les intervalles de confiance et autres joyeusetés. Essayons, dans le cadre multivarié, de déterminer ce lien. Nous partons du modèle \( Y=xm+e\) où nous avons observé que \( M_n=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}Y\) est un estimateur sans biais mais pas (encore) convergent.

Proposition


Avec les notations précédentes, \( \mathbb{V}\left(M_n\right)=\sigma^2({\vphantom{x}}^{t}{x}x)^{-1}\)

Démonstration

Commençons par rappeler que \( \varepsilon_i\) sont i. i. d. et de moyenne nulle. En particulier \( \mathbb{V}\left(e\right)=\sigma^2Id\) puisque \( Cov(\varepsilon_i, \varepsilon_j)=0\) pour \( i\neq j\) et \( Cov(\varepsilon_i, \varepsilon_j)=\sigma^2\) sinon. Rappelons également que \( x\) est une donnée déterministe (non aléatoire). De plus \( M_n-\Esp{M_n}=M_n-m=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}Y-m =({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}(xm+e)-m =({\vphantom{x}}^{t}{x}x)^{-1}({\vphantom{x}}^{t}{x}x)m+({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e-m=({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e\) \begin{eqnarray*} \mathbb{V}\left(M_n\right) &=&\Esp{(M_n-\Esp{M_n}){\vphantom{(M_n-\Esp{M_n})}}^{t}{(M_n-\Esp{M_n})}}\\ &=&\Esp{\left(({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e\right){\vphantom{\left(({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e\right)}}^{t}{\left(({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e\right)}}\\ &=&\Esp{({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}e{\vphantom{e}}^{t}{e}x{\vphantom{(({\vphantom{x}}^{t}{x}x)^{-1}}}^{t}{(({\vphantom{x}}^{t}{x}x)^{-1}})}\\ &=&({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}\Esp{e{\vphantom{e}}^{t}{e}}x{\vphantom{(({\vphantom{x}}^{t}{x}x)^{-1}}}^{t}{(({\vphantom{x}}^{t}{x}x)^{-1}})\\ &=&({\vphantom{x}}^{t}{x}x)^{-1}{\vphantom{x}}^{t}{x}\sigma^2Id x{\vphantom{(({\vphantom{x}}^{t}{x}x)^{-1}}}^{t}{(({\vphantom{x}}^{t}{x}x)^{-1}})\\ &=&\sigma^2({\vphantom{x}}^{t}{x}x)^{-1}\underbrace{({\vphantom{x}}^{t}{x}x){\vphantom{(({\vphantom{x}}^{t}{x}x)^{-1}}}^{t}{(({\vphantom{x}}^{t}{x}x)^{-1}})}_{=Id}\\ &=&\sigma^2({\vphantom{x}}^{t}{x}x)^{-1} \end{eqnarray*}

Corollaire


Si la matrice \( ({\vphantom{x}}^{t}{x}x)^{-1}\) tend vers la matrice nulle alors l'estimateur \( M_n\) est convergent.

Démonstration

Nous avons déjà observer que \( M_n\) est sans biais et par hypothèse sa variance tend vers \( 0\) . Donc \( M_n\) est un estimateur convergent.
De la même manière que la modélisation linéaire simple nous pouvons estimer le paramètre \( \sigma\) :

Théorème


Soit \( \supere=Y-\hat{y}\) , alors \[\Esp{\supere}=(n-(p+1))\sigma^2\]

Démonstration

Admise

Corollaire


La variable aléatoire \[S_n=\dfrac{{\vphantom{\supere}}^{t}{\supere}\supere}{n-(p+1)}\] est un estimateur convergent et sans biais de \( \sigma^2\) . De plus :
  1. \( S_n^M=S_n({\vphantom{x}}^{t}{x}x)^{-1}\) est un estimateur convergent et sans biais de \( \mathbb{V}\left(M_n\right)\) .
  2. En particulier, les coefficient diagonaux de \( S_n^M\) sont des estimateurs convergent et sans biais de la variance des coordonnées de \( M_n\) .
  3. \( (n-(p+1))\dfrac{S_n}{\sigma^2}\sim \chi^2(n-(p+1))\)

Démonstration

Il s'agit des même arguments que pour la modélisation linaire simple.

Corollaire


Soit \( (M_{n})_i\) la \( i\) -ieme coordonnée de \( M_n\) et \( S_i^M\) le coefficient diagonale de la \( i\) -ième ligne de \( S_n^m\) La variable aléatoire \( \dfrac{M_{n, i}-m_i}{\sqrt{S_i^M}}\) suit une loi de Student à \( n-(p+1)\) degrés de libertés.

Démonstration

Il s'agit des même arguments que pour la modélisation linaire simple.

Corollaire


Soient \( 0{<}\beta{<}\alpha{<}1\) , \( t_1=Q_{\mathcal{T}(n-(p+1))}(\beta)\) et \( t_2=Q_{\mathcal{T}(n-(p+1))}(1-\alpha+\beta)\) alors \[\left[(M_{n})_i-t_2\sqrt{S_i^M} ; (M_{n})_i-t_1\sqrt{S_i^M}\right]\] est un intervalle de confiance \( 1-\alpha\) de \( m_i\) .

Analyse multivarié de l'exemple introductif

Dans le cadre de notre exemple, on peut tenter un visualisation en trois dimension avec le temps de travail en abscisse, les notes en mathématiques en ordonnée et les notes de statistiques pour la côte.
img/figure3D1 img/figure3D2
De plus on a : \[ {\vphantom{x}}^{t}{x}x= \begin{pmatrix} 120&18042&1152.24\\ 18042&3555336&216323.34\\ 1152.24&216323.34&13650.2368 \end{pmatrix} \] \[ ({\vphantom{x}}^{t}{x}x)^{-1}= \begin{pmatrix} 0.04472&7.676 e-05&-0.005\\ 7.676 e-05&8 e-06&0\\ -0.005&0&0.003 \end{pmatrix} \] On arrive alors a \[ \hat{m}=\begin{pmatrix} 2.17\\ 0.032\\ 0.17 \end{pmatrix}=\begin{pmatrix} \hat{a}\\ \hat{b}\\ \hat{c} \end{pmatrix} \] On estime donc le modèle \( \hat{s}_i=\hat{a}+\hat{b}t_i+\hat{c}m_i\) . On a \( \dpl{R^2=\dfrac{\sum (\hat{s_i}-\overline{s})^2}{\sum (s_i-\overline{s})^2}\simeq 0.746}\) ce qui permet de dire que le modèle est viable. Ce qui permet de déduire la matrice de variance covariance de l'estimateur \( M_n\) : \[ \hat{\mathbb{V}\left(M_n\right)}= \begin{pmatrix} 0.1809515800112538&0.0003106069843879191&-0.020196806317842753\\ 0.0003106069843879191&3.2362850206272714e-05&-0.0005390920134243928\\ -0.020196806317842753&-0.0005390920134243928&0.010544604304957319 \end{pmatrix} \] Ce qui permet d'obtenir les estimations de la variance de chacun des paramètres, par lecture des éléments diagonaux :
\( \hat{\sigma_a^2}=0.18095\) \( \Rightarrow\) \( \hat{\sigma_b^2}=3.2 e-05\) \( \Rightarrow\) \( \hat{\sigma_c^2}=0.01054\) \( \Rightarrow\)
\( \hat{\sigma_a}=0.42538\) \( \hat{\sigma_b}=0.00569\) \( \hat{\sigma_c}=0.10269\)
En utilisant la loi de Student à \( 117=120-3\) degrés de liberté, on obtient les intervalles de confiances symétrique de niveau \( 95\%\) des caractères à estimer : \[a \in [1.331, 3.016]\] \[b \in [0.02, 0.043]\] \[c \in [-0.033, 0.374]\]



1Et c'est incroyable : c'est mathématiquement valide !