loading page

Mse_gauss [section] On va considérer le vecteur aléatoire \(W=(W_1 \cdots W_N)^T\) à entrées gaussiennes indépendantes de moyenne nulle et de variance unitaire. On va chercher à estimer l’espérance de \(\sigma(W^TX) \cdot \sigma(W^TY)\) lorsque \(X\) et \(Y\) sont deux vecteurs déterministes de taille \(N\) et \(\sigma\) et la fonction “relu” qui vaut \(0\) sr \(\mathbb{R}_-\) et l’identité sur \(\mathbb{R}_+\). On peut déjà écrire : \[\begin{aligned} {\mathbb{E} \left[ }\sigma(WX) \cdot \sigma(WY) {\right] }&=\frac{1}{{\left(}2 \pi {\right)}^{N/2}}\int_{\mathbb{R}^N} \sigma(W^TX) \cdot \sigma(W^TY) e^{\frac{\Vert W \Vert^2}{2}} dW\end{aligned}\] Il faut alors passer de la base canonique \((\epsilon_1 \cdots \epsilon_N)\) à une base orthonormée \((e_1 \cdots e_N)\) dont les deux premiers vecteurs engendrent le sous espace engendré par \(X\) et \(Y\). Par exemple, on peut prendre : \[\begin{aligned} \begin{aligned} &e_1 = \frac{1}{2}\frac{\frac{X}{\Vert X \Vert} +\frac{Y}{\Vert Y \Vert}}{\sqrt{1 +\frac{\langle X, Y \rangle}{\Vert X \Vert\Vert Y \Vert}}} \\ & e_2= \frac{1}{2}\frac{\frac{X}{\Vert X \Vert} -\frac{Y}{\Vert Y \Vert}}{\sqrt{1 -\frac{\langle X, Y \rangle}{\Vert X \Vert\Vert Y \Vert}}} \end{aligned} \ \ \ \ \ \text{ ou bien : } \ \ \ \ \ \ \begin{aligned} &e_1 = \frac{X}{\Vert X \Vert} \\ & e_2= \frac{\Vert X \Vert Y -\frac{\langle X,Y \rangle X}{\Vert X \Vert}}{\sqrt{\Vert X \Vert^2\Vert Y \Vert^2 -\langle X, Y \rangle^2}} \end{aligned} \end{aligned}\] On choisira le deuxième choix car il a l’avantage de donner une décomposition assez simple des vecteurs \((X,Y)\) dans la base \((e_1 \cdots e_N)\): \[\begin{aligned} &X = \Vert X \Vert e_1 \\ & Y= \frac{\langle X,Y \rangle}{\Vert X \Vert}e_1 +\frac{{\sigma_{XY}}}{\Vert X \Vert}e_2 \end{aligned} \ \ \ \ \text{ où on note : } \ \ \ {\sigma_{XY}}=\sqrt{\Vert X \Vert^2\Vert Y \Vert^2 -\langle X, Y \rangle^2}\] Quoi qu’il en soit, en notant \((X_1,X_2)\) et \((Y_1,Y_2)\) les décompositions des vecteurs \(X\) et \(Y\) suivant les vecteurs \((e_1,e_2)\), ainsi que \((W_1 \cdots W_N)\) la décomposition de \(W\) dans la base \((e_1 \cdots e_N)\), on arrive à se ramener à une intégrale double : \[\begin{aligned} {\mathbb{E} \left[ }\sigma(WX) \cdot \sigma(WY) {\right] }&=\frac{1}{ 2 \pi }\int_{\mathbb{R}^2} \sigma(W_1 X_1+W_2 X_2) \cdot \sigma(W_1 Y_1+W_2 Y_2) e^{-\frac{W_1^2+W_2^2}{2}} dW_1 dW_2 \\ &=\frac{1}{ 2 \pi }\int_{{\tilde{W}}^T{\tilde{X}}\geq 0 \atop {\tilde{W}}^T{\tilde{Y}}\geq 0} {\tilde{W}}^T{\tilde{X}}\cdot {\tilde{W}}{\tilde{Y}}e^{-\frac{\Vert {\tilde{W}}\Vert^2}{2}} d{\tilde{W}}\ \ \ \text{ où } \ \ \ {\tilde{W}}=(W_1,W_2), \ {\tilde{X}}=(X_1,X_2)\ \text{ et } \ {\tilde{Y}}=(Y_1,Y_2)\end{aligned}\] Or, on peut remarquer que l’ensemble \(A_{XY}= \left\{{\tilde{W}}\in \mathbb{R}^2 \ | \ {\tilde{W}}^T{\tilde{X}}\geq 0 \ \& \ {\tilde{W}}^T{\tilde{Y}}\geq 0\right\}\), est en forme de cone. Si on introduit le \(\mathcal{C}^1\)-difféomorphisme \(\Phi \ : \ (r,\theta) \mapsto r \cos(\theta) e_1 + r \sin(\theta) e_2 \), l’ensemble \(A_{XY}\) s’écrit plus simplement : \[A_{XY}=\Phi{\left(}\mathbb{R}_+ \times {\left[ }-\frac{\pi}{2}+\theta_0, \frac{\pi}{2} {\right] }{\right)}\ \ \ \text{ où } \ \ \ \theta_0=\arccos{\left(}\frac{Y_1}{\sqrt{Y_1^2+Y_2^2}} {\right)}\in {\left[ }0, \pi {\right] }\] Il ne nous reste plus qu’à effectuer ce changement en coordonnées polaires dans l’intégrale : \[\begin{aligned} {\mathbb{E} \left[ }\sigma(WX) \cdot \sigma(WY) {\right] }&=\frac{1}{ 2 \pi } \int_{-\frac{\pi}{2}+\theta_0 }^{ \frac{\pi}{2}}\int_{\mathbb{R}_+} r^3\cos(\theta)X_1 {\left(}\cos(\theta)Y_1 +\sin(\theta) Y_2 {\right)}e^{-\frac{r^2}{2}} dr d\theta \ \ \ \text{ car } \ X_2= 0 \ \text{ dans notre base}\\ &=\frac{1}{ \pi } \int_{-\frac{\pi}{2}+\theta_0 }^{ \frac{\pi}{2}}{\left(}\cos^2(\theta)X_1Y_1 +\cos(\theta)\sin(\theta) X_1Y_2 {\right)}d\theta \ \ \ \text{ car : } \ \int_{\mathbb{R}_+} t^3 e^{-\frac{t^2}{2}} dt=2\int_{\mathbb{R}_+} t e^{-\frac{t^2}{2}} dt=2 \\ &=\frac{1}{ \pi } {\left(}X_1Y_1{\left[ }\frac{\sin(2\theta)}{2\sqrt{2}}{\right] }_{-\frac{\pi}{2}+\theta_0 }^{ \frac{\pi}{2}} + \frac{\pi-\theta_0}{2}X_1Y_1+X_1Y_2{\left[ }\frac{\sin^2(\theta)}{2} {\right] }_{-\frac{\pi}{2}+\theta_0 }^{ \frac{\pi}{2}} {\right)}\\ &=\frac{1}{ \pi } {\left(}X_1Y_1 \frac{2\pi-2\theta_0+\sin(2\theta_0)}{2\sqrt{2}}+X_1Y_2 \frac{1-\cos^2(\theta_0)}{2} {\right)}\\ &=\frac{1}{ \pi } {\left(}\langle X, Y \rangle \frac{2\pi-2\theta_0+\sin(2\theta_0)}{2\sqrt{2}}+{\sigma_{XY}}\frac{1-\cos^2(\theta_0)}{2} {\right)}\ \ \ \text{ où :} \ \ \theta_0 = \arccos{\left(}\frac{\langle X, Y \rangle}{\Vert X \Vert \Vert Y \Vert}{\right)}\\ &=\frac{1}{ \pi } {\left(}\langle X, Y \rangle \frac{\pi-\theta_0}{2}+\frac{\langle X,Y \rangle {\sigma_{XY}}}{2\Vert X \Vert^2 \Vert Y \Vert^2}+{\sigma_{XY}}\frac{\Vert X \Vert^2\Vert Y \Vert^2 -\langle X, Y \rangle^2}{2\Vert X \Vert^2 \Vert Y \Vert^2} {\right)}\\ &= \langle X, Y \rangle \frac{\arccos{\left(}-\frac{\langle X, Y \rangle}{\Vert X \Vert \Vert Y \Vert}{\right)}}{2\pi}+\frac{{\sigma_{XY}}{\left(}\langle X,Y \rangle+{\sigma_{XY}}^2{\right)}}{2\pi\Vert X \Vert^2 \Vert Y \Vert^2}\end{aligned}\] Enfin, dans le cas où \(X\) et \(Y\) sont colinéaires, c’est à dire lorsque \({\sigma_{XY}}=0\), le calcul de l’espérance est simple : \[\begin{aligned} {\mathbb{E} \left[ }\sigma(WX) \cdot \sigma(\lambda WX) {\right] }&=\frac{1}{ \sqrt{2 \pi} }\int_{\mathbb{R}} \sigma(W_1 \Vert X \Vert )\sigma(\lambda W_1 \Vert X \Vert) e^{-\frac{W_1^2}{2}} dW_1 \\ &=\left\{ \begin{aligned} &\frac{ \lambda \Vert X \Vert^2}{ \sqrt{2 \pi} }\int_{\mathbb{R}_+} W_1^2 e^{-\frac{W_1^2}{2}} dW_1 \ \ \text{ si } \ \lambda > 0 \\ &0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \text{ sinon } \end{aligned} \right. \\ &=\left\{ \begin{aligned} &\frac{\lambda \Vert X \Vert^2}{2} \ \ \text{ si } \ \lambda > 0 \\ &0 \ \ \ \ \ \ \ \ \ \text{ sinon } \end{aligned} \right.\end{aligned}\] Avec les mêmes méthodes, on peut retrouver assez facilement les mêmes résultats pour la fonction qui donne le signe d’un réel. On notera : \[\begin{aligned} \sigma_1(x)&= 1 \ \text{ si } \ x>0, \ 0 \ \text{sinon} \\ \sigma_2(x)&=\text{sign}(x)=\sigma_1(x)-\sigma_1(-x)\end{aligned}\] dès lors : \[\begin{aligned} {\mathbb{E} \left[ }\sigma_2(WX) \cdot \sigma_2( WY) {\right] }=& \ {\mathbb{E} \left[ }\sigma_1(WX) \cdot \sigma_1( WY) {\right] }+ {\mathbb{E} \left[ }\sigma_1(-WX) \cdot \sigma_1(- WY) {\right] }\\ &-{\mathbb{E} \left[ }\sigma_1(-WX) \cdot \sigma_1(WY) {\right] }- {\mathbb{E} \left[ }\sigma_1(WX) \cdot \sigma_1(- WY) {\right] }\end{aligned}\] Il nous reste donc à calculer \({\mathbb{E} \left[ }\sigma_1(WX) \cdot \sigma_1(\lambda WY) {\right] }\) : \[\begin{aligned} {\mathbb{E} \left[ }\sigma_1(WX) \cdot \sigma_1(\lambda WY) {\right] }&=\frac{1}{ 2\pi } \int_{-\frac{\pi}{2}+\theta_0 }^{ \frac{\pi}{2}} d\theta \\ &=\frac{1}{2}-\frac{\theta_0}{2\pi} \ \ \text{ où :} \ \ \theta_0 = \arccos{\left(}\frac{\langle X, Y \rangle}{\Vert X \Vert \Vert Y \Vert}{\right)}\end{aligned}\] Donc au total : \[\begin{aligned} {\mathbb{E} \left[ }\sigma_2(WX) \cdot \sigma_2( WY) {\right] }&=1-\frac{\theta_0}{\pi}- 1+\frac{\pi-\theta_0}{\pi} \ = 1 -\frac{2\theta_0}{\pi}\ \ \end{aligned}\] On a de plus : \[{\mathbb{E} \left[ }\sigma(WX) \cdot \sigma(\lambda WX) {\right] }=\left\{ \begin{aligned} &1 \ \ \text{ si } \ \lambda > 0 \\ &0 \ \ \text{ sinon } \end{aligned} \right.\] Pour tenter d’approcher le régime de certains neurones du cerveau, on va maintenant faire le calculs pour une fonction sigma décalée. Pour \(t_0 \in \mathbb{R}\), on travaillera avec la fonction : \[\sigma(t)=\1_{t_0 + \mathbb{R}_+}(t)(t-t_0)\] En introduisant \(Z^{t_0}\), le vecteur de \(\mathbb{R}^2\) vérifiant \({\tilde{X}}^TZ^{t_0}={\tilde{Y}}^TZ^{t_0}=t_0\), on remarque que : \[{\left(}{\tilde{W}}^T{\tilde{X}}\geq t_0 \ \& \ {\tilde{W}}^T{\tilde{Y}}\geq t_0 {\right)}\Longleftrightarrow {\left(}({\tilde{W}}+z^{t_0})^T{\tilde{X}}\geq 0 \ \& \ ({\tilde{W}}+z^{t_0})^T{\tilde{Y}}\geq 0{\right)}\] Avec le changement de variables adéquat on en arrive à : \[\begin{aligned} &{\mathbb{E} \left[ }\sigma(WX) \cdot \sigma( WY) {\right] }=\frac{1}{ 2 \pi }\int_{{\tilde{W}}^T{\tilde{X}}\geq 0 \atop {\tilde{W}}^T{\tilde{Y}}\geq 0} {\tilde{W}}^T{\tilde{X}}\cdot {\tilde{W}}{\tilde{Y}}e^{-\frac{\Vert {\tilde{W}}+Z^{t_0} \Vert^2}{2}} d{\tilde{W}}\\ & \ \ \ \ \ \ =\left\{\begin{aligned} &\cdot\frac{1}{ 2 \pi }\int_{\mathbb{R}_+}{\left(}\int_0^{-\frac{Y_2}{Y_1}W_2} W_1X_1 \cdot (W_1Y_1 + W_2 Y_2) e^{-\frac{\Vert {\tilde{W}}+Z^{t_0} \Vert^2}{2}} dW_1{\right)}dW_2 \ \ &\text{si } \ \ Y_1 < 0\\ &\begin{aligned} &\cdot\frac{1}{ 2 \pi }\int_{\mathbb{R}}{\left(}\int_{\mathbb{R}_+} W_1^2X_1\cdot (W_1Y_1 + W_2 Y_2)e^{-\frac{\Vert {\tilde{W}}+Z^{t_0} \Vert^2}{2}} dW_1{\right)}dW_2 \\ & \ \ \ \ \ \ -\frac{1}{ 2 \pi }\int_{\mathbb{R}_-}{\left(}\int_0^{\frac{Y_2}{Y_1}W_2} W_1X_1 \cdot (W_1Y_1 + W_2 Y_2)e^{-\frac{\Vert {\tilde{W}}+Z^{t_0} \Vert^2}{2}} dW_1{\right)}dW_2 \end{aligned}\ & \ \ \text{si } \ \ Y_1 > 0 \\ &\cdot\frac{1}{ 2 \pi }\int_{\mathbb{R}_+}{\left(}\int_{\mathbb{R}_+} W_1X_1 W_2Y_2 e^{-\frac{\Vert {\tilde{W}}+Z^{t_0} \Vert^2}{2}} dW_1{\right)}dW_2 \ \ &\text{si } \ \ Y_1 = 0\\ \end{aligned} \right. \end{aligned}\] Nous allons donc commencer par calculer les intégrales du type \(\int_0^{u}x e^{-\frac{(x+z)^2}{2}}dx\) et \(\int_0^{u^2}x^2 e^{-\frac{(x+z)^2}{2}}\). En notant \(\erf(x)=\sqrt{\frac{2}{\pi}}\int_0^{u}e^{-\frac{x^2}{2}}dx\) on obtient les identités : \[\begin{aligned} \int_0^{u}x e^{-\frac{(x+z)^2}{2}}dx &=\frac{1}{2}{\left(}\int_0^{u}2(x+z) e^{-\frac{(x+z)^2}{2}}dx-z\int_0^{u} e^{-\frac{(x+z)^2}{2}} {\right)}\\ &=\frac{1}{2}{\left(}e^{-\frac{z^2}{2}}- e^{-\frac{(u+z)^2}{2}}{\right)}-\frac{z\sqrt{\pi}}{2\sqrt{2}} {\left(}\erf(u+z)-\erf(z){\right)}\\ \int_0^{u}x^2 e^{-\frac{(x+z)^2}{2}}dx &=\frac{1}{2}{\left(}\int_0^{u}2(x+z)x e^{-\frac{(x+z)^2}{2}}dx-z\int_0^{u} xe^{-\frac{(x+z)^2}{2}} {\right)}\\ &=\frac{1}{2}{\left(}{\left[ }-2x e^{-\frac{(x+z)^2}{2}}{\right] }_0^{u} +\int_0^{u} e^{-\frac{(x+z)^2}{2}}dx-z\int_0^{u} xe^{-\frac{(x+z)^2}{2}} {\right)}\\ &=\frac{1}{2}{\left(}(z-2u) e^{-\frac{(u+z)^2}{2}} -z e^{-\frac{z^2}{2}}{\right)}+(z^2+1)\frac{\sqrt{\pi}}{2\sqrt{2}} {\left(}\erf(u+z)-\erf(z){\right)}\end{aligned}\] Donc, si \(Y_1 >0\): \[\begin{aligned} &{\mathbb{E} \left[ }\sigma(WX) \cdot \sigma( WY) {\right] }=\\ &\hspace{1cm}=\cdot\frac{1}{ 2 \pi }\int_{\mathbb{R}_+}{\left(}\begin{aligned} & \frac{X_1Y_1{Z^{t_0}}_1-W_2X_1Y_2}{2}{\left(}e^{-\frac{{\left(}\frac{Y_2}{Y_1}W_2+{Z^{t_0}}_1{\right)}^2}{2}}-e^{-\frac{{Z^{t_0}}_1{}^2}{2}}{\right)}-2\frac{Y_2}{Y_1}W_2 e^{-\frac{{\left(}\frac{Y_2}{Y_1}W_2-{Z^{t_0}}_1{\right)}^2}{2}}\\ & +\frac{ \sqrt{\pi}}{2\sqrt{2}}{\left(}{\left(}{Z^{t_0}}_1{}^2+1{\right)}X_1Y_1-{Z^{t_0}}_2 X_1Y_1W_2{\right)}{\left(}\erf({Z^{t_0}}_1-\frac{Y_2}{Y_1}W_2)-\erf({Z^{t_0}}_1){\right)}\end{aligned} {\right)}e^{-\frac{{\left(}W_2 +{Z^{t_0}}_2 {\right)}^2}{2}} dW_2 \ \end{aligned}\] Car : \[\begin{aligned} \int_{\mathbb{R}_+} e^{-\frac{{\left(}\frac{Y_2}{Y_1}W_2+{Z^{t_0}}_1{\right)}^2}{2}}e^{-\frac{{\left(}W_2 +{Z^{t_0}}_2 {\right)}^2}{2}} dW_2 =&e^{-{Z^{t_0}}_2{}^2 +\frac{(Y_2+Y_1)^2}{2Y_1^2}}\int_{\mathbb{R}_+} \exp{\left(}-\frac{1}{2}{\left(}{\left(}\frac{Y_2^2}{Y_1^2}+1{\right)}W_2+\frac{\frac{Y_2+Y_1}{Y_1}}{\frac{Y_2^2}{Y_1^2}+1}{Z^{t_0}}_2{\right)}^2 {\right)}dW_2 \\ =& \sqrt{\frac{\pi}{2}} \frac{e^{- {\left(}\frac{(Y_2+Y_1)^2Y_1^2}{(Y_1^2+Y_2^2)^2}-1{\right)}{Z^{t_0}}_2{}^2}}{\frac{Y_2^2}{Y_1^2}+1} {\left(}1-\erf{\left(}\frac{\frac{Y_2+Y_1}{2Y_1}}{\frac{Y_2^2}{Y_1^2}+1}{Z^{t_0}}_2{\right)}{\right)}\\\end{aligned}\] \[\begin{aligned} &\int_{\mathbb{R}_+}W_2 e^{-\frac{{\left(}\frac{Y_2}{Y_1}W_2+{Z^{t_0}}_2{\right)}^2}{2}}e^{-\frac{{\left(}W_2 +{Z^{t_0}}_2 {\right)}^2}{2}} dW_2 \\ & \ \ \ \ \ =\frac{e^{-{Z^{t_0}}_2{}^2 +\frac{(Y_2+Y_1)^2}{2Y_1^2}}}{\frac{Y_2^2}{Y_1^2}+1}{\left(}\int_{\mathbb{R}_+} {\left(}{\left(}\frac{Y_2^2}{Y_1^2}+1 {\right)}W_2 + \frac{Y_2+Y_1}{2Y_1} {\right)}e^{-\frac{{\left(}{\left(}\frac{Y_2^2}{Y_1^2}+1{\right)}W_2+\frac{Y_2+Y_1}{2Y_1}{\right)}^2 }{2}} dW_2 {\right)}- e^{-{Z^{t_0}}_2{}^2 + \sqrt{\frac{2}{\pi}}\frac{(Y_2+Y_1)^2}{2Y_1^2}} \\ & \ \ \ \ \ ={\left(}\frac{\sqrt{\frac{2}{\pi}}}{\frac{Y_2^2}{Y_1^2}+1}-1{\right)}e^{-{Z^{t_0}}_2{}^2 +\frac{(Y_2+Y_1)^2}{2Y_1^2}}\end{aligned}\]
  • cosme
cosme
École normale supérieure

Corresponding Author:[email protected]

Author Profile